2017年11月07日 09時00分 公開
特集/連載

競合企業はもう使っている?Microsoftが提供する「R」とは何か、HadoopはもちろんODBCにも対応

当社でもAI導入を、と考えると一般的にはまず社内のデータ分析から始める。データ分析用のさまざまな製品やアプリケーションがあるが、今回は無償で開始できるMicrosoft Rを紹介する。

[Abie Reifer,TechTarget]
画像 Microsoft Rのファミリー製品を把握

 Microsoftの「Microsoft R」は、統計分析用オープンソース開発言語「R」のMicrosoftによる拡張版だ。データサイエンティスト、統計学者、大学教授が主に利用している。MicrosoftのR製品群には他に「Microsoft R Open」「Microsoft R Client」「Microsoft R Server」がある。

Microsoft R Open

 Microsoft R Open(旧Revolution R Open)は、Rの拡張版だ。Microsoft R Openには「Reproducible R Toolkit」が付属する。このツールキットによって、Rコードの実行結果が何度でも再現可能になり、同じコードを実行すれば誰でも全く同じ結果が得られる。Microsoft R Openは無償でダウンロード、使用、共有できる。

 Microsoft R Openは、Cloudera、Hortonworks、MapRを始めとする各種Hadoopのディストリビューション(オープンソースをカスタマイズしたパッケージ製品)を含む実行環境で動作する。さらに、データ分析分野の大手企業TeradataやIBMなどが提供する業務用データウェアハウス基盤や、MicrosoftやIBMが提供する計算グリッド(計算処理を広域ネットワークに分散、実行する仕組み)でも動作する。

Microsoft R Client

 Microsoft R ClientとMicrosoft R ServerはいずれもMicrosoft R Openを基に構築しており、Microsoft独自の「ScaleR」テクノロジーを利用する。これは、演算処理とデータ分析の並列化をサポートするビッグデータ分析アルゴリズムの包括的なライブラリだ。

 Microsoft R Clientは無償で使える分析ツールで、データ分析を実行しても高パフォーマンスを維持する。ユーザーはScaleRテクノロジーによる並列処理を使用してデータ分析を実行できる。ただし幾つか制限もあり、データ処理の上限はローカル端末のメモリに依存する。また複数のScaleR関数を使用する場合は2つのスレッドしか処理することができない。

Microsoft R Server

 Microsoft R ServerはMicrosoft R Openをベースに構築されており、業務利用できるレベルのパフォーマンスと拡張性を持っている。Microsoft R Openと同様にRの拡張版になる。クラスタ並列処理によってRスクリプトとComprehensive R Archive Network(CRAN)パッケージを実行することが可能だ。また、ディスクの拡張性を利用しサーバのメモリ容量を上回るデータを使った分析を実行できるようにして、Microsoft R Clientよりも活用の幅が広がる。

 Microsoft R ServerがサポートするScaleRアルゴリズムは、最適化した並列外部メモリとして動作する。外部メモリとして動作するため、メモリの制限が少なくなる。このアルゴリズムは、使用可能なRAMとストレージをまとめて管理し、結果として分析処理の拡張性を向上する。ScaleRのツールがあれば、開発者は特別な開発方法や言語を用いなくてもインフラ環境を整えるだけで並列処理を実行できる。

ODBCなどのオプションで他システムとの連携も可能

ITmedia マーケティング新着記事

news037.jpg

2019年の消費増税前後で日本人の消費はどう動いたか――Criteo幹部が解説
若い世代を中心に増税前の消費は上昇したものの買われたのは低価格な日用品が中心。ECよ...

news063.jpg

過度なオンラインショッピングは「依存症」、感情に基づく広告etc. Gartnerの戦略的展望
Gartnerが発表した重要な戦略的展望トップ10からマーケティングやCX(顧客体験)に関わる...