Microsoftの「Microsoft R」は、統計分析用オープンソース開発言語「R」のMicrosoftによる拡張版だ。データサイエンティスト、統計学者、大学教授が主に利用している。MicrosoftのR製品群には他に「Microsoft R Open」「Microsoft R Client」「Microsoft R Server」がある。
Microsoft R Open(旧Revolution R Open)は、Rの拡張版だ。Microsoft R Openには「Reproducible R Toolkit」が付属する。このツールキットによって、Rコードの実行結果が何度でも再現可能になり、同じコードを実行すれば誰でも全く同じ結果が得られる。Microsoft R Openは無償でダウンロード、使用、共有できる。
Microsoft R Openは、Cloudera、Hortonworks、MapRを始めとする各種Hadoopのディストリビューション(オープンソースをカスタマイズしたパッケージ製品)を含む実行環境で動作する。さらに、データ分析分野の大手企業TeradataやIBMなどが提供する業務用データウェアハウス基盤や、MicrosoftやIBMが提供する計算グリッド(計算処理を広域ネットワークに分散、実行する仕組み)でも動作する。
Microsoft R ClientとMicrosoft R ServerはいずれもMicrosoft R Openを基に構築しており、Microsoft独自の「ScaleR」テクノロジーを利用する。これは、演算処理とデータ分析の並列化をサポートするビッグデータ分析アルゴリズムの包括的なライブラリだ。
Microsoft R Clientは無償で使える分析ツールで、データ分析を実行しても高パフォーマンスを維持する。ユーザーはScaleRテクノロジーによる並列処理を使用してデータ分析を実行できる。ただし幾つか制限もあり、データ処理の上限はローカル端末のメモリに依存する。また複数のScaleR関数を使用する場合は2つのスレッドしか処理することができない。
Microsoft R ServerはMicrosoft R Openをベースに構築されており、業務利用できるレベルのパフォーマンスと拡張性を持っている。Microsoft R Openと同様にRの拡張版になる。クラスタ並列処理によってRスクリプトとComprehensive R Archive Network(CRAN)パッケージを実行することが可能だ。また、ディスクの拡張性を利用しサーバのメモリ容量を上回るデータを使った分析を実行できるようにして、Microsoft R Clientよりも活用の幅が広がる。
Microsoft R ServerがサポートするScaleRアルゴリズムは、最適化した並列外部メモリとして動作する。外部メモリとして動作するため、メモリの制限が少なくなる。このアルゴリズムは、使用可能なRAMとストレージをまとめて管理し、結果として分析処理の拡張性を向上する。ScaleRのツールがあれば、開発者は特別な開発方法や言語を用いなくてもインフラ環境を整えるだけで並列処理を実行できる。
コロナ禍における「ご自愛消費」の現状――スナックミー調査
「ご自愛消費」として最も多いのは「スイーツやおやつ」で全体の68%。その他、ランチ38...
正月三が日のテレビ視聴は過去10年間で最高値――ビデオリサーチ調査
正月三が日の総世帯視聴率(HUT)は過去10年で最高値となり、年末年始のテレビ視聴は例年...
KOLやKOCによる口コミを創出するために必要なこと
中国向けにマーケティングを行う上で重要なのが口コミである。口コミには友人・知人間で...