Microsoftの「Microsoft R」は、統計分析用オープンソース開発言語「R」のMicrosoftによる拡張版だ。データサイエンティスト、統計学者、大学教授が主に利用している。MicrosoftのR製品群には他に「Microsoft R Open」「Microsoft R Client」「Microsoft R Server」がある。
Microsoft R Open(旧Revolution R Open)は、Rの拡張版だ。Microsoft R Openには「Reproducible R Toolkit」が付属する。このツールキットによって、Rコードの実行結果が何度でも再現可能になり、同じコードを実行すれば誰でも全く同じ結果が得られる。Microsoft R Openは無償でダウンロード、使用、共有できる。
Microsoft R Openは、Cloudera、Hortonworks、MapRを始めとする各種Hadoopのディストリビューション(オープンソースをカスタマイズしたパッケージ製品)を含む実行環境で動作する。さらに、データ分析分野の大手企業TeradataやIBMなどが提供する業務用データウェアハウス基盤や、MicrosoftやIBMが提供する計算グリッド(計算処理を広域ネットワークに分散、実行する仕組み)でも動作する。
Microsoft R ClientとMicrosoft R ServerはいずれもMicrosoft R Openを基に構築しており、Microsoft独自の「ScaleR」テクノロジーを利用する。これは、演算処理とデータ分析の並列化をサポートするビッグデータ分析アルゴリズムの包括的なライブラリだ。
Microsoft R Clientは無償で使える分析ツールで、データ分析を実行しても高パフォーマンスを維持する。ユーザーはScaleRテクノロジーによる並列処理を使用してデータ分析を実行できる。ただし幾つか制限もあり、データ処理の上限はローカル端末のメモリに依存する。また複数のScaleR関数を使用する場合は2つのスレッドしか処理することができない。
Microsoft R ServerはMicrosoft R Openをベースに構築されており、業務利用できるレベルのパフォーマンスと拡張性を持っている。Microsoft R Openと同様にRの拡張版になる。クラスタ並列処理によってRスクリプトとComprehensive R Archive Network(CRAN)パッケージを実行することが可能だ。また、ディスクの拡張性を利用しサーバのメモリ容量を上回るデータを使った分析を実行できるようにして、Microsoft R Clientよりも活用の幅が広がる。
Microsoft R ServerがサポートするScaleRアルゴリズムは、最適化した並列外部メモリとして動作する。外部メモリとして動作するため、メモリの制限が少なくなる。このアルゴリズムは、使用可能なRAMとストレージをまとめて管理し、結果として分析処理の拡張性を向上する。ScaleRのツールがあれば、開発者は特別な開発方法や言語を用いなくてもインフラ環境を整えるだけで並列処理を実行できる。
ARで小売業との連携を強化、ショッピングにより強いSNSに――2024年のSNS大予測(Pinterest編)
2024年のPinterestのテーマはIRL(In Real Life:現実世界)との接続となるだろう。
データ分析系ニュースまとめ(2023年12月第1週)
今週は、SEO対策の内製化を支援するアシストの新サービスなど3つのニュースを取り上げる。
ディズニーなど主要広告主に暴言 イーロン・マスク氏はなぜX離れが加速しても煽りをやめないのか?
New York Timesが主催するイベントの壇上でイーロン・マスク氏は、彼の投稿がきっかけと...