当社でもAI導入を、と考えると一般的にはまず社内のデータ分析から始める。データ分析用のさまざまな製品やアプリケーションがあるが、今回は無償で開始できるMicrosoft Rを紹介する。
Microsoftの「Microsoft R」は、統計分析用オープンソース開発言語「R」のMicrosoftによる拡張版だ。データサイエンティスト、統計学者、大学教授が主に利用している。MicrosoftのR製品群には他に「Microsoft R Open」「Microsoft R Client」「Microsoft R Server」がある。
Microsoft R Open(旧Revolution R Open)は、Rの拡張版だ。Microsoft R Openには「Reproducible R Toolkit」が付属する。このツールキットによって、Rコードの実行結果が何度でも再現可能になり、同じコードを実行すれば誰でも全く同じ結果が得られる。Microsoft R Openは無償でダウンロード、使用、共有できる。
Microsoft R Openは、Cloudera、Hortonworks、MapRを始めとする各種Hadoopのディストリビューション(オープンソースをカスタマイズしたパッケージ製品)を含む実行環境で動作する。さらに、データ分析分野の大手企業TeradataやIBMなどが提供する業務用データウェアハウス基盤や、MicrosoftやIBMが提供する計算グリッド(計算処理を広域ネットワークに分散、実行する仕組み)でも動作する。
Microsoft R ClientとMicrosoft R ServerはいずれもMicrosoft R Openを基に構築しており、Microsoft独自の「ScaleR」テクノロジーを利用する。これは、演算処理とデータ分析の並列化をサポートするビッグデータ分析アルゴリズムの包括的なライブラリだ。
Microsoft R Clientは無償で使える分析ツールで、データ分析を実行しても高パフォーマンスを維持する。ユーザーはScaleRテクノロジーによる並列処理を使用してデータ分析を実行できる。ただし幾つか制限もあり、データ処理の上限はローカル端末のメモリに依存する。また複数のScaleR関数を使用する場合は2つのスレッドしか処理することができない。
Microsoft R ServerはMicrosoft R Openをベースに構築されており、業務利用できるレベルのパフォーマンスと拡張性を持っている。Microsoft R Openと同様にRの拡張版になる。クラスタ並列処理によってRスクリプトとComprehensive R Archive Network(CRAN)パッケージを実行することが可能だ。また、ディスクの拡張性を利用しサーバのメモリ容量を上回るデータを使った分析を実行できるようにして、Microsoft R Clientよりも活用の幅が広がる。
Microsoft R ServerがサポートするScaleRアルゴリズムは、最適化した並列外部メモリとして動作する。外部メモリとして動作するため、メモリの制限が少なくなる。このアルゴリズムは、使用可能なRAMとストレージをまとめて管理し、結果として分析処理の拡張性を向上する。ScaleRのツールがあれば、開発者は特別な開発方法や言語を用いなくてもインフラ環境を整えるだけで並列処理を実行できる。
Copyright © ITmedia, Inc. All Rights Reserved.
「TikTok禁止」は結局、誰得? どうするトランプ氏――2025年のSNS大予測(TikTok編)
米国での存続を巡る議論が続く一方で、アプリ内ショッピングやAI機能の拡大など、TikTok...
ネットの口コミを参考に8割超が商品を購入 最も参考にした口コミの掲載先は?
ホットリンクは、口コミ投稿の経験や購買への影響を調査した結果を発表した。
「生成AIの普及でSEOはオワコン」説は本当か?
生成AIの普及によりSEOが「オワコン」化するという言説を頻繁に耳にするようになりました...