RDBへの機能統合が進むデータマイニングツールの最新動向BIツール最前線:データマイニングツール編

データマイニングツールの基本機能を解説するとともに、代表製品を紹介。DWHとして使用するRDBにデータマイニングツールと同様のアルゴリズム実行モジュールを追加し、処理の高速化を目指す製品が登場している。

2011年06月27日 09時00分 公開
[平井明夫,アイエイエフコンサルティング]

データマイニングツールに求められる機能

 ビジネスインテリジェンス(BI)ツールの中で、意思決定プロセスにおける「対処のヒントを得るため」に利用されるのが、データマイニングツールだ。「コマーシャルOSSが注目を集めるリポーティングツールの最新動向」で解説したリポーティングツールと、「インメモリデータベースで高速処理化が進む最新OLAP分析ツール」で解説したOLAP分析ツールは、「この数字はこうなるはず」というあるべき値が存在し、それとズレが生じた場合に影響を与えた要因を検証する(確認する)ことが利用の目的だった。一方、データマイニングツールは、問題や課題に対する対処策のヒントを得るために、さまざまなデータから使えそうな未知の関係や傾向などを探して検証し(確認する)、対処策の実行につなげる、つまり対処のヒントを得るということが利用の目的となる。

 対処のヒントを得ることを目的としたデータ分析には、まず、回帰分析に代表される一般的な統計解析手法が用いられる。回帰分析を分かりやすく説明すると、ある原因に対する結果となる値が、本当にそのような相関関係を持っているのかどうかを調べる分析方法だ(参考:@IT情報マネジメント用語事典)。

 回帰分析は以下4つのステップに従って行う。

  1. 散布図を作成する
  2. 回帰式を求める
  3. R-2乗値を調べる
  4. 予測を行う

 簡単な回帰分析であれば、特にデータマイニングツールと呼ばれる製品を利用しなくてもMicrosoft Excel(以下、Excel)で簡単に実行できる。

画像 画面1:回帰分析の元データ

 画面1にある2組のデータを使用して、回帰分析を行ってみよう。まずはそれぞれについてExcelで散布図を作成し、近似曲線(線形近似)を追加する。その際に、[グラフに数式を表示する]と[グラフにR-2乗値を表示する]をチェックする。そうすると、結果として作成される散布図に、画面2のように回帰式とR-2乗値が表示される。

画像 近似曲線の書式設定。[グラフに数式を表示する]と[グラフにR-2乗値を表示する]にチェックを入れる
画像画像 画面2:Excelを使用した回帰分析の例《クリックで拡大》

 回帰式とは、原因と結果の間にある関係を表す式のことだ。2つのグラフ(画面2)では、2組のデータについてほぼ同じ回帰式が求められている。しかし、R-2乗値は全く異なった値が求められていることが分かる。R-2乗値とは、原因と結果の間にある関係の強さ(R-2乗値が大きいほど関係が強い)を表す。従って、2組目のデータは回帰分析の結果、「原因と結果の間には予測が可能になるような明確な関係は見られない」ということになる。一方、1組目のデータは十分大きいR-2乗値が求められたので、同時に求められた回帰式を使って予測が可能であるということになる。

 回帰分析の結果として、予測可能な回帰式が求められた場合、以下のいずれかの方法で、任意の原因の値に対する、結果となる値を予測することができる。

  1. 散布図上に表示された回帰式を、Excelの式として作成し、予測を行う
  2. Forecast関数を使用して予測を行う

 Forecast関数の機能には回帰式を求めることも含まれているので、散布図の作成や近似曲線の追加を行わなくても、予測することが可能だ。

ITmedia マーケティング新着記事

news024.png

「ECプラットフォーム」 売れ筋TOP10(2024年3月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news090.jpg

GoogleがZ世代のローカル検索でInstagramやTikTokに敗北 なぜこうなった? これからどうなる?
Googleは依然として人気の検索サイトだが、ことZ世代のローカル検索に関しては、Instagra...

news056.png

DE&Iに関する実態調査 「公平」と「平等」の違いについて認知度は2割未満
NTTデータ経営研究所がNTTコム オンライン・マーケティング・ソリューションと共同で実施...