2011年06月27日 09時00分 UPDATE
特集/連載

BIツール最前線:データマイニングツール編RDBへの機能統合が進むデータマイニングツールの最新動向

データマイニングツールの基本機能を解説するとともに、代表製品を紹介。DWHとして使用するRDBにデータマイニングツールと同様のアルゴリズム実行モジュールを追加し、処理の高速化を目指す製品が登場している。

[平井明夫,アイエイエフコンサルティング]

データマイニングツールに求められる機能

 ビジネスインテリジェンス(BI)ツールの中で、意思決定プロセスにおける「対処のヒントを得るため」に利用されるのが、データマイニングツールだ。「コマーシャルOSSが注目を集めるリポーティングツールの最新動向」で解説したリポーティングツールと、「インメモリデータベースで高速処理化が進む最新OLAP分析ツール」で解説したOLAP分析ツールは、「この数字はこうなるはず」というあるべき値が存在し、それとズレが生じた場合に影響を与えた要因を検証する(確認する)ことが利用の目的だった。一方、データマイニングツールは、問題や課題に対する対処策のヒントを得るために、さまざまなデータから使えそうな未知の関係や傾向などを探して検証し(確認する)、対処策の実行につなげる、つまり対処のヒントを得るということが利用の目的となる。

 対処のヒントを得ることを目的としたデータ分析には、まず、回帰分析に代表される一般的な統計解析手法が用いられる。回帰分析を分かりやすく説明すると、ある原因に対する結果となる値が、本当にそのような相関関係を持っているのかどうかを調べる分析方法だ(参考:@IT情報マネジメント用語事典)。

 回帰分析は以下4つのステップに従って行う。

  1. 散布図を作成する
  2. 回帰式を求める
  3. R-2乗値を調べる
  4. 予測を行う

 簡単な回帰分析であれば、特にデータマイニングツールと呼ばれる製品を利用しなくてもMicrosoft Excel(以下、Excel)で簡単に実行できる。

画像 画面1:回帰分析の元データ

 画面1にある2組のデータを使用して、回帰分析を行ってみよう。まずはそれぞれについてExcelで散布図を作成し、近似曲線(線形近似)を追加する。その際に、[グラフに数式を表示する]と[グラフにR-2乗値を表示する]をチェックする。そうすると、結果として作成される散布図に、画面2のように回帰式とR-2乗値が表示される。

画像 近似曲線の書式設定。[グラフに数式を表示する]と[グラフにR-2乗値を表示する]にチェックを入れる
画像画像 画面2:Excelを使用した回帰分析の例《クリックで拡大》

 回帰式とは、原因と結果の間にある関係を表す式のことだ。2つのグラフ(画面2)では、2組のデータについてほぼ同じ回帰式が求められている。しかし、R-2乗値は全く異なった値が求められていることが分かる。R-2乗値とは、原因と結果の間にある関係の強さ(R-2乗値が大きいほど関係が強い)を表す。従って、2組目のデータは回帰分析の結果、「原因と結果の間には予測が可能になるような明確な関係は見られない」ということになる。一方、1組目のデータは十分大きいR-2乗値が求められたので、同時に求められた回帰式を使って予測が可能であるということになる。

 回帰分析の結果として、予測可能な回帰式が求められた場合、以下のいずれかの方法で、任意の原因の値に対する、結果となる値を予測することができる。

  1. 散布図上に表示された回帰式を、Excelの式として作成し、予測を行う
  2. Forecast関数を使用して予測を行う

 Forecast関数の機能には回帰式を求めることも含まれているので、散布図の作成や近似曲線の追加を行わなくても、予測することが可能だ。

この記事を読んだ人にお薦めのホワイトペーパー

この記事を読んだ人にお薦めの関連記事

Loading

注目テーマ

ITmedia マーケティング新着記事

news120.jpg

「CEOになるのは嫌だって? うん、正しいね」 Oracle マーク・ハード氏のキーノートは貫録たっぷり
ミミズクのノヤン先生を連れ米国遠征中の庭山一郎氏。世界のB2Bマーケティングの最先端事...

news066.jpg

大日本印刷、「DNPデジタルマーケティングプラットフォーム diip」のクラウド版を提供
大日本印刷(以下、DNP)は2017年4月24日、「DNPデジタルマーケティングプラットフォーム...

news072.jpg

クレディセゾン、データビジネス強化に向けアドテク専業のオムニバスの株式を100%取得
クレディセゾンは2017年4月25日、アドテクノロジーを活用してマーケティング支援を行うオ...