RDBへの機能統合が進むデータマイニングツールの最新動向BIツール最前線:データマイニングツール編

データマイニングツールの基本機能を解説するとともに、代表製品を紹介。DWHとして使用するRDBにデータマイニングツールと同様のアルゴリズム実行モジュールを追加し、処理の高速化を目指す製品が登場している。

2011年06月27日 09時00分 公開
[平井明夫,アイエイエフコンサルティング]

データマイニングツールに求められる機能

 ビジネスインテリジェンス(BI)ツールの中で、意思決定プロセスにおける「対処のヒントを得るため」に利用されるのが、データマイニングツールだ。「コマーシャルOSSが注目を集めるリポーティングツールの最新動向」で解説したリポーティングツールと、「インメモリデータベースで高速処理化が進む最新OLAP分析ツール」で解説したOLAP分析ツールは、「この数字はこうなるはず」というあるべき値が存在し、それとズレが生じた場合に影響を与えた要因を検証する(確認する)ことが利用の目的だった。一方、データマイニングツールは、問題や課題に対する対処策のヒントを得るために、さまざまなデータから使えそうな未知の関係や傾向などを探して検証し(確認する)、対処策の実行につなげる、つまり対処のヒントを得るということが利用の目的となる。

 対処のヒントを得ることを目的としたデータ分析には、まず、回帰分析に代表される一般的な統計解析手法が用いられる。回帰分析を分かりやすく説明すると、ある原因に対する結果となる値が、本当にそのような相関関係を持っているのかどうかを調べる分析方法だ(参考:@IT情報マネジメント用語事典)。

 回帰分析は以下4つのステップに従って行う。

  1. 散布図を作成する
  2. 回帰式を求める
  3. R-2乗値を調べる
  4. 予測を行う

 簡単な回帰分析であれば、特にデータマイニングツールと呼ばれる製品を利用しなくてもMicrosoft Excel(以下、Excel)で簡単に実行できる。

画像 画面1:回帰分析の元データ

 画面1にある2組のデータを使用して、回帰分析を行ってみよう。まずはそれぞれについてExcelで散布図を作成し、近似曲線(線形近似)を追加する。その際に、[グラフに数式を表示する]と[グラフにR-2乗値を表示する]をチェックする。そうすると、結果として作成される散布図に、画面2のように回帰式とR-2乗値が表示される。

画像 近似曲線の書式設定。[グラフに数式を表示する]と[グラフにR-2乗値を表示する]にチェックを入れる
画像画像 画面2:Excelを使用した回帰分析の例《クリックで拡大》

 回帰式とは、原因と結果の間にある関係を表す式のことだ。2つのグラフ(画面2)では、2組のデータについてほぼ同じ回帰式が求められている。しかし、R-2乗値は全く異なった値が求められていることが分かる。R-2乗値とは、原因と結果の間にある関係の強さ(R-2乗値が大きいほど関係が強い)を表す。従って、2組目のデータは回帰分析の結果、「原因と結果の間には予測が可能になるような明確な関係は見られない」ということになる。一方、1組目のデータは十分大きいR-2乗値が求められたので、同時に求められた回帰式を使って予測が可能であるということになる。

 回帰分析の結果として、予測可能な回帰式が求められた場合、以下のいずれかの方法で、任意の原因の値に対する、結果となる値を予測することができる。

  1. 散布図上に表示された回帰式を、Excelの式として作成し、予測を行う
  2. Forecast関数を使用して予測を行う

 Forecast関数の機能には回帰式を求めることも含まれているので、散布図の作成や近似曲線の追加を行わなくても、予測することが可能だ。

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news132.jpg

ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。

news103.jpg

なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...

news160.jpg

業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...