ギャンブルが起源「データサイエンス」の基礎が分かる“4つの予測モデル”とは?データサイエンスのモデル入門【第1回】

データ駆動型の意思決定がビジネスに欠かせなくなった。企業は予測モデルを構築してシミュレーションを重ねることで、深い洞察を得ることができる。代表的な4つのモデルについて、その起源や特徴を解説する。

2024年02月14日 05時15分 公開
[Kurt CagleTechTarget]

関連キーワード

データ | データ分析


 ビジネスの意思決定に欠かせなくなったデータ分析。その起源は、ギャンブルにある。さいころを振った際に特定の目が出る確率や、ルーレットやポーカーのオッズ(概算払戻率)の計算から、「二項分布」や「正規分布」といった統計学の基礎が出来上がった。

 現代では、経済学や生物学、物理学など多岐にわたる分野で、複雑な問題を解決するために統計学が用いられる。データサイエンティストは統計学の知識を用いて、複雑な事象の構造や仕組み、関係性などを単純化した予測モデルを作成し、シミュレーションを実施する。代表的なモデルには以下のようなものがある。

4つの予測モデル

  • モンテカルロシミュレーション
  • エージェントベースモデリング
  • 離散事象シミュレーション
  • システムダイナミックスモデリング(SDM)

 企業は意思決定や計画策定にモデルを使用し、仮想環境でシステムのテストを実施する。他にもこれらのモデルは、映像・音声合成技術やゲーム、機械学習(ML)アルゴリズムなどの基礎となる。

主要予測モデルを解説

モンテカルロシミュレーション

 1940年代に発明されたモンテカルロシミュレーションは、ランダム性や不確実性の強い事象について起こり得る結果を予測する数学的手法だ。不確実性を含んだ変数に大量の異なる乱数をモデルに与えてそのシミュレーション結果を観測し、確率的事象を求める。

 モンテカルロという名前は、リゾート地モナコ公国のモンテカルロ地区にある有名なカジノのルーレットに由来する。ルーレットのホイール(回転盤)には0から36まで37個のポケットがあり、赤色のポケットが18個、黒色のポケットが18個、緑色のポケットが1個の割合となっている。ボールを投げ入れると、赤と黒のポケットにボールが止まる確率はそれぞれ48.65%、緑のポケット(0番)に止まる確率は2.7%だ。確率はデータの分布図で表現できる。

 各回の結果はランダムだが、1000回以上繰り返せば、結果の分布はそれぞれの確率の値に近づくはずだ。もし近づかない場合は、他の変数が影響している可能性がある。例えば、ディーラーがペダルをこっそり使用してホイールの回転速度を変えていないか確認した方がいいだろう。

 一般的に、モンテカルロシミュレーションは正確性に優れているが、効率は悪いとされる。よく知られている例が円周率の計算だ。計算には何百万ものデータポイント(分析対象データ)が必要になる可能性がある。

 モンテカルロシミュレーションは、事前情報と新しいデータを用いて事象の発生可能性を判断する「ベイズ統計」で使用される。例えば、政治アナリストは世論調査を実施して変数を選択し、シミュレーションモデルを構築する。その検証に、モンテカルロシミュレーションを用いる。天気予報の一種であり、予測に伴う誤差を考慮した「アンサンブル予報」においても、台風の進路予想などにモンテカルロシミュレーションが使われる。


 次回はエージェントベースモデリングを具体的に紹介する。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news006.jpg

「TikTok禁止」は結局、誰得? どうするトランプ氏――2025年のSNS大予測(TikTok編)
米国での存続を巡る議論が続く一方で、アプリ内ショッピングやAI機能の拡大など、TikTok...

news202.jpg

ネットの口コミを参考に8割超が商品を購入 最も参考にした口コミの掲載先は?
ホットリンクは、口コミ投稿の経験や購買への影響を調査した結果を発表した。

news071.jpg

「生成AIの普及でSEOはオワコン」説は本当か?
生成AIの普及によりSEOが「オワコン」化するという言説を頻繁に耳にするようになりました...