グラフデータベース技術の進化Computer Weekly製品ガイド

3世紀前から知られていた数学に基づくグラフデータベースは、FacebookやTwitterなどの企業を越えてビジネスバリューをもたらしつつある。

2016年09月28日 08時00分 公開
[Stephen PritchardComputer Weekly]

 グラフデータベースは現代的な応用を加えた18世紀の概念だ。

 出会い系サイトや不正検出など幅広い業務に使われるグラフ技術は、単なるデータではなく関係に着目することで機能する。その背後にあるアイデア──あるいは少なくとも理論的根拠──は、スイスの数学者レオンハルト・オイラーが1735年に提唱したものだ。

 ほぼ300年の間、グラフ理論はほとんど学術研究の域を出なかった。だが、大量のデータ、特にデータ間の複雑な関係を扱う独創的な方法だったことが分かってきた。

 グラフ理論を応用して開発されているグラフデータベースでは、データだけでなく関係が特別な扱いを受ける。データそのものだけでなくデータのつながりを記録することで、グラフデータベースのシステムは素早く情報を掘り起こし、トレンドを見極めて、リアルタイム分析やソーシャルネットワーク、サプライチェーンのパターン、さらには犯罪の波のマッピングに利用できるパワフルなツールを提供する。グラフデータベースはつながりや関係(エッジと呼ばれる)に目を向けることにより、従来のデータベースシステムでは何日もかかっていたかもしれないクエリに対し、数分あるいは数秒で答えを出す。

グラフデータベースの実例

 Gartnerでデータと分析を担当する調査ディレクター、アラン・ダンカン氏によれば、グラフ技術は公共セクターと民間セクターの両方で幅広く応用されるようになっている。

 「捜査機関はこれを使って犯罪のパターンを調べ、防犯に活用している。銀行では詐欺対策責任者が詐欺のネットワークを見つける必要があり、通信網を運営する業者は通話経路を最適化する必要がある」(ダンカン氏)。同氏は、そうした用途がグラフデータベース技術の主な事例であり、そこには「自分の関心事項に影響を及ぼす複雑な関係」があると解説する。

 これまでのところ、グラフデータベースの最大のアプリケーションはプロプライエタリ技術をベースとしてきた。ソーシャルネットワークが使っているグラフ技術は大部分が、少なくとも今のところ、外部には公開されていない。TwitterやFacebook、LinkedInはいずれも、グラフデータベースを使ってユーザー間のつながりを特定したり、広告主にとって役に立つ情報を生成したりしている。つまり、インターネットに接続している人なら誰もがある程度のグラフデータベース技術を日常的に利用していながら、ビジネスにおける同ツールの導入は依然として限定的で、場合によっては実験的だ。例えばGartnerの推計では、グラフデータベースのターゲット市場のうち同技術を使っているのはわずか1〜5%にすぎず、企業が実施しているグラフデータベースプロジェクトの多くは実験段階や概念実証段階にある。

 実際のところ企業は、例えば事業部門が導入した不正検出パッケージやグラフ機能を搭載した概略分析ツールなど、専用アプリケーションを通じてグラフツールを使っていることの方が多い。だが、組織が保存するデータの量が増え、ビジネス分析でデータ間の関係に一層重点を置くようになれば、その状況は変わるかもしれない。

データが導く意思決定

 「われわれはデータに基づいてかなりの意思決定を行っている」と話すのは、オンラインゲームサイト「Gamesys」のプレイヤーサービスプラットフォーム責任者、トビー・オルーク氏。「われわれは常にデータの取り込みを増やし、プレイヤーとプレー方法に関するサイト上の現状ついて、より多くを知ろうとしている」と話す。

 Gamesysが同サイトにソーシャルネットワークの要素を構築すると決めた時点でグラフデータベースを選んだのはパフォーマンスが理由だが、導入しやすかったからでもある。

 「ソーシャルネットワークをどこかに保存する必要があった。それにはグラフのようなストレージシステムが非常に適していると思えた。基盤となる技術上で、問題は非常にうまくマッピングできた。ドメインモデルをわれわれのJavaアプリケーション内部で構築し、抽象層を何層も重ねなくてもデータストアにほぼ直接マッピングできたおかげで、大幅に高速化できた」

 オルーク氏はそう語り、商品化までに要する時間が重要な業界にとって、これは相当のメリットだと指摘した。

関係の構築

 Gamesysが使っているグラフデータベース「Neo4j」を手掛けるNeo Technologiesのエミル・アイフレムCEOによると、グラフデータベースを導入する企業は一般的にこうした道をたどるという。

 「10〜15年前までは、Web企業のビジネスモデルはデータを基盤としていた。確かにデータは貴重だが、データの関係も貴重だ。その価値は人と人の関係にあり、それがFacebookを浮上させた」と同氏は言う。

 「それからGoogleがWebサイト間のつながりに目を向け始め、そのリンクグラフを抽出してサイトのランク付けに利用した。そしてわれわれは、データ内の関係は簡単には管理できないという点で、自ら有形の問題にぶつかった。真に利用できるものは何もなかった」(同氏)

 関係に目を向ける限り、Neo4jは従来のリレーショナルデータベースに比べて1000倍、あるいは1万倍も高速にインストールできるとアイフレム氏は主張する。しかも、データ間の関係に目を向けるというアイデアは、思ったほどは難しくないという。

 「車の在庫を管理するシステムを構築する場合、車とその部品の情報を保存するシステムを構築する。そしてフロントガラス、車輪、ハンドルなどのデータベースが出来上がる。これらは物体だが、その間には関係がある。このネジはここにはまるとか、この部品はあの部品にしか合わないといった関係もあるかもしれない。全ての部品は他の部品と接続されるが、それをテーブルベースのデータベースにはめ込むことはできない」

 グラフ技術を利用すれば、例えばメンテナンス用部品の選択肢を狭めることができる他、ディーラーが見込み客に新車のオプションについて最新のリストを提示するといった方法でも活用できる。

スピードのニーズへの対応

 同じようなツールはインターネット通販業者がレコメンデーションエンジンのために利用し、ソーシャルメディア企業は新しいつながりを提案する用途で使っている。

 CIO(最高情報責任者)はもちろん、リレーショナルデータベースでレコメンデーションシステムを構築することもできる。だがクエリの実行にかかる時間を考えるとそれはバッチで行う必要があり、そうなるとデータが古くなる危険が生じる。グラフシステムの方がはるかに高速だ。

 コンサルティング会社GraphAwareのマネージングディレクター、マイケル・バックマン氏は言う。「現在の世界では、最新のデータに基づいて意思決定することが望ましい。一晩かかって演算したお勧めよりも、最新の情報に基づくリアルタイム情報をユーザーに提供したいと考える」

 グラフベースのシステムの反応時間はミリ秒単位にできると同氏は話す。

論理的で柔軟性の高いグラフ

 グラフ技術にはもう1つ、使いやすさという利点がある。導入が複雑になりかねない技術としては意外だが、グラフの魅力の一部は、データポイント間の関係が比較的理解しやすい形で提示されることにある。

 「技術者でなくても円や矢印を描いて、グラフシステムが表すビジネス理論について説明できる。開発者やデータサイエンティストである必要はない」とバックマン氏。

 グラフデータベースは従来型のデータベースに比べて柔軟性も高い。一般的なシステムに比べて幅広い情報を保存でき、1つの項目に対して複数の情報を付加できる。一般的なデータベースでは2つの職業を持つ従業員についての記述が難しい場合もあるが、これもグラフデータベースなら簡単に処理できる。

隠れた技術

 こうした利点がありながら、グラフデータベースに直接投資している企業はまだ比較的少ない。どちらかといえば、中核にグラフを使っていながらユーザーにはその技術を隠している専門用途のツールを導入することの方が多い。不正検出システムやソーシャルメディアモニタパッケージの多くはそうしたアプローチを採る。だが同技術の魅力がもっと普及すれば、グラフ技術を直接構築したり、グラフ機能を組み込んだ分析ツールに投資したりする企業が増えるだろう。

 「今のところ、グラフ技術は他の一部の技術ほど速いペースでは普及していない。だがグラフデータベースを中心とするエコシステムが結集し、いずれ主流のデータプラットフォームになると確信している」。バックマン氏はそう語った。

ITmedia マーケティング新着記事

news084.jpg

生成AIが生み出す「バーチャル生活者」の声を聴くメリットとは?
博報堂は、独自の大規模生活者調査データベースに生成AI技術を組み合わせて作り出した「...

news038.jpg

生活者の生成AI利用動向 10代後半はすでに5割近くが経験――リクルート調査
テキスト型生成AIサービスの利用経験者の割合は若い年代ほど高く、特に10代後半はすでに5...