1150万文書から関係性を洗い出せ――「パナマ文書」解析プロジェクトの舞台裏グラフ型データベース活用事例

1150万個のファイル(計2.6TB)からなる「パナマ文書」はどのように解析されたのか? 世界に衝撃をもたらした同文書解析の舞台裏を紹介する。

2016年05月30日 08時00分 公開
[Brian McKennaComputer Weekly]
Computer Weekly

 おびただしい量の「パナマ文書」を受け取ったジャーナリストたちがその解析に成功したのは、グラフ型データベースとデータ可視化ソフトウェアがあったからだった。

Computer Weekly日本語版 5月25日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月25日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 パナマの法律事務所Mossack Fonsecaからドイツの新聞社Seuddeutsche Zeitung(南ドイツ新聞)へ、1150万個のファイル、容量にして2.6TBのデータが送られた。その内容が2016年4月初旬に報道され、以来世界中で議論を巻き起こしている。米ワシントンD.C.に本部を置く「国際調査報道ジャーナリスト連合」(ICIJ)がこの、いわゆる“パナマ文書”の解析を進めており、BBCと『The Guardian』紙がその調査に加わっている。

 ICIJがこの調査で使用しているのが、グラフ型データベース「Neo4j」(Neo Technology)と、グラフ型データベースに特化したデータの発見および可視化ソフトウェア「Linkurious」(Linkurious)だ。ICIJはパナマ文書プロジェクトに最新テクノロジーを結集し、他のメディア組織からの協力を得た。その結果、世界各国の要人と、彼らが税金逃れのために国外のタックスヘイブン(租税回避地)に開設した銀行口座との関係をあぶり出すことに成功した。

 Neo TechnologyのCEOエミール・エイフレム氏は本誌Computer Weeklyのインタビューに答えて、「今回のような情報流出は、10年前でも起こり得た。だが、10年前では今回分かったような事実にたどり着くことはできなかっただろう」と語る。

 エイフレム氏によると、2006年以降、GoogleやFacebookなど、 ビッグデータを操作するテクノロジーの開発に成功する企業がわずかながら現れるようになったという。Googleは2006年にデータストア「Bigtable」に関する論文を発表し、FacebookにはThe Guardian紙やBBCなどの各報道機関が最近採用している「データジャーナリズム」の核心となる分析処理を実行する能力があった。

 2006年はまた、ビッグデータを扱うためのテクノロジーの1つである「Hadoop」をYahoo!が発明した年でもあったとエイフレム氏は指摘する。さらに米NSA(国家安全保障局)に相当する政府機関として、英国にはGCHQ(Government Communications Headquarters:政府通信本部)があるが、この組織もビッグデータの処理能力を持っていると同氏は付け加える。「当社はこのビッグデータ処理能力を民主化している。データの中から言葉を抽出するだけではなく、点と点をつなぎ合わせる機能も重要だ」

 またエイフレム氏によると、 2015年に香港上海銀行(HSBC)の10万件の顧客情報が流出した際にも、Neo4jが活用されたという。「それにしても今回の情報流出は、重要度では人類史上前例がない」

 ICIJのジャーナリストたちは、

  • 法律上の婚姻関係にはないが同居している人々の関係
  • マネーロンダリング目的が疑われる怪しい銀行口座とその所有者の具体的な結び付き
  • その他の金融犯罪や軽微な違法行為など

を、Neo4jとLinkuriousを使うことで把握することができた。

 ICIJのデータおよび調査ユニットでエディターを務めるマル・カブラ氏は次のように語る。

Copyright © ITmedia, Inc. All Rights Reserved.

鬯ョ�ォ�ス�エ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ー鬯ッ�ィ�ス�セ�ス�ス�ス�ケ�ス�ス邵コ�、�つ€鬯ゥ蟷「�ス�「髫エ蜿門セ暦ソス�ス�ス�ク髯キ�エ�ス�・�ス�ス�ス�。鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�、鬯ゥ蟷「�ス�「髫エ荳サ�ス隶捺サゑスソ�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�シ鬯ゥ蟷「�ス�「髫エ荵暦ソス�ス�ス�ス�サ�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス

製品資料 株式会社ライトウェル

AIとの会話でデータを可視化/分析、現場主導の意思決定を加速させるチャットBI

データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。

製品資料 株式会社ライトウェル

DXを阻む「データの3大課題」を解決、“可観測性”を高めるために必要なこと

データ活用が当たり前となる一方、データの品質を確保できておらず、「元データに問題があっても気付けない」「ユーザーが問題を解決できない」といった悩みを抱える企業は多い。これらを解決する鍵となる「可観測性」を高める秘訣とは?

技術文書・技術解説 株式会社ライトウェル

ビッグデータの価値は量ではなく「正しい意思決定」 引き出す方法は?

ビッグデータをビジネスの意思決定に生かすには、必要なデータを効果的に収集する仕組みが不可欠だ。ビッグデータ活用を失敗させないために、まずどのような点から着手すればいいのか。

製品レビュー 株式会社ライトウェル

専門知識は不要? データ分析で意思決定を迅速化する方法とは

あらゆる業種・業界でデータ活用の重要性が高まっている。しかし、スキルやリソースの不足により、全社的な分析に至らない企業も多い。そこで注目したいのが、専門知識がなくても迅速にデータを整理・分析できる、AIを活用したBIツールだ。

製品資料 ジオテクノロジーズ株式会社

基礎から解説:「人流データ」の特徴から活用におけるポイントまで

人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。

アイティメディアからのお知らせ

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

鬯ゥ蟷「�ス�「髫エ蜿門セ暦ソス�ス�ス�ク髯キ�エ�ス�・�ス�ス�ス�。鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�、鬯ゥ蟷「�ス�「髫エ荳サ�ス隶捺サゑスソ�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�シ鬯ゥ蟷「�ス�「髫エ荵暦ソス�ス�ス�ス�サ�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ゥ鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ウ鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ュ鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ウ鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ー

2025/06/16 UPDATE

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...