1150万文書から関係性を洗い出せ――「パナマ文書」解析プロジェクトの舞台裏:グラフ型データベース活用事例
1150万個のファイル(計2.6TB)からなる「パナマ文書」はどのように解析されたのか? 世界に衝撃をもたらした同文書解析の舞台裏を紹介する。
おびただしい量の「パナマ文書」を受け取ったジャーナリストたちがその解析に成功したのは、グラフ型データベースとデータ可視化ソフトウェアがあったからだった。
Computer Weekly日本語版 5月25日号無料ダウンロード
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月25日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
パナマの法律事務所Mossack Fonsecaからドイツの新聞社Seuddeutsche Zeitung(南ドイツ新聞)へ、1150万個のファイル、容量にして2.6TBのデータが送られた。その内容が2016年4月初旬に報道され、以来世界中で議論を巻き起こしている。米ワシントンD.C.に本部を置く「国際調査報道ジャーナリスト連合」(ICIJ)がこの、いわゆる“パナマ文書”の解析を進めており、BBCと『The Guardian』紙がその調査に加わっている。
ICIJがこの調査で使用しているのが、グラフ型データベース「Neo4j」(Neo Technology)と、グラフ型データベースに特化したデータの発見および可視化ソフトウェア「Linkurious」(Linkurious)だ。ICIJはパナマ文書プロジェクトに最新テクノロジーを結集し、他のメディア組織からの協力を得た。その結果、世界各国の要人と、彼らが税金逃れのために国外のタックスヘイブン(租税回避地)に開設した銀行口座との関係をあぶり出すことに成功した。
Neo TechnologyのCEOエミール・エイフレム氏は本誌Computer Weeklyのインタビューに答えて、「今回のような情報流出は、10年前でも起こり得た。だが、10年前では今回分かったような事実にたどり着くことはできなかっただろう」と語る。
エイフレム氏によると、2006年以降、GoogleやFacebookなど、 ビッグデータを操作するテクノロジーの開発に成功する企業がわずかながら現れるようになったという。Googleは2006年にデータストア「Bigtable」に関する論文を発表し、FacebookにはThe Guardian紙やBBCなどの各報道機関が最近採用している「データジャーナリズム」の核心となる分析処理を実行する能力があった。
2006年はまた、ビッグデータを扱うためのテクノロジーの1つである「Hadoop」をYahoo!が発明した年でもあったとエイフレム氏は指摘する。さらに米NSA(国家安全保障局)に相当する政府機関として、英国にはGCHQ(Government Communications Headquarters:政府通信本部)があるが、この組織もビッグデータの処理能力を持っていると同氏は付け加える。「当社はこのビッグデータ処理能力を民主化している。データの中から言葉を抽出するだけではなく、点と点をつなぎ合わせる機能も重要だ」
またエイフレム氏によると、 2015年に香港上海銀行(HSBC)の10万件の顧客情報が流出した際にも、Neo4jが活用されたという。「それにしても今回の情報流出は、重要度では人類史上前例がない」
ICIJのジャーナリストたちは、
- 法律上の婚姻関係にはないが同居している人々の関係
- マネーロンダリング目的が疑われる怪しい銀行口座とその所有者の具体的な結び付き
- その他の金融犯罪や軽微な違法行為など
を、Neo4jとLinkuriousを使うことで把握することができた。
ICIJのデータおよび調査ユニットでエディターを務めるマル・カブラ氏は次のように語る。
続きはComputer Weekly日本語版 5月25日号にて
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 5月11日号:新トランジスタで蘇るムーアの法則
Computer Weekly日本語版 4月20日号:多くの企業がやっているセキュリティミステイク
Computer Weekly日本語版 4月6日号:モバイルアプリのあきれた実態
Copyright © ITmedia, Inc. All Rights Reserved.