1150万個のファイル(計2.6TB)からなる「パナマ文書」はどのように解析されたのか? 世界に衝撃をもたらした同文書解析の舞台裏を紹介する。
おびただしい量の「パナマ文書」を受け取ったジャーナリストたちがその解析に成功したのは、グラフ型データベースとデータ可視化ソフトウェアがあったからだった。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月25日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
パナマの法律事務所Mossack Fonsecaからドイツの新聞社Seuddeutsche Zeitung(南ドイツ新聞)へ、1150万個のファイル、容量にして2.6TBのデータが送られた。その内容が2016年4月初旬に報道され、以来世界中で議論を巻き起こしている。米ワシントンD.C.に本部を置く「国際調査報道ジャーナリスト連合」(ICIJ)がこの、いわゆる“パナマ文書”の解析を進めており、BBCと『The Guardian』紙がその調査に加わっている。
ICIJがこの調査で使用しているのが、グラフ型データベース「Neo4j」(Neo Technology)と、グラフ型データベースに特化したデータの発見および可視化ソフトウェア「Linkurious」(Linkurious)だ。ICIJはパナマ文書プロジェクトに最新テクノロジーを結集し、他のメディア組織からの協力を得た。その結果、世界各国の要人と、彼らが税金逃れのために国外のタックスヘイブン(租税回避地)に開設した銀行口座との関係をあぶり出すことに成功した。
Neo TechnologyのCEOエミール・エイフレム氏は本誌Computer Weeklyのインタビューに答えて、「今回のような情報流出は、10年前でも起こり得た。だが、10年前では今回分かったような事実にたどり着くことはできなかっただろう」と語る。
エイフレム氏によると、2006年以降、GoogleやFacebookなど、 ビッグデータを操作するテクノロジーの開発に成功する企業がわずかながら現れるようになったという。Googleは2006年にデータストア「Bigtable」に関する論文を発表し、FacebookにはThe Guardian紙やBBCなどの各報道機関が最近採用している「データジャーナリズム」の核心となる分析処理を実行する能力があった。
2006年はまた、ビッグデータを扱うためのテクノロジーの1つである「Hadoop」をYahoo!が発明した年でもあったとエイフレム氏は指摘する。さらに米NSA(国家安全保障局)に相当する政府機関として、英国にはGCHQ(Government Communications Headquarters:政府通信本部)があるが、この組織もビッグデータの処理能力を持っていると同氏は付け加える。「当社はこのビッグデータ処理能力を民主化している。データの中から言葉を抽出するだけではなく、点と点をつなぎ合わせる機能も重要だ」
またエイフレム氏によると、 2015年に香港上海銀行(HSBC)の10万件の顧客情報が流出した際にも、Neo4jが活用されたという。「それにしても今回の情報流出は、重要度では人類史上前例がない」
ICIJのジャーナリストたちは、
を、Neo4jとLinkuriousを使うことで把握することができた。
ICIJのデータおよび調査ユニットでエディターを務めるマル・カブラ氏は次のように語る。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 5月11日号:新トランジスタで蘇るムーアの法則
Computer Weekly日本語版 4月20日号:多くの企業がやっているセキュリティミステイク
Computer Weekly日本語版 4月6日号:モバイルアプリのあきれた実態
Copyright © ITmedia, Inc. All Rights Reserved.
グローバル競争力の強化において、データ活用は不可欠である。しかし、多くの企業が「情報の分断」「手作業の処理への依存」により、効率的なデータ統合と可視化を実現できずにいる。本資料では、この課題を解決した2社の事例を紹介する。
データドリブン経営で重要になる“データの可視化”だが、拠点ごとのデータ収集に時間と手間がかかり、データの整合性を確保することが困難になっているグローバル企業は多い。本資料ではこのような課題を解決に導くアプローチを解説する。
AIの普及や発展によって、企業が保有するデータの量は膨れ上がっている。その約90%は非構造化データだ。そのため、AIと分析のワークロードをより有効なものにする上では、非構造化データの扱いが非常に重要となる。
Excelやスプレッドシートを用いて社内のデータを管理している企業は少なくない。しかし、それにより、データの閲覧や管理、共有などにおいて問題が発生している企業も多い。データ活用を加速するためには、どのような体制が有効なのか。
ビジネスの成果を挙げるためにデータ活用の取り組みが進む一方、分散するデータが足かせとなり、データの価値を引き出せていないケースも多い。その解決策となるAI対応のデータ基盤を構築する方法について解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...