2017年10月31日 08時00分 公開
特集/連載

Computer Weekly製品導入ガイド英国気象庁はどうやって膨大なデータを処理しているのか

前例のない量のデータに対応している英天気予報サービス機関は、「怠慢な」オープンソースツールに支えられている。

[Computer Weekly]
Computer Weekly

 IT業界の評論家は時として、気の遠くなるような数字を引用して将来的に組織で保存・処理しなければならないデータの量を表現する。だが真のビッグデータを扱う状況になったとき、どんな課題に直面するかを正確に予想したければ、Met Office(英国気象庁)の事例が参考になる。

Computer Weekly日本語版 10月18日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月18日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 世界最大級のスーパーコンピュータ数台を保有する同庁は、現在およそ60P(ペタ)Bものデータを保持し、1日当たり1P(ペタ)B前後のデータを処理している。同庁のデータアーカイブは1週間に約1.4PBずつ増大し、2020年までには300PBを超す見通しだ。

 「これより少ない量のデータ(たとえ現時点で多くの人に『ビッグ』データと呼ばれている量だったとしても)に対して通用しているデータ管理技術は、そうした領域に踏み込めば通用しなくなる」。最高情報責任者(CIO)のチャールズ・イーウェン氏は言う。「われわれが今直面している課題は、あと5〜20年もすれば、大部分の組織が突き当たるだろう。多くの場所にデータセットを分散させる昔ながらの蓄積交換モデルは、いずれ通用しなくなる」

データ共有

 膨張し続けるデータを処理する新しい手段の開発に向けた取り組みの中心にあるのがMet Office Informatics Labだ。同研究所は少人数の技術者、科学者、設計者で構成され、あらゆる最先端の研究開発やイノベーションに取り組んで、「生命と繁栄を守り、健康を守り、経済成長を支える」という公共サービスの理念に沿った同組織の継続的な運用や製品およびサービスを継続的に向上させている。

 同研究所の筆頭エンジニア、ジェイコブ・トムリンソン氏によると、天気予報は同研究所の事業の表層にすぎず、「風力発電所に風力タービンの設置場所を助言することから、除氷剤を一切無駄にしないよう、散布すべき正確な量を空港に知らせることまで、非常に幅広い事業に関わっている」という。

 公共組織がどこもそうしているように、英国気象庁もできる限り多くのデータを公開することを約束している。だが、単純な量の多さと、気象データは瞬く間に古くなるという実態が、それを異常に難しくしている。そこで従来は、ひとまとまりのデータを引き出して特定の顧客が必要とする情報のみを届けることに重点を置いてきた。

 「われわれは主に、大人数のコンサルタントで構成するチームが特定の顧客のために、縮小したデータセットをどう生成するかについて考えてきた。しかし今では、相手に自分たちでそのデータを調べて操作してもらう方法に取り組んでいる」。トムリンソン氏はそう語る。

クラウドのデータ

 膨大な量のデータセットを自前のシステム経由で提供すれば、英国気象庁の帯域幅はたちまち飽和状態になる。そこで最初の課題は、一定量のビッグデータをパブリッククラウドに移転することだった。同庁はそのために、Amazon Web Services(AWS)の「Snowball」サービスを利用した。「AWSから最大100TBの膨大な容量のHDDが郵送されてくる。これに接続し、データを保存して返送すると、向こうで接続してクラウドストレージの『Amazon S3』に転送してくれる」とトムリンソン氏は説明する。

 これまでにクラウドに保存されたデータは80TB前後。英国気象庁が保存している総量に比べればほんの一部にすぎない。だが同庁は、最も多くの顧客の役に立つデータに重点を置いているという。「現時点ではわれわれが2016年に実施した全グローバルモデリングと、2013年〜2016年の全英モデリング全てが含まれる。いずれはこれに加えて、新しいデータを何回にも分けて追加していく」

 多くのビッグデータセットと違って、気象データは多次元で構成され、従来のテーブル構造に当てはまらない。そこでデータは「Zオーダー曲線」を使って保存する。これはデータポイントの局所性を維持したまま多次元データを1次元にマッピングする数学技術だ。Googleマップはこれと同じ手法を使って、ユーザーが地図を拡大すると即座に適切なデータを配信する。

 トムリンソン氏によると、オープンソースコミュニティーとの深い関わりは、米陸軍工学研究開発センターや米航空宇宙局(NASA)といった組織との興味深い協力関係にも結び付いた。「同じように風変わりな大型データフォーマットを模索している多様な組織との素晴らしい関係が構築できた。例えば最近では、ハリケーンのデータを可視化するために脳スキャンソフトウェアを採用した」

怠慢なデータクエリ

この記事を読んだ人にお薦めの関連記事

この記事を読んだ人にお薦めのホワイトペーパー

Loading

注目テーマ

ITmedia マーケティング新着記事

news015.jpg

Facebookで”刺さる”動画広告の条件とは? 中の人が解説
Facebookの人ベースの広告で良い結果を生むため、広告表現(クリエイティブ)はいかにあ...

news054.jpg

アイレップ、フルファネルマーケティングを強化する分析システム「Per-SONAR Powered by Marketia」を提供
アイレップは、フルファネルマーケティングを強化する分析システム「Per-SONAR Powered b...

news008.jpg

Webサイトのスピード改善はUI/UX改善以上に効果あり――ゴルフルダイジェスト・オンライン担当者が断言
Webサイトの表示速度改善は離脱を減らしコンバージョンを増やすために取り組むべき重要課...