膨大なデータが発生するブラックホール観測を支えたのは1000台のHDDだった。データの保存や処理、保護のコスト効率を高めるために観測チームが取った手段は、合理的な判断に基づく。
巨大ブラックホールの観測を目指した「イベント・ホライズン・テレスコープ」(EHT)のプロジェクトチームは、電波望遠鏡(光ではなく電波を観測する望遠鏡)で得た電波信号データの記録と分析のために、クラウドではなく従来型の手法を採用した。本稿は、EHTが採用したHDDとは何か、データバックアップをどのようにして実現したのかについて紹介する。
ブラックホールの画像データの扱いに関して、EHTのプロジェクトチームが突き当たった問題の一つは、頻繁に起きるHDDの障害だった。EHTの電波望遠鏡が記録した電波信号データの送信先である、マサチューセッツ工科大学(MIT)ヘイスタック観測所のビンセント・フィッシュ氏によると、EHTの各電波望遠鏡は標高7000〜1万6000フィートに設置されている。
「何年もの間、われわれはHDDが障害を起こす問題を抱えてきた。大気の密度が低い高地では、密封されていない古いHDDは高い割合で故障する」とフィッシュ氏は話す。
解決策は、Western Digital傘下のHGST(日立グローバルストレージテクノロジーズ)のヘリウム封入HDDにあった。ヘリウムガスが密封されたヘリウム封入HDDは、軽量かつ記録媒体が高密度で、データの処理速度は従来型のHDDより速い。フィッシュ氏は「われわれが具体的にヘリウム封入HDDを依頼したわけではなかったが、IT業界がこの解決策を提示してくれた」と振り返る。
EHTは天の川銀河(銀河系)の中心にある巨大ブラックホール「いて(射手)座A*」の観測に照準を絞っていた2015年、初めて6TBのヘリウム封入HDDを採用し、200台導入した。EHTのデータサイエンティスト、リンディ・ブラックバーン氏によると、現在EHTは容量10TBの製品も含めて約1000台のHDDを使っている。HGSTに加え、Seagate Technologyと東芝デバイス&ストレージのヘリウム封入HDDも導入した。
ブラックバーン氏は言う。「ヘリウム封入HDDへの移行は、EHTにとって大きな進展だった。高地でも本来の性能を発揮して低温で稼働できる。この数年で障害はほとんど発生していない」
世界各地に分散した大量のデータの保存、処理方法を確立した後、EHTはデータ保護のための手段を確立する作業に着手した。電波望遠鏡が捉えた電波信号のデータを複製あるいは保護するための、コスト効率の高い方法はまだ見つかっていない。
データを関連付けし、数十TBにまで縮小したデータは、EHTの施設にある複数のRAID(Redundant Array of Independent Disks)システムに格納。Googleのクラウドストレージ「Google Cloud Storage」にバックアップを保存した。
縮小したデータはチームメンバーが利用できるよう複製し、EHTのシステム内部の幾つもの場所にアーカイブしている。「いずれは一般にアーカイブを公開する」と、ヘイスタック観測所でコリレーション(変数間の相関関係を分析する手法)ワーキンググループの共同リーダーを務めるジェフ・クルー氏は説明する。
「生データは保護しない。現時点でこれをバックアップできるコスト効率の高い手段がないためだ」とクルー氏は語る。ブラックバーン氏も「生データにはバックアップを取る価値はない」と指摘する。これほど大量のデータを保護する複雑さを考えれば、再び観測して新しいデータを収集する方が単純だという。
個別の電波望遠鏡が生み出すデータは、非常に現実的な意味では、単なる「ノイズ」にすぎないという見方もできる。「われわれの関心があるのは基本的に、電波望遠鏡間のノイズに、平均してどの程度の相関関係があるのかという点のみだ」とブラックバーン氏は主張。オリジナルの生データを一つ残らず保護するためにバックアップを取ることは「それほど重要ではない」と言い切る。
生データを処理するコンピューティングの性能が追い付かなくなり、データの長期保存が必要な状況に追い込まれれば、生データのバックアップは重要になるだろう。ただしブラックバーン氏は「生データのバックアップは、単純に、十分に、コスト効率良く実現できない限り、導入を真剣に検討することはない」と話す。
ブラックバーン氏は今後5〜10年の技術動向に目を向ける。電波望遠鏡が生成するP(ペタ)B級の生データを各観測拠点でHDDに記録した後、データ処理のためのコンピュータクラスタまで輸送するやり方が、今後も最適であり続けるのかどうかを見極める意向だという。
データをHDDに記録して、専用のコリレーション用のコンピュータクラスタを使う方法を続けるのか。HDDに記録して出来るだけ早くクラウドにアップロードするのか。あるいはSSDがコスト面で、テープが速度面でHDDと競合できるところまで進化するのか。これらは「はっきりしない」とブラックバーン氏は語る。
フィッシュ氏は「米航空宇宙局(NASA)や民間企業が手掛ける宇宙ロケットの打ち上げを通じて、専用の人工衛星群を打ち上げる方法も非現実的ではない」と話す。このようにPB級のデータを移動させる方法は幾つかある。ただしコストが最大の障壁になる。「われわれが抱える問題のほとんどは、技術的ハードルよりも、資金的なハードルに関連している」とクルー氏は打ち明ける。
CMOはつらいよ マッキンゼー調査で浮かび上がるAI時代の厳しめな業務実態
生成AI、研究開発、価格戦略……。慢性的なリソース不足の中でマーケターの業務範囲はま...
「リンクレピュテーション」とは? SEO対策や注意点もわかりやすく解説
「リンクレピュテーションって何のこと?」「なぜ重要?」「リンクレピュテーションを意...
MAツール「MoEngage」 DearOneが日本語版UI提供へ
NTTドコモの子会社であるDearOneは、AI搭載のMAツール「MoEngage」の日本語版を2025年1月...