Hadoopの父、カッティング氏に聞く今後のビッグデータ活用法キーパーソンインタビュー

「Hadoop」の生みの親の1人であるカッティング氏に、現在の活動、Hadoopの今後、サイバーセキュリティとビッグデータの関係について聞いた。

2017年08月14日 08時00分 公開
[Brian McKennaComputer Weekly]
Computer Weekly

 2017年5月に英国ロンドンで開催された「Strata Data Conference」で、Computer Weeklyは「Hadoop」の生みの親の1人、ダグ・カッティング氏にインタビューした。同氏はHadoopディストリビューター企業Clouderaのチーフアーキテクトを務めている。

Computer Weekly日本語版 8月2日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 8月2日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 カッティング氏は、Yahoo勤務時代に同僚と共に「Hadoop」を作り出したことが広く知られている。これは、データワークロードを分割して結果の出力を削減するというGoogleの「MapReduce」のアイデアを採用し、さらにそれを広くソフトウェアフレームワークに当てはめるもので、同氏の息子のおもちゃから名前を取ってHadoopと名付けた。

 今回は、サイバーセキュリティへのClouderaテクノロジーの新たな応用法、「Apache Spark」(並行処理フレームワーク)の役割、オープンソースの展望について同氏にインタビューを行った。

現在取り組んでいることを教えてください。

 ClouderaとIntelを支援し、「Apache Spot」プロジェクトに取り組んでいる。このプロジェクトはオープンソースを採用し、ビッグデータのスタイルをサイバーセキュリティに活用する試みだ。これは従来のアプローチとは異なり、これまでの攻撃を調べ、攻撃コードの中から特定の種類の行動パターンをスキャンするフィルターを準備する。

 従来のアプローチは、新しい手口の攻撃を捉えるのが難しい。だが、通常の行動パターンを定義するモデルを構築すれば、通常とは異なる行動を捕捉できる。

それは以前からある「異常検知」ではありませんか。何か違いがありますか。

 このアプローチでは、HadoopとSparkを使って以前よりも大量のデータを保存して処理する能力を備えている。さらに、企業がさまざまな侵入検知アプリケーションを開発できるように、ネットワークデータの標準形式の準備も試みている。そうすれば、サイバーセキュリティエコシステムが育成され、サイバーセキュリティのオープンデータモデルになる。

 Clouderaは業界横断的な活動を行ってきた。だが、今回は業界固有のデータをサポートすることも考えている。通信会社やIoTなどの業界向けの活動を行う機会もあるだろう。

オープンソースはビジネスにとって力になるのでしょうか。CIO(最高情報責任者)は、オープンソースが提供されなくなることを懸念しています。

 そんなことはない。オープンソースはビジネスに必要なものだ。基本的なストレージやデータの処理に、非オープンソース技術を導入する企業は少なくなっている。また、オープンソースはそのプロセスに多くの人々が関与するため、ソフトウェア開発のモデルとしても優れている。

 テクノロジーを管理する組織が1つだけなら、高い利益が見込める。だが、このような組織は、既存のビジネスが脅かされない限り、根本的な変更を加えることはなかなかないだろう。

 例えばClouderaは、当初からHadoopのMapReduce要素をコンポーネントの中核として含んでいた。Sparkでもこれを踏襲しているが、より優れたツールに仕上がっている。

Clouderaには、オリジナルのHadoopテクノロジースタックがどの程度含まれていますか。

 「HDFS」(Hadoop Distributed File System)、MapReduce、「YARN」(Yet Another Resource Negotiator)は、今でも重要な要素になっている。例えば、「Uber」はMapReduceを使用している。MapReduceはまだその役割を終えていないものの、機械学習アルゴリズムには不向きだ。

 Sparkには機械学習向けのライブラリがある。他にも、ストリーミングを行っているなら「Apache Kafka」(メッセージングシステム)や「Spark Streaming」も利用できる。

2017年は、Hadoopの進化においてどのような位置付けになるでしょう。以前のインタビューでは、Hadoopを使用してコストを削減することから、より革新的なビジネスモデルの支援へと移行すると話していただきました。現在も、ストレージのコスト削減が主目的でしょうか。

ITmedia マーケティング新着記事

news131.jpg

古くて新しいMMM(マーケティングミックスモデリング)が今注目される理由
大手コスメブランドのEstee Lauder Companiesはブランドマーケティングとパフォーマンス...

news087.png

Yahoo!広告 検索広告、生成AIがタイトルや説明文を提案してくれる機能を無料で提供
LINEヤフーは「Yahoo!広告 検索広告」において、ユーザーが誘導先サイトのURLを入力する...

news084.jpg

生成AIが生み出す「バーチャル生活者」の声を聴くメリットとは?
博報堂は、独自の大規模生活者調査データベースに生成AI技術を組み合わせて作り出した「...