Hadoopの父、カッティング氏に聞く今後のビッグデータ活用法キーパーソンインタビュー

「Hadoop」の生みの親の1人であるカッティング氏に、現在の活動、Hadoopの今後、サイバーセキュリティとビッグデータの関係について聞いた。

2017年08月14日 08時00分 公開
[Brian McKennaComputer Weekly]
Computer Weekly

 2017年5月に英国ロンドンで開催された「Strata Data Conference」で、Computer Weeklyは「Hadoop」の生みの親の1人、ダグ・カッティング氏にインタビューした。同氏はHadoopディストリビューター企業Clouderaのチーフアーキテクトを務めている。

Computer Weekly日本語版 8月2日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 8月2日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 カッティング氏は、Yahoo勤務時代に同僚と共に「Hadoop」を作り出したことが広く知られている。これは、データワークロードを分割して結果の出力を削減するというGoogleの「MapReduce」のアイデアを採用し、さらにそれを広くソフトウェアフレームワークに当てはめるもので、同氏の息子のおもちゃから名前を取ってHadoopと名付けた。

 今回は、サイバーセキュリティへのClouderaテクノロジーの新たな応用法、「Apache Spark」(並行処理フレームワーク)の役割、オープンソースの展望について同氏にインタビューを行った。

現在取り組んでいることを教えてください。

 ClouderaとIntelを支援し、「Apache Spot」プロジェクトに取り組んでいる。このプロジェクトはオープンソースを採用し、ビッグデータのスタイルをサイバーセキュリティに活用する試みだ。これは従来のアプローチとは異なり、これまでの攻撃を調べ、攻撃コードの中から特定の種類の行動パターンをスキャンするフィルターを準備する。

 従来のアプローチは、新しい手口の攻撃を捉えるのが難しい。だが、通常の行動パターンを定義するモデルを構築すれば、通常とは異なる行動を捕捉できる。

それは以前からある「異常検知」ではありませんか。何か違いがありますか。

 このアプローチでは、HadoopとSparkを使って以前よりも大量のデータを保存して処理する能力を備えている。さらに、企業がさまざまな侵入検知アプリケーションを開発できるように、ネットワークデータの標準形式の準備も試みている。そうすれば、サイバーセキュリティエコシステムが育成され、サイバーセキュリティのオープンデータモデルになる。

 Clouderaは業界横断的な活動を行ってきた。だが、今回は業界固有のデータをサポートすることも考えている。通信会社やIoTなどの業界向けの活動を行う機会もあるだろう。

オープンソースはビジネスにとって力になるのでしょうか。CIO(最高情報責任者)は、オープンソースが提供されなくなることを懸念しています。

 そんなことはない。オープンソースはビジネスに必要なものだ。基本的なストレージやデータの処理に、非オープンソース技術を導入する企業は少なくなっている。また、オープンソースはそのプロセスに多くの人々が関与するため、ソフトウェア開発のモデルとしても優れている。

 テクノロジーを管理する組織が1つだけなら、高い利益が見込める。だが、このような組織は、既存のビジネスが脅かされない限り、根本的な変更を加えることはなかなかないだろう。

 例えばClouderaは、当初からHadoopのMapReduce要素をコンポーネントの中核として含んでいた。Sparkでもこれを踏襲しているが、より優れたツールに仕上がっている。

Clouderaには、オリジナルのHadoopテクノロジースタックがどの程度含まれていますか。

 「HDFS」(Hadoop Distributed File System)、MapReduce、「YARN」(Yet Another Resource Negotiator)は、今でも重要な要素になっている。例えば、「Uber」はMapReduceを使用している。MapReduceはまだその役割を終えていないものの、機械学習アルゴリズムには不向きだ。

 Sparkには機械学習向けのライブラリがある。他にも、ストリーミングを行っているなら「Apache Kafka」(メッセージングシステム)や「Spark Streaming」も利用できる。

2017年は、Hadoopの進化においてどのような位置付けになるでしょう。以前のインタビューでは、Hadoopを使用してコストを削減することから、より革新的なビジネスモデルの支援へと移行すると話していただきました。現在も、ストレージのコスト削減が主目的でしょうか。

Copyright © ITmedia, Inc. All Rights Reserved.

譁ー逹€繝帙Ρ繧、繝医�繝シ繝代�

事例 アルテリックス・ジャパン合同会社

データ処理の効率化に成功、ゼンリンマーケティングソリューションズの取り組み

ゼンリンマーケティングソリューションズでは、地図情報によるデータ分析作業を効率化するため、プログラミング不要のデータ分析ツールを導入した。同社はどのような製品を採用し、課題解決につなげていったのだろう。

事例 株式会社サムライズ

3社の事例に学ぶ、BIツールの枠を超えたデータ分析プラットフォームの実力とは

データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。

製品資料 株式会社ライトウェル

チャットBIの登場でさらに便利に 新時代のBIツールでデータ活用はどう変わる?

データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

製品資料 テンスピン・マネジメント・コンサルタンツ合同会社

クラウドとBIツールで「情報の分断」を解消、2社に学ぶ分析基盤構築事例

多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。

アイティメディアからのお知らせ

From Informa TechTarget

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...