2018年05月29日 05時00分 公開
特集/連載

実験段階だが話題のSpark on Kubernetesビッグデータ活用で勢いを増すコンテナと「Kubernetes」導入

ビッグデータのベンダーやユーザーは、「Kubernetes」のコンテナ管理に目を向けている。コンテナによってシステムやアプリケーションの導入が高速になり、コンピューティングリソースの利用が柔軟になるためだ。

[Craig Stedman,TechTarget]

 ビッグデータ導入プロセスをコンテナ化する試みは、まだ始まったばかりだ。とはいえ、ビッグデータのシステムとアプリケーションの導入を容易にするツールとして、コンテナと「Kubernetes」に注目するユーザーやベンダーが増えている。Kubernetesは、コンテナを編成/管理するテクノロジーだ。

 この試みを早くから取り入れているベンダーやユーザーは、Kubernetesクラスタでビッグデータコンテナを実行して、システムのビルドとアプリケーションコードを再利用することで、開発や導入の作業速度を上げたいと考えている。このコンテナアプローチにより、システムやアプリケーションを新しいプラットフォームに簡単に移行できるようになる。また、コンピューティングリソースをワークロードの変更に合わせて再配置したり、企業内で利用可能なITインフラの使用を最適化したりすることも容易になる。

 ビッグデータテクノロジーのベンダーが自社の製品にコンテナとKubernetesのサポートを追加するペースは勢いを増している。例えば2018年3月、米国で開催された「Strata Data Conference」では、MapR Technologiesが、Kubernetesボリュームドライバーを同社のビッグデータプラットフォームに統合したことを発表した。同社はこの統合により、このオーケストレーションテクノロジーに結び付けられているコンテナ化アプリケーション向けに永続データストレージを提供するという。

 MapRでは以前、同社の「MapR Converged Data Platform」への組み込み接続を備え、特殊化した「Docker」コンテナの使用をサポートしていた。だがKubernetes拡張機能の方が「環境に対してはるかに透明性がありネイティブだ」と話すのは、MapRでデータおよびアプリケーション部門のシニアバイスプレジデントを務めるジャック・ノリス氏だ。また、この永続ストレージ機能により、ステートフルなアプリケーションでコンテナを使えるようになると同氏は補足する。このことは「Hadoop」や関連テクノロジーを使用した一般的なビッグデータ導入の要件になっている。

 さらに、2018年2月後半にリリースされたオープンソースの「Apache Spark」処理エンジンのバージョン2.3アップデートには、ネイティブKubernetesスケジューラーが含まれている。Bloomberg、Google、Intelなど複数の企業が開発に参加しているこの「Spark on Kubernetes」は、実際にはまだ実験段階だという。とはいえ、これによりSpark 2.3ワークロードをKubernetesクラスタで実行できるようになる。

米国で開催された2018年の「Strata Data Conference」で話題になったビッグデータシステムとアプリケーションのコンテナ化 米国で開催された2018年の「Strata Data Conference」で話題になったビッグデータシステムとアプリケーションのコンテナ化

 負けじとばかりに、間もなくバージョン1.5がリリースされる「Apache Flink」では、Kubernetesのライバル「Apache Mesos」とのつながりも強めようとしていると話すのは、「Apache Flink」のベンダーでData Artisansの共同創設者兼ソフトウェアエンジニアを務めるファビアン・ヒュースキ氏だ。FlinkはSparkのライバルとなるストリーム処理プラットフォームだ。ユーザーは、Data Artisansが提供する最新のFlinkディストリビューションをKubernetes上で実行できる。「ただし、今すぐに行うのは必ずしも簡単ではない。新しいリリースの方がはるかに容易になる」というのが「Strata Data Conference」でのヒュースキ氏の発言だ。

軌道に乗るビッグデータコンテナ

 中国のオンライン小売業者JD.comは、Spark on Kubernetesを早くから導入している。同社は、「TensorFlow」や「Caffe」といった機械学習フレームワークや深層学習フレームワークも単一のKubernetesベースアーキテクチャでコンテナ化している。同社はこのアーキテクチャを「Moonshot」と呼ぶ。

ITmedia マーケティング新着記事

news123.jpg

デジタル広告のフリークエンシー(表示回数)最適化、「何回見せるのが最も効果的か」が分かる
電通デジタルが、デジタル広告の最適なフリークエンシー(表示回数)を導き出すフレーム...

news026.jpg

債権回収にマーケティングオートメーション活用、イオングループ傘下のサービサーの取り組み
債権回収の場においても、チャネル横断やコミュニケーション最適化の視点はやはり重要だ...