Yahoo!がSpark/Hadoop環境で使える「TensorFlowOnSpark」をリリース分散ディープラーニングを実現

Yahoo!の機械学習チームが、分散ディープラーニングに対応したTensorFlowである「TensorFlowOnSpark」を公開した。TensorFlowOnSparkが必要な背景を解説する。

2017年04月12日 08時00分 公開
[Adrian BridgwaterComputer Weekly]
Computer Weekly

 リー・ヤン氏、ジュン・シー氏、ボビー・チャーン氏、アンディ・フォン氏から成るYahoo!のBig ML(機械学習)チームは、「TensorFlowOnSpark」をコミュニティーに提供していることを認めた。TensorFlowOnSparkとは、分散ディープラーニング向けの最新オープンソースフレームワークだ。

Computer Weekly日本語版 4月5日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 4月5日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 同チームによれば、大量のデータから洞察を得るには「分散」ディープラーニングを導入する必要があることが分かったという。だが、既存のディープラーニングフレームワークの多くは、ディープラーニング用に独立したクラスタを用意する必要がある。そのため機械学習パイプライン用に複数のプログラムを作成しなければならない。TensorFlowOnSparkという新しいリリースが必要になる理由がここにある。

 独立したクラスタを用意するには、クラスタ間で大量のデータセットを移動する必要がある。その結果、システムに不要な複雑性が持ち込まれ、エンドツーエンドのラーニングに遅延が発生する。

 「2016年、当チームはオープソースフレームワーク『CaffeOnSpark』を開発、公開することでスケールアウトの問題に対処した。このフレームワークは、『Spark』と『Hadoop』の同一のクラスタで分散ディープラーニングとビッグデータ処理を可能にする」とチームは話している。

 同チームによれば、CaffeOnSparkを使用してNSFW画像検出を強化し、ライブストリーミング動画からeSportsゲームの注目場面を自動識別できるという。

 コミュニティーからのフィードバックや改善提案により、CaffeOnSparkがアップグレードされ、LSTMサポート、新しいデータ層、トレーニングとテストインターリービング、Python API、Dockerコンテナでの導入などが実現されている。

 「Caffeユーザーには優れたアップグレードとなっている。だが、こうしたアップグレードは『TensorFlow』を使用するユーザーにも必要だ。そこで独自の戦略を立て、TensorFlowにもCaffeと同様の対策を講じた」とチームは語る。

 Googleは2016年4月に、分散ディープラーニング機能を導入して強化したTensorFlowをリリースした。2016年10月には、TensorFlowにHDFSサポートを導入した。だが、Googleクラウド以外を使用するユーザーは、依然としてTensorFlowアプリケーションに専用のクラスタが必要だった。TensorFlowは既存のビッグデータクラスタには導入できない。

続きはComputer Weekly日本語版 4月5日号にて

本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。


Computer Weekly日本語版 最近のバックナンバー

Computer Weekly日本語版 3月22日号 ムーアの法則との決別

Computer Weekly日本語版 3月8日号 PC&Windows時代の終わり

Computer Weekly日本語版 2月22日号 3D NANDで飛躍するフラッシュストレージ


Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

製品資料 ジオテクノロジーズ株式会社

基礎から解説:「人流データ」の特徴から活用におけるポイントまで

人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。

事例 アルテリックス・ジャパン合同会社

データ処理の効率化に成功、ゼンリンマーケティングソリューションズの取り組み

ゼンリンマーケティングソリューションズでは、地図情報によるデータ分析作業を効率化するため、プログラミング不要のデータ分析ツールを導入した。同社はどのような製品を採用し、課題解決につなげていったのだろう。

製品資料 株式会社primeNumber

データ駆動型ビジネスの実践に向けた仕組み作り、何から始めてどう進める?

データ駆動型ビジネスへの転換は、多くの組織にとって喫緊の課題の1つだ。しかし、データが社内に分散している状況で実現するのは難しい。この状況を解消するには、データを統合し、データの分析と活用ができる基盤の構築が必要だ。

市場調査・トレンド 株式会社primeNumber

部門のサイロ化を解消、企業全体の収益を最大化する「RevOps」を構築する方法

企業が収益を最大化させるためには、分業体制の中で各部門が目標を達成するだけではなく、相互に連携することが重要になる。そこで注目されているのがRevOps(レベニューオペレーション)という仕組みだ。その実現方法を紹介する。

製品資料 テンスピン・マネジメント・コンサルタンツ合同会社

グローバル環境でのデータ統合と業務効率化を、スモールスタートで実現するには

グローバル競争力の強化において、データ活用は不可欠である。しかし、多くの企業が「情報の分断」「手作業の処理への依存」により、効率的なデータ統合と可視化を実現できずにいる。本資料では、この課題を解決した2社の事例を紹介する。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...