Yahoo!の機械学習チームが、分散ディープラーニングに対応したTensorFlowである「TensorFlowOnSpark」を公開した。TensorFlowOnSparkが必要な背景を解説する。
リー・ヤン氏、ジュン・シー氏、ボビー・チャーン氏、アンディ・フォン氏から成るYahoo!のBig ML(機械学習)チームは、「TensorFlowOnSpark」をコミュニティーに提供していることを認めた。TensorFlowOnSparkとは、分散ディープラーニング向けの最新オープンソースフレームワークだ。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 4月5日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
同チームによれば、大量のデータから洞察を得るには「分散」ディープラーニングを導入する必要があることが分かったという。だが、既存のディープラーニングフレームワークの多くは、ディープラーニング用に独立したクラスタを用意する必要がある。そのため機械学習パイプライン用に複数のプログラムを作成しなければならない。TensorFlowOnSparkという新しいリリースが必要になる理由がここにある。
独立したクラスタを用意するには、クラスタ間で大量のデータセットを移動する必要がある。その結果、システムに不要な複雑性が持ち込まれ、エンドツーエンドのラーニングに遅延が発生する。
「2016年、当チームはオープソースフレームワーク『CaffeOnSpark』を開発、公開することでスケールアウトの問題に対処した。このフレームワークは、『Spark』と『Hadoop』の同一のクラスタで分散ディープラーニングとビッグデータ処理を可能にする」とチームは話している。
同チームによれば、CaffeOnSparkを使用してNSFW画像検出を強化し、ライブストリーミング動画からeSportsゲームの注目場面を自動識別できるという。
コミュニティーからのフィードバックや改善提案により、CaffeOnSparkがアップグレードされ、LSTMサポート、新しいデータ層、トレーニングとテストインターリービング、Python API、Dockerコンテナでの導入などが実現されている。
「Caffeユーザーには優れたアップグレードとなっている。だが、こうしたアップグレードは『TensorFlow』を使用するユーザーにも必要だ。そこで独自の戦略を立て、TensorFlowにもCaffeと同様の対策を講じた」とチームは語る。
Googleは2016年4月に、分散ディープラーニング機能を導入して強化したTensorFlowをリリースした。2016年10月には、TensorFlowにHDFSサポートを導入した。だが、Googleクラウド以外を使用するユーザーは、依然としてTensorFlowアプリケーションに専用のクラスタが必要だった。TensorFlowは既存のビッグデータクラスタには導入できない。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 3月22日号 ムーアの法則との決別
Computer Weekly日本語版 3月8日号 PC&Windows時代の終わり
Computer Weekly日本語版 2月22日号 3D NANDで飛躍するフラッシュストレージ
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
「猛暑」「米騒動」「インバウンド」の影響は? 2024年に最も売り上げが伸びたものランキング
小売店の推定販売金額の伸びから、日用消費財の中で何が売れたのかを振り返るランキング...
Netflixコラボが止まらない 「イカゲーム」シーズン2公開で人気爆上がり必至のアプリとは?
Duolingoは言語学習アプリとNetflixの大人気ドラマを結び付けたキャンペーンを展開。屋外...
Yahoo!広告における脱デモグラフィックの配信・分析を実現 電通が「DESIRE Targeting」を提供開始
電通の消費者研究プロジェクトチームは、消費者を理解し、Yahoo!広告の配信や分析を実施...