Yahoo!がSpark/Hadoop環境で使える「TensorFlowOnSpark」をリリース分散ディープラーニングを実現

Yahoo!の機械学習チームが、分散ディープラーニングに対応したTensorFlowである「TensorFlowOnSpark」を公開した。TensorFlowOnSparkが必要な背景を解説する。

2017年04月12日 08時00分 公開
[Adrian BridgwaterComputer Weekly]
Computer Weekly

 リー・ヤン氏、ジュン・シー氏、ボビー・チャーン氏、アンディ・フォン氏から成るYahoo!のBig ML(機械学習)チームは、「TensorFlowOnSpark」をコミュニティーに提供していることを認めた。TensorFlowOnSparkとは、分散ディープラーニング向けの最新オープンソースフレームワークだ。

Computer Weekly日本語版 4月5日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 4月5日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 同チームによれば、大量のデータから洞察を得るには「分散」ディープラーニングを導入する必要があることが分かったという。だが、既存のディープラーニングフレームワークの多くは、ディープラーニング用に独立したクラスタを用意する必要がある。そのため機械学習パイプライン用に複数のプログラムを作成しなければならない。TensorFlowOnSparkという新しいリリースが必要になる理由がここにある。

 独立したクラスタを用意するには、クラスタ間で大量のデータセットを移動する必要がある。その結果、システムに不要な複雑性が持ち込まれ、エンドツーエンドのラーニングに遅延が発生する。

 「2016年、当チームはオープソースフレームワーク『CaffeOnSpark』を開発、公開することでスケールアウトの問題に対処した。このフレームワークは、『Spark』と『Hadoop』の同一のクラスタで分散ディープラーニングとビッグデータ処理を可能にする」とチームは話している。

 同チームによれば、CaffeOnSparkを使用してNSFW画像検出を強化し、ライブストリーミング動画からeSportsゲームの注目場面を自動識別できるという。

 コミュニティーからのフィードバックや改善提案により、CaffeOnSparkがアップグレードされ、LSTMサポート、新しいデータ層、トレーニングとテストインターリービング、Python API、Dockerコンテナでの導入などが実現されている。

 「Caffeユーザーには優れたアップグレードとなっている。だが、こうしたアップグレードは『TensorFlow』を使用するユーザーにも必要だ。そこで独自の戦略を立て、TensorFlowにもCaffeと同様の対策を講じた」とチームは語る。

 Googleは2016年4月に、分散ディープラーニング機能を導入して強化したTensorFlowをリリースした。2016年10月には、TensorFlowにHDFSサポートを導入した。だが、Googleクラウド以外を使用するユーザーは、依然としてTensorFlowアプリケーションに専用のクラスタが必要だった。TensorFlowは既存のビッグデータクラスタには導入できない。

続きはComputer Weekly日本語版 4月5日号にて

本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。


Computer Weekly日本語版 最近のバックナンバー

Computer Weekly日本語版 3月22日号 ムーアの法則との決別

Computer Weekly日本語版 3月8日号 PC&Windows時代の終わり

Computer Weekly日本語版 2月22日号 3D NANDで飛躍するフラッシュストレージ


Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品資料 株式会社ライトウェル

チャットBIの登場でさらに便利に 新時代のBIツールでデータ活用はどう変わる?

データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

製品資料 テンスピン・マネジメント・コンサルタンツ合同会社

クラウドとBIツールで「情報の分断」を解消、2社に学ぶ分析基盤構築事例

多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。

市場調査・トレンド テンスピン・マネジメント・コンサルタンツ合同会社

グローバル拠点のデータ収集に半月もかかる? データドリブン経営を阻む課題

データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。

製品資料 株式会社サムライズ

効率的かつ柔軟なデータ活用を実現する、クラウド型分析プラットフォームの実力

デジタル化が進む中で、企業が競争力を維持するには、柔軟かつ迅速な分析体制を構築し、データドリブンな意思決定を実現することが不可欠だ。本資料では、その分析体制の構築を支援するクラウド型のデータ分析プラットフォームを紹介する。

アイティメディアからのお知らせ

From Informa TechTarget

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...