Yahoo!の機械学習チームが、分散ディープラーニングに対応したTensorFlowである「TensorFlowOnSpark」を公開した。TensorFlowOnSparkが必要な背景を解説する。
リー・ヤン氏、ジュン・シー氏、ボビー・チャーン氏、アンディ・フォン氏から成るYahoo!のBig ML(機械学習)チームは、「TensorFlowOnSpark」をコミュニティーに提供していることを認めた。TensorFlowOnSparkとは、分散ディープラーニング向けの最新オープンソースフレームワークだ。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 4月5日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
同チームによれば、大量のデータから洞察を得るには「分散」ディープラーニングを導入する必要があることが分かったという。だが、既存のディープラーニングフレームワークの多くは、ディープラーニング用に独立したクラスタを用意する必要がある。そのため機械学習パイプライン用に複数のプログラムを作成しなければならない。TensorFlowOnSparkという新しいリリースが必要になる理由がここにある。
独立したクラスタを用意するには、クラスタ間で大量のデータセットを移動する必要がある。その結果、システムに不要な複雑性が持ち込まれ、エンドツーエンドのラーニングに遅延が発生する。
「2016年、当チームはオープソースフレームワーク『CaffeOnSpark』を開発、公開することでスケールアウトの問題に対処した。このフレームワークは、『Spark』と『Hadoop』の同一のクラスタで分散ディープラーニングとビッグデータ処理を可能にする」とチームは話している。
同チームによれば、CaffeOnSparkを使用してNSFW画像検出を強化し、ライブストリーミング動画からeSportsゲームの注目場面を自動識別できるという。
コミュニティーからのフィードバックや改善提案により、CaffeOnSparkがアップグレードされ、LSTMサポート、新しいデータ層、トレーニングとテストインターリービング、Python API、Dockerコンテナでの導入などが実現されている。
「Caffeユーザーには優れたアップグレードとなっている。だが、こうしたアップグレードは『TensorFlow』を使用するユーザーにも必要だ。そこで独自の戦略を立て、TensorFlowにもCaffeと同様の対策を講じた」とチームは語る。
Googleは2016年4月に、分散ディープラーニング機能を導入して強化したTensorFlowをリリースした。2016年10月には、TensorFlowにHDFSサポートを導入した。だが、Googleクラウド以外を使用するユーザーは、依然としてTensorFlowアプリケーションに専用のクラスタが必要だった。TensorFlowは既存のビッグデータクラスタには導入できない。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 3月22日号 ムーアの法則との決別
Computer Weekly日本語版 3月8日号 PC&Windows時代の終わり
Computer Weekly日本語版 2月22日号 3D NANDで飛躍するフラッシュストレージ
Copyright © ITmedia, Inc. All Rights Reserved.
データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
デジタル化が進む中で、企業が競争力を維持するには、柔軟かつ迅速な分析体制を構築し、データドリブンな意思決定を実現することが不可欠だ。本資料では、その分析体制の構築を支援するクラウド型のデータ分析プラットフォームを紹介する。
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
データ活用やAIで不良原因も発見 全員参加の現場伴走型で挑むトヨタ車体のDX (2025/2/21)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...