2018年10月23日 08時00分 公開
特集/連載

パフォーマンスは良好AlibabaのCNN向けディープラーニングプロセッサの全貌

AI用プロセッサは用途によって実装方法が変わる。AlibabaがFPGAで開発したディープラーニングプロセッサは、畳み込みをサポートしており主に画像関係で威力を発揮するだろう。

[Aaron Tan,Computer Weekly]

 近年、人工知能(AI)のタスクの速度を上げる専用チップの利用が流行している。ニューラルプロセッシングユニットに搭載されるHuaweiのSoC(System on a Chip)「Kirin 970」からIoTデバイスで機械学習のタスクを実行するGoogleの新しい「Edge TPU」まで、その例は多岐にわたる。

Computer Weekly日本語版 10月17日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月17日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 だが、各チップの設計は一様ではない。Edge TPUはAIの推論を実行するために設計された専用のASIC(Application-Specific Integrated Circuit)プロセッサだ。GPU(グラフィックプロセッシングユニット)もASICの一種だが、こちらは大量の並列処理を用いて行列乗算を行うAIモデルのトレーニングに適している。

 また、FPGA(Field-Programmable Gate Array)もある。これはさまざまなユースケース向けにプログラミング可能だが、一般的にASICよりも能力が劣る。

 選ぶべきチップはAIワークロードによって決まる。画像認識や画像分析は一般的に負荷が高く、サービス品質の要件が厳しい。そのため低遅延と高パフォーマンスの要件を同時に満たしてそのバランスを保つのはGPUでは難しいというのがAlibabaの考えだ。

 そこでAlibabaは、超低遅延で高パフォーマンスのディープラーニングプロセッサ(DLP)をFPGAで開発した。

 Alibabaによると、同社のDLPはスパースな畳み込みと低精度のデータコンピューティングを同時にサポートでき、柔軟性とユーザーエクスペリエンスの要件を満たすためにカスタマイズしたISA(命令セットアーキテクチャ)を定義したという。

 ResNet-18による遅延テストの結果では、AlibabaのDLPの遅延はわずか0.174ミリ秒であることが示された。このResNet-18とは、畳み込みニューラルネットワークアーキテクチャだ。

 ではAlibabaの考え方を詳しく見てみよう。

アーキテクチャ

 DLPは機能に基づいて分類される4種類のモジュールを備える。

ITmedia マーケティング新着記事

news107.jpg

卓球「Tリーグ」と「TikTok」のコラボレーションがお互いにもたらすメリットとは
認知拡大を課題とする卓球新リーグとファン層拡大を狙う大人気の動画SNS。パートナーシッ...

news020.jpg

CEO承継の課題、日本と世界の違いは?――PwC Strategy&調査
Strategy&は、世界の上場企業を対象に実施した、2018年におけるCEOの承継についての調査...

news028.jpg

みずほ銀行が「不正送金防止」メルマガ施策で申し込み率13倍に 社会課題解決型コンテンツの底力
社会課題解決を訴求するメルマガで、通常の13倍ものコンバージョンを獲得したみずほ銀行...