AlibabaのCNN向けディープラーニングプロセッサの全貌：パフォーマンスは良好

AI用プロセッサは用途によって実装方法が変わる。AlibabaがFPGAで開発したディープラーニングプロセッサは、畳み込みをサポートしており主に画像関係で威力を発揮するだろう。

[Aaron Tan，Computer Weekly] PC用表示関連情報

LINE

Hatena

　近年、人工知能（AI）のタスクの速度を上げる専用チップの利用が流行している。ニューラルプロセッシングユニットに搭載されるHuaweiのSoC（System on a Chip）「Kirin 970」からIoTデバイスで機械学習のタスクを実行するGoogleの新しい「Edge TPU」まで、その例は多岐にわたる。

　だが、各チップの設計は一様ではない。Edge TPUはAIの推論を実行するために設計された専用のASIC（Application-Specific Integrated Circuit）プロセッサだ。GPU（グラフィックプロセッシングユニット）もASICの一種だが、こちらは大量の並列処理を用いて行列乗算を行うAIモデルのトレーニングに適している。

　また、FPGA（Field-Programmable Gate Array）もある。これはさまざまなユースケース向けにプログラミング可能だが、一般的にASICよりも能力が劣る。

　選ぶべきチップはAIワークロードによって決まる。画像認識や画像分析は一般的に負荷が高く、サービス品質の要件が厳しい。そのため低遅延と高パフォーマンスの要件を同時に満たしてそのバランスを保つのはGPUでは難しいというのがAlibabaの考えだ。

　そこでAlibabaは、超低遅延で高パフォーマンスのディープラーニングプロセッサ（DLP）をFPGAで開発した。

　Alibabaによると、同社のDLPはスパースな畳み込みと低精度のデータコンピューティングを同時にサポートでき、柔軟性とユーザーエクスペリエンスの要件を満たすためにカスタマイズしたISA（命令セットアーキテクチャ）を定義したという。

　ResNet-18による遅延テストの結果では、AlibabaのDLPの遅延はわずか0.174ミリ秒であることが示された。このResNet-18とは、畳み込みニューラルネットワークアーキテクチャだ。

　ではAlibabaの考え方を詳しく見てみよう。

アーキテクチャ

　DLPは機能に基づいて分類される4種類のモジュールを備える。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

AlibabaのCNN向けディープラーニングプロセッサの全貌：パフォーマンスは良好

アーキテクチャ

関連記事