サーバ向けCPU市場を制するのはIntel Cascade LakeかAMD Romeか：次世代CPU技術解説

2019年もIntelとAMDの覇権争いが過熱しそうだ。両社の次世代製品はどのような仕様なのか。どのような市場を狙っているのか。大きく異なるその設計思想を解説する。

[Daniel Robinson，Computer Weekly] PC用表示関連情報

LINE

Hatena

　2017年、エンタープライズサーバ市場が再び脚光を浴びた。AMDが「EPYC」を携えて戦列に復帰し、Intelの「Xeon」に真っ向勝負を挑んだためだ。

　本稿執筆時点で、両社は2019年発売予定の新しいプロセッサの詳細を明らかにし、データセンターを形成する最新トレンドについてそれぞれ考え方を示している。

　2017年中盤にEPYCがリリースされてから、状況がやや変わってきた。AMDはDell EMC、HPE、Cisco Systems、Super Micro Computerのエンタープライズシステムに同社のチップを供給するようになり、着実に市場シェアを拡大している。

　これに対し、Intelはちょっとした問題に行き当たっているように見える。同社の報告によると、需要を満たすのに十分な数を供給するのが難しく、10ナノメートル製造プロセスの導入もさらに遅れ、2019年にずれ込むという。

　想像通り、両社はパフォーマンスを高めるために1ソケット当たりのプロセッサコアを増やしている。ただしその方法はそれぞれ異なる。AMDはマイクロアーキテクチャを刷新して1クロック当たりの命令数（IPC）を増やした。Intelはディープラーニングのワークロードの処理速度向上を目的とした新しい命令を加え、DIMMスロットを使用する「Optane」のサポートを追加した。

　Intelが提供するのは「Cascade Lake」というコードネームが付けられた次世代Xeonプロセッサファミリーだ（訳注）。Intelは最上位製品の一つである「Cascade Lake Advanced Performance」（2019年前半正式リリース予定）の詳細も公表している。それによると、最大48コアを誇り、DDR4メモリを12チャネル備えるという。これによりXeonのメモリ容量は倍増する。

訳注：2019年1月7日、サーバ向けの「Cascade Lake-SP」の出荷開始が発表された。

　AMDも2019年発売に向けて「Rome」というコードネームが付けられた次世代EPYCを準備している。これは最新の「Zen 2」コアをベースにする。このアーキテクチャは、既存のEPYCファミリーの2倍となる1ソケット当たり最大64コアを誇る。8チャネルのDDR4メモリと128レーンのPCIe（PCI Express）を残したため、新しいチップは第1世代と同じマザーボードソケットに適合する。

　とはいえ、PCIeのサポートはPCIe 4.0規格にアップグレードされ、既存のPCIe 3.0の2倍の帯域幅を提供する。NVMe SSDやイーサネットアダプターなど、PCIe 4.0互換機器と併用すれば、スループットがさらに向上する。

内部構造

　2つの新しいプロセッサのパッケージ中を見ると、幾つか驚くことがある。Cascade Lake-APとRomeはどちらもマルチチップパッケージ（MCP）だ。つまり相互に内部接続された複数のシリコンチップで構成されている。

　Cascade Lake-APは、実質的に24コアのチップを2つ相互に接続する。それは、Cascade Lakeの他のSKU（訳注）がDDR4メモリを6チャネル保持するよう設定されているためだ。このチャネル数は、現世代の「Skylake」マイクロアーキテクチャと同じだ。

訳注：CPUの場合は、同一製品名を動作クロックやキャッシュサイズなどでさらに細分化した種類を指す。例：「Intel Core i9-9900」の場合、「Intel Core i9」が製品（ブランド）名で、「9900」の上1桁（9）がプロセッサの世代、下3桁（900）がSKUナンバー。

　2つのチップは1つのUPI（Ultra Path Interconnect）リンクを使って相互接続される。このリンクは、ソケット同士を外部接続するのに使うものと同じタイプだ（Cascade Lake-APは1～2個のソケットをサポートする）。

　AMDの既存のEPYCは、4つの独立した「チップレット」で構成される。4つのチップレットは「Infinity Fabric」という高速相互接続でクロスリンクされている。ただしRomeは構成が大きく異なっている。このチップは、I/Oとメモリのコントローラーチップ1つを8つのチップレットで取り囲む構成だ。各チップレットには8つのZen 2コアが搭載される。このように分離した理由は、I/Oとメモリのコントローラーを初代EPYCと同じ14ナノメートルプロセスで製造できるようにするためだ。これに対し、新しいZen 2は7ナノメートル製造プロセスで製造されている。

　これらのZen 2コアはアーキテクチャの強化も幾つか行われ、浮動小数点演算ユニットのビット幅が256bitに倍増し、分岐予測機能や命令のプリフェッチが向上している。

　その結果、新しいEPYCチップはIPCが初代よりも29％向上した。AMDによると、Zen 2は一操作当たりの電力消費量も半減しているという。

最適化

　IntelのCascade Lakeは14ナノメートル製造プロセスをそのまま採用した。そのため次期チップと既存のXeonファミリーにはほとんど違いがないように見えるかもしれない。

　Intelは「Spectre」と「Meltdown」の脆弱（ぜいじゃく）性に対抗するため、ハードウェア的な軽減策を追加している。また前述したようにディープラーニングのタスクを高速化するために新しい「Vector Neural Network Instructions」（VNNI）を用意し、DIMM型の「Optane DC Persistent Memory」のサポートも追加している。

　Intelによると、VNNI（別名Intel Deep Learning Boost）によってSkylakeファミリーのパフォーマンスが最大17倍向上するという。AVX-512命令セット（訳注）の場合、INT8の畳み込みを3つの個別のステップではなく1つのステップで処理する能力のおかげだ。ただしこれを利用するには、Cascade Lake用に最適化されたアプリケーションコードが必要なのは明らかだ。

訳注：Xeon Phiから採用された命令セットで、エンコーディングや暗号化、ディープラーニングなどの用途でデータ処理のパフォーマンスを向上させる。

　Optane DC Persistent Memoryは高レイテンシだが容量が大きいため、DRAMとストレージの間で新しい層が使えるようになる。DIMMフォームファクターでは、128GB、256GB、512GBを利用できる。ただし、最近発売された256GBのDIMMが現時点でのDRAMの最大容量になっている。

　Intelは、DRAMとOptaneの組み合わせたCascade Lakeサーバを想定している。Optane DC Persistent Memoryは「App Direct Mode」と「Memory Mode」の2つのモードをサポートする。App Direct ModeはOptane対応のソフトウェアを対象とし、データをDRAMに収容するか、容量の大きいOptaneに収容するかを選択できる。Memory Modeは、DRAMがOptaneのキャッシュとして機能する。プロセッサのメモリコントローラーは、最も頻繁にアクセスされるデータが必ずDRAMに存在するようにする。

　ディープラーニング命令やOptaneなど、Intelは特定のワークロードの速度を上げるために最適化を追加する戦略を採っているように思える。Optaneは、インメモリデータベースや分析に効果があることが実証されている。ただし通常は、そうした機能をサポートするように記述したコードが必要になる。

　これに対してAMDは、初代のEPYCで行ったように多くのコアを低価格で提供し、1ワット当たりのパフォーマンスを向上させるというコストパフォーマンスの提案を打ち出している。

　IntelもAMDも新しいチップの詳しい価格はまだ公表していない。Skylakeの最上位チップは1万ドル（約109万円）を上回る価格設定であり、この価格はEPYCの最上位チップの数倍に相当する。この価格差が今後も続く可能性は高そうだ。

サーバ向けCPU市場を制するのはIntel Cascade LakeかAMD Romeか：次世代CPU技術解説

関連記事

内部構造

最適化

関連記事