検索
特集/連載

SageMaker、EC2の基礎知識 なぜ「インスタンス選び」が成否の分け目なのか機械学習用「EC2インスタンス」選びの基本【前編】

「Amazon SageMaker」を使ったAIプロジェクトの成否を分ける要素の一つが、インスタンスの選択だ。CPUやGPU、メモリ、ネットワーク性能など、考慮すべき要素は多岐にわたる。

Share
Tweet
LINE
Hatena

 さまざまな業界の企業が機械学習などのAI(人工知能)技術の価値を認識し、利益創出にAI技術を生かす方法を模索している。業務の自動化や効率化、不正行為の検出、予測に基づく意思決定の改善など、その活用範囲は多岐にわたる。

 機械学習モデルのトレーニング、推論といった処理(ワークロード)を実行するには、大量の計算処理能力が不可欠だ。これを実現するための手段としてクラウドコンピューティングがある。

 Amazon Web Services(AWS)の機械学習モデル構築サービス「Amazon SageMaker」(以下、SageMaker)は、機械学習モデルの開発から運用までを一貫した環境で実行できるマネージドサービスだ。AWSの仮想マシンサービス「Amazon Elastic Compute Cloud」(Amazon EC2、以下EC2)はそのインフラになる。

 SageMakerを用いて、コストを抑えながらAI技術を最大限に活用するには、適切なインスタンスタイプを選択することが欠かせない。インスタンスタイプは、CPUコア数、メモリ容量、GPU、ネットワーク帯域幅などの組み合わせを定義したものだ。本連載はSageMakerの利用においてインスタンスタイプが重要な理由と、選択可能なEC2インスタンスの種類を解説する。

なぜインスタンスタイプが重要なのか?

 ワークロードの種類によって適切なインスタンスタイプは異なる。例えばデータの前処理やテストトレーニングには比較的小規模な計算処理能力があれば十分だが、大規模なデータセットを用いた本格的なトレーニングにはより多くの計算能力が必要になる。推論であれば、安定した応答速度を確保するために、ワークロードに見合ったCPU性能とメモリ容量を持つインスタンスタイプを選択しなければならない。

 SageMakerは、汎用(はんよう)的なEC2インスタンスカテゴリーに加えて、特定の用途に最適化されたインスタンスカテゴリーを提供している。これらのインスタンスカテゴリーは、さまざまなタスクを実行できるよう、異なる特性を持つインスタンスタイプを用意している。

 複数の最適化機能を組み合わせたEC2インスタンスもある。例えば「C5n」は計算処理とネットワーク性能を、「R5d」はメモリとストレージ性能を組み合わせて最適化したインスタンスだ。

 処理するデータ量もインスタンスタイプの選択に影響する。EC2インスタンス内にデータを保存する場合は、ストレージを最適化したインスタンスタイプが適する。大量のデータを外部ストレージから取得する必要がある場合は、ネットワークを最適化したインスタンスタイプが有用だ。ディープラーニング(深層学習)や大規模言語モデル(LLM)といった、計算負荷がかかる機械学習のタスクには、専用ハードウェアを使用して計算処理を高速化する「アクセラレーテッドコンピューティング」を適用したインスタンス(アクセラレーテッドコンピューティングインスタンス)を使うのがよい。

機械学習用のEC2インスタンス

 SageMakerでは、EC2が提供するアクセラレーテッドコンピューティングインスタンスを利用できる。これにはさまざまなインスタンスタイプとインスタンスサイズ(インスタンスを構成するリソースの規模)があり、機械学習タスクに活用できる。以下は主要なインスタンスタイプの特徴と用途だ。

P5

 「P5」は「NVIDIA H100 Tensor Core GPU」を搭載するインスタンスで、深層学習などの高度な計算処理において優れたパフォーマンスを発揮する。テキストや画像などを自動生成するAI技術「生成AI」アプリケーションやLLMの開発、トレーニング、推論といった高負荷のAIワークロードに適する。2024年12月時点で、以下のインスタンスサイズが利用可能だ。

  • p5.48xlarge
  • p5e.48xlarge
  • p5en.48xlarge

G5

 「G5」は「NVIDIA A10G Tensor Core GPU」を搭載するインスタンスで、大規模なトレーニングや推論に向いている。P5よりも豊富なインスタンスサイズの選択肢があり、計算能力やコスト管理といった面で、自社ニーズに応じたものを選びやすい。2024年12月時点で利用可能なインスタンスサイズを以下に示す。

  • g5.xlarge
  • g5.2xlarge
  • g5.4xlarge
  • g5.8xlarge
  • g5.16xlarge
  • g5.12xlarge
  • g5.24xlarge
  • g5.48xlarge

Trn1

 「Trn1」は機械学習モデルのトレーニング用に設計されたチップ(半導体集積回路)「AWS Trainium」を搭載するインスタンスだ。自然言語処理やコンピュータビジョン(画像処理を通じて対象の内容を認識、理解するAI技術)、検索、レコメンデーション、ランキングといった用途に向いている。AWSによれば、Trn1は類似のEC2インスタンスと比較して、トレーニングの計算効率や処理時間を向上させることができる。2024年12月時点で利用可能なインスタンスサイズは以下の通りだ。

  • trn1.2xlarge
  • trn1.32xlarge
  • trn1n.32xlarge

Inf2

 「Inf2」は深層学習の推論タスク向けに設計されたチップ「AWS Inferentia2」を搭載するインスタンスだ。画像やテキストの生成、要約、音声認識といった用途で広く活用されている。Inf2はエネルギー効率に優れ、持続可能性の目標達成に貢献するとAWSは説明する。2024年12月時点では、以下のインスタンスサイズを利用できる。

  • inf2.xlarge
  • inf2.8xlarge
  • inf2.24xlarge
  • inf2.48xlarge

 次回は、EC2インスタンスの選び方を解説する。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る