GPUを使ったディープラーニング(深層学習)が一般的になっている。これに伴いデータ管理者は、大量の計算が可能なインフラを構築する必要がある。
ビッグデータ分野では人工知能(AI)に関連してディープラーニング(深層学習)や機械学習の技法が共通の話題になっている。データ管理者は、さまざまな理由で、このトレンドから目が離せない。中でもとりわけ重要なのは、こうした新しいテクノロジーが現代のデータインフラに影響を及ぼす可能性だ。
議論の中心になりつつあるのはGPU(グラフィックスプロセッシングユニット)だ。GPUはAIの観点でも構想として定着し始めている。GPUを使ったディープラーニングの開発はあまり話題にはなっていないが、その開発速度は上がっている。
ディープラーニングはAIや機械学習の一種で、大量のデータセットから成り立つニューラルネットワークを処理する。GPUを使ったディープラーニングでは、ハードウェアと高度なソフトウェアが特に効果的に組み合わせられる。そのユースケースは、レコメンデーションエンジンから自動運転車まで幅広い。
最近のGPUはメモリ帯域幅が非常に広い。そのためビッグデータを適切に処理できる。行列の乗算などがその例だ。つまりGPUはディープラーニングに必要な並列処理に向いている。並列処理は、特にディープラーニングモデル作成のトレーニング段階に効果がある。
GPUは、CPUと比べればまだ使用頻度は少ない。そのためチップの値段が高く、GPUを活用できる開発者のコストも同じく高くなる。また、GPUの利用はAIのディープラーニングに限らない。分散処理フレームワークの「Apache Spark」、ごく最近ではYarnが組み込まれた「Apache Hadoop 3.0」でも利用されている。
32bitの汎用(はんよう)CPU登場前の時代を覚えているデータ管理者なら、浮動小数点コプロセッサやアレイプロセッサ、そうしたプロセッサが一部のアプリケーションで果たす特別な用途を思い起こすだろう。
新世代の開発者から、アプリケーションを大量の計算が可能なGPUインフラに移行する必要があると言われた管理者は、何に注意すべきだろう。その答えは、可変要素が数多く関わってくることだ。
例えば、GPUを幾つか備えているサーバでも、ジョブの実行がその1台のサーバに限られていれば、やるべきことは決まる。Silicon Valley Software Groupでプラクティスマネジャーを務めるバーナード・フレンケル氏によると、ディープラーニングのジョブを複数台のサーバで実行する場合は注意が必要だという。注意するのはチップに関することだけではない。
「複数台のサーバを使用する段階まで進むと、2台のサーバ間の帯域幅を許容できる確実な保証はない。サーバ間通信のオーバーヘッドを予測するのは難しい」(フレンケル氏)
Copyright © ITmedia, Inc. All Rights Reserved.
ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。
なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...
業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...