AIツールの開発に取り組むスタートアップは、どのような戦略を用いて競争力を高めるべきなのか。米国で開催されたAWSの年次イベント「AWS re:Invent」で、その最前線を探った。
2024年12月、Amazon Web Services(AWS)の年次イベント「AWS re:Invent」が米ラスベガスで開催された。世界中から約6万人の技術者や企業が集まり、最新技術の発表や議論が繰り広げられた。AI(人工知能)技術を活用した音声分析に挑む日系スタートアップPoeticsもその一社だ。
グローバルに急成長を遂げるAI市場で、スタートアップはどのように競争力を高め、成長の道を模索しているのか。PoeticsのCEO(最高経営責任者)山崎はずむ氏に、イベントに参加した経緯から、海外企業との交流を通して見えたAI市場のトレンド、それを踏まえた今後の戦略までを聞いた。
――まず、Poeticsの事業について教えてください。いわゆる生成AIブームが始まる前から音声認識AIを開発されてきたのでしょうか。
もともと当社はEmpathという社名で2017年にスタートしました。当初は「音声から人の感情を解析するAIモデル」を開発していました。音声周りの技術として、信号処理を活用した感情解析や話者分離(話す人ごとに文字起こしをする手法)、ノイズキャンセリングなどの技術も手掛けており、それに伴って音声認識の分野も自然と発展していった、という流れになります。ですので、いわゆる生成AIブームが始まる前から、ずっと音声技術にフォーカスして開発を続けてきた会社です。
2022年6月には商談解析AIサービス「JamRoll」を発表しました。商談の内容を音声認識処理にかけて文字起こしした後、LLM(大規模言語モデル)で要約したり、レポート作成に活用したりして、商談の進め方に対してアドバイスを提供するSaaS(Software as a Service)型サービスです。
JamRollのサービス自体をAWS上に構築しており、要約機能には生成AIアプリケーション開発サービス「Amazon Bedrock」からAnthropicのLLM「Claude」を使用しています。音声認識に関しては完全に自社開発です。データ収集からラベル付け(アノテーション)、話者分離技術やノイズキャンセリング技術などの周辺技術まで、音声AIモデルの構築を一貫して自社で開発しています。
――今回AWS re:Inventに参加された経緯を教えてください。
当社は2024年にAWSが主催するプログラム「AWS Generative AI Accelerator」に選出され、AWS re:Inventもその一環で参加しています。このプログラムは、生成AIを活用して複雑な課題の解決に取り組むスタートアップ企業に対し、事業拡大や組織成長のサポートを提供するものです。129カ国から4700件以上の応募があり、最終的に80社が選ばれました。
選ばれた企業には、最大1億5000万円分のクレジット(支援金)が提供されます。日本を含め世界中のスタートアップに広く門戸が開かれており、非常に手厚いサポートを受けられていると実感しています。イベント中は、エキスポ会場でプレゼンテーションを実施したり、Claudeを使っている関係でAnthropicのチームとネットワーキングしたりする機会がありました。
――海外のスタートアップとの交流を通して、AI市場のトレンドの変化や必要となる戦略について、どのように感じましたか。
生成AIの普及に伴い、テキストレベルでの言語の障壁は大きく減少しており、早い段階から海外市場を狙ったプロダクトを開発しているスタートアップが増えていると感じました。その中で、日本は海外展開において依然として弱い部分があると認識しています。
一方、アプリケーションレイヤーの競争は激化しており、海外展開が容易になる一方で突破口を見つける難しさも増しています。今後は単なるアプリケーション開発にとどまらず、特定の課題に焦点を当てたニッチなプロダクトを提供することが重要だと考えます。
日本語特化の研究開発(R&D)を行っている当社は、ローカル言語の音声モデルとLLMを組み合わせた独自のアプローチで、国内市場における競争力を高めています。国内での成功事例を積み重ねることで、ニッチ領域での優位性を築きつつあります。
――「日本語」と「音声モデル」というニッチな領域に特化することで、差別化を図っているんですね。
音声領域では、会話音声を非構造データから構造化データに変換する技術が重要です。特に、英語に比べて日本語や他のローカル言語では音声認識の精度が必ずしも高くないため、そのギャップを埋める技術への関心が高まっています。
テキストデータと比べて、音声データは前処理に膨大な手間がかかり、十分なデータ量を確保することが困難です。そのため音声AIモデルの開発では、データセットの質や前処理の精度が成功の鍵を握っています。こうした領域での技術的優位性に対する評価は高かったと捉えています。
さらにイベント中は、営業活動のブラックボックス化といった課題や、商談入力作業の自動化に対するニーズは、どの業界にも共通してあるというフィードバックをいただき、当社の事業方針が間違っていないと確信を深めることができました。
――近年、多種多様なLLMがものすごいスピードで登場し、競争が激化しています。音声AIにも同様の流れはくるのでしょうか。
音声AIモデルは、テキスト分野のLLMのようにはまだ確立されていないのが現状です。強いて言えば、AIベンダーOpenAIの音声認識モデル「Whisper」が挙げられますが、これは主にインターネット上のデータを基に学習したAIモデルです。汎用性は高いものの、日本語をはじめとするローカル言語に特化した最適化は十分ではありません。ローカル言語の対話データはインターネット上に十分な量が存在しないので、音声AI分野における基盤モデルはこれから発展していく段階だと感じています。
今後は、音声単体での進化というよりも、テキストや画像を含めた「マルチモーダル」処理が中心になると考えています。現在は音声認識をかけた後にテキスト処理をするという段階的なプロセスが主流ですが、将来は音声とテキストを並列かつリアルタイムで処理できるようになるでしょう。特に日本語の音声認識において、課題となるのは固有名詞の認識です。これも、テキスト情報とリアルタイムで連携させることで、より正確な認識補正が可能になると期待しています。
――イベント期間中は多くの発表がありましたが、特にどの製品やサービスに注目していますか。
ハードウェア関連の技術には特に注目しています。当社はGPU(グラフィックス処理装置)に加え、状況に応じてCPU(中央処理装置)を使い分けています。単純な処理能力だけでなく、推論速度やコスト効率といった要素も重要な評価基準としています。
例えば、AWSのAIアクセラレーター「Trainium」は、GPUと比較して電力効率やコスト対効果に優れているとされています。AIモデルの処理速度向上に加え、コスト削減にも貢献するため、スタートアップにとって非常に魅力的な選択肢となります。
クラウドプロバイダーがこの分野で革新を推進していることは、非常にありがたく思います。処理速度やコスト効率の改善により、当社の音声AIモデルの学習コストや推論処理の効率化に大きな影響を与えることを期待しています。
後編は、PoeticsがAWSのサービスを選定した理由について解説する。
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
「α世代」はマーケターにとってなぜ重要なのか?
Razorfishのレポートによると、α世代の中でも比較的年齢が高い層は美容製品に強い関心を...
【B2Bマーケター困惑】資料請求サイト経由のリードの商談化率は10%以下 有効活用するには?
資料請求サイトを活用するのは費用対効果が合わないのでしょうか。また、商談につなげる...
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年3月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。