OpenAIは2025年3月20日、音声認識と音声合成に特化した新モデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」「gpt-4o-mini-tts」を発表した。これらは、開発者向けAPIやデモサイト「OpenAI.fm」を通じて利用可能であり、音声の表現力や文字起こし精度の高さが特徴とされる。
GPT-4oを基盤に再訓練されたこれらのモデルは、100以上の言語に対応し、騒音下や多様なアクセントにも高精度で対応可能。わずか数行のコード追加で、既存のテキストアプリに音声機能を統合できる点が実装面での革新として注目されている。
競合するElevenLabsやHume AIとの機能・価格面での差異、ならびにリアルタイム性能に対する開発者の評価も交錯する中で、OpenAIは今後の音声およびマルチモーダルAI戦略の一環として本モデルの普及を図る構えである。
GPT-4o-transcribeが切り拓く音声アプリ開発の新局面

OpenAIが発表した新音声モデル「gpt-4o-transcribe」および関連モデルは、既存のテキストベースアプリケーションに音声機能を短時間で統合可能とする。
とりわけ、先週発表された「Agents SDK」との組み合わせにより、わずか9行程度のコード追加で音声入出力の実装が可能になる点が、開発者にとって極めて実用的な利点といえる。ChatGPTで採用されているGPT-4oモデルを再訓練したことで、精度と処理速度のバランスにも優れる設計となっている。
これらの音声モデルは、OpenAIが2年前に公開した音声認識モデル「Whisper」と比較して、100超の言語に対応しつつも、低エラー率を実現しており、特に英語においてはエラー率2.46%を記録している。騒音下や多様な話し方、アクセントへの対応能力も大幅に向上していることから、実務での展開範囲は広いと考えられる。
開発者にとっての導入障壁が下がったことで、今後はECサイト、予約システム、カスタマーサポートなど、幅広い分野での導入が加速すると見られる。特に、音声によるユーザー体験の高度化が進む中で、これまで「音声対応」が後回しになっていた領域にも実装の波が及ぶことが期待される。
競合と並走する音声AIの未来形と制限
OpenAIの新音声モデルは、その技術的完成度と汎用性において注目されるが、一方で話者識別機能を搭載していない点は特定用途における制約となり得る。
gpt-4o-transcribeは1チャンネル入力に対して単一音声出力という設計であり、複数話者の発言を明確に分離して処理する必要がある用途では、ElevenLabsの「Scribe」など競合製品に軍配が上がる場面も想定される。後者は英語において3.3%のエラー率を実現しつつ、話者識別にも対応している。
さらに、感情やイントネーションを細かく指示できるTTS技術においても、Hume AIの「Octave TTS」が単語単位・文単位での柔軟な音声出力を提供しており、表現力の点で際立つ存在となっている。加えて、オープンソース分野では「Orpheus 3B」のようなApacheライセンスのモデルが登場し、音声AIの競争環境はかつてないほどに多様化している。
OpenAIにおける音声AIの今後の焦点は、リアルタイム性を重視した音声対話に回帰するのか、それともカスタマイズ性と拡張性を追求する方向へ進むのかにある。
今回の発表には、元AppleのUIデザイナーであるBen Hylak氏が「リアルタイム性が後退している」と評したように、既存ユーザーからの期待とのギャップも浮かび上がる。進化と制約の双方を抱えながら、音声AIの主導権争いは新たな局面に入った。
Source:VentureBeat