OpenAI 发布了三款全新语音模型,包括两款语音转文本模型以及一款文本转语音模型

2025 年 3 月 20 日,Openai 发布了三款全新的语音模型,包括两款语音转文本模型(GPT-4o-transcribe 和 GPT-4o-mini-transcribe)以及一款文本转语音模型(GPT-4o-mini-tts)。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

  • GPT-4o-transcribe:该模型经过多样化、高质量音频数据集的长时间训练,能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景,例如客户呼叫中心和会议记录转录等领域。

  • GPT-4o-mini-transcribe:这是 GPT-4o-transcribe 的精简版本,速度更快、效率更高。虽然其单词错误率(WER)稍高于完整版模型,但仍优于原有的 Whisper 模型,更适合资源有限但需要高质量语音识别的应用场景。

文本转语音模型

  • GPT-4o-mini-tts:这款模型首次支持“可引导性”(steerability),开发者不仅可以指定模型“说什么”,还能控制“怎么说”,例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等,还能根据指令调整语音风格,如“像富有同情心的客服 Agent 一样说话”。

技术创新

  • 使用真实音频数据集进行预训练,优化模型性能。

  • 增强的蒸馏方法,实现从大模型到小模型的知识转移。

  • 强化学习,提升转录精度并减少“幻觉”现象。

应用场景

  • 呼叫中心:提供更准确的语音识别和更自然的语音合成,提升客户服务体验。

  • 会议记录:快速准确地将会议语音内容转录为文本。

  • 个性化客服:通过语音风格的定制,提供更具温度和表现力的语音体验。

  • 创意故事讲述:为故事添加生动的语音效果。

定价

  • GPT-4o-transcribe 的价格与之前的 Whisper 模型相同,每分钟 0.006 美元。

  • GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。

  • GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站:OpenAI.fm,网站提供了丰富的预设模板,包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外,OpenAI 还提供了升级版的 Agent SDK,帮助开发者更便捷地构建语音智能体。

官方网站:http://openai.fm/

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

收藏
#文本转AI语音 #语音转文字 #文字转语音
最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...