OpenAI 发布了三款全新语音模型,包括两款语音转文本模型以及一款文本转语音模型

2025 年 3 月 20 日,Openai 发布了三款全新的语音模型,包括两款语音转文本模型(GPT-4o-transcribe 和 GPT-4o-mini-transcribe)以及一款文本转语音模型(GPT-4o-mini-tts)。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

  • GPT-4o-transcribe:该模型经过多样化、高质量音频数据集的长时间训练,能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景,例如客户呼叫中心和会议记录转录等领域。

  • GPT-4o-mini-transcribe:这是 GPT-4o-transcribe 的精简版本,速度更快、效率更高。虽然其单词错误率(WER)稍高于完整版模型,但仍优于原有的 Whisper 模型,更适合资源有限但需要高质量语音识别的应用场景。

文本转语音模型

  • GPT-4o-mini-tts:这款模型首次支持“可引导性”(steerability),开发者不仅可以指定模型“说什么”,还能控制“怎么说”,例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等,还能根据指令调整语音风格,如“像富有同情心的客服 Agent 一样说话”。

技术创新

  • 使用真实音频数据集进行预训练,优化模型性能。

  • 增强的蒸馏方法,实现从大模型到小模型的知识转移。

  • 强化学习,提升转录精度并减少“幻觉”现象。

应用场景

  • 呼叫中心:提供更准确的语音识别和更自然的语音合成,提升客户服务体验。

  • 会议记录:快速准确地将会议语音内容转录为文本。

  • 个性化客服:通过语音风格的定制,提供更具温度和表现力的语音体验。

  • 创意故事讲述:为故事添加生动的语音效果。

定价

  • GPT-4o-transcribe 的价格与之前的 Whisper 模型相同,每分钟 0.006 美元。

  • GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。

  • GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站:OpenAI.fm,网站提供了丰富的预设模板,包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外,OpenAI 还提供了升级版的 Agent SDK,帮助开发者更便捷地构建语音智能体。

官方网站:http://openai.fm/

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

收藏
#文本转AI语音 #语音转文字 #文字转语音
最新工具
Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...

FotoForensics
FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要...

PixPin
PixPin

一款功能强大、完全免费的截图、贴图工具,具备高效截图、图片标注、...