OpenAI 发布了三款全新语音模型,包括两款语音转文本模型以及一款文本转语音模型

2025 年 3 月 20 日,Openai 发布了三款全新的语音模型,包括两款语音转文本模型(GPT-4o-transcribe 和 GPT-4o-mini-transcribe)以及一款文本转语音模型(GPT-4o-mini-tts)。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

  • GPT-4o-transcribe:该模型经过多样化、高质量音频数据集的长时间训练,能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景,例如客户呼叫中心和会议记录转录等领域。

  • GPT-4o-mini-transcribe:这是 GPT-4o-transcribe 的精简版本,速度更快、效率更高。虽然其单词错误率(WER)稍高于完整版模型,但仍优于原有的 Whisper 模型,更适合资源有限但需要高质量语音识别的应用场景。

文本转语音模型

  • GPT-4o-mini-tts:这款模型首次支持“可引导性”(steerability),开发者不仅可以指定模型“说什么”,还能控制“怎么说”,例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等,还能根据指令调整语音风格,如“像富有同情心的客服 Agent 一样说话”。

技术创新

  • 使用真实音频数据集进行预训练,优化模型性能。

  • 增强的蒸馏方法,实现从大模型到小模型的知识转移。

  • 强化学习,提升转录精度并减少“幻觉”现象。

应用场景

  • 呼叫中心:提供更准确的语音识别和更自然的语音合成,提升客户服务体验。

  • 会议记录:快速准确地将会议语音内容转录为文本。

  • 个性化客服:通过语音风格的定制,提供更具温度和表现力的语音体验。

  • 创意故事讲述:为故事添加生动的语音效果。

定价

  • GPT-4o-transcribe 的价格与之前的 Whisper 模型相同,每分钟 0.006 美元。

  • GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。

  • GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站:OpenAI.fm,网站提供了丰富的预设模板,包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外,OpenAI 还提供了升级版的 Agent SDK,帮助开发者更便捷地构建语音智能体。

官方网站:http://openai.fm/

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

收藏
#文本转AI语音 #语音转文字 #文字转语音
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...