Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型

Speech-02是什么?

MiniMax Audio Speech-02是一款强大的文本转语音(TTS)模型,能够将任何文件或URL瞬间转化为逼真的音频 。它支持高达20万字符的单次输入,覆盖30多种语言,并带有地道口音 。此外,Speech-02还支持无限语音克隆、亚秒级流媒体处理以及多种音频格式(如FLAC、WAV、MP3和PCM) 。

Speech-02模型提供两种版本:speech-02-hd-preview(以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景)和speech-02-turbo-preview(在低延迟和高性能之间取得平衡,适合实时应用) 。

Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型.webp

语言与语音能力

  • 多语言支持:Speech-02支持30多种语言的文本转语音,包括英语、中文、日语、韩语、法语、德语、西班牙语、葡萄牙语、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语、印地语、泰语、波兰语、罗马尼亚语、希腊语、芬兰语和印尼语等,且带有地道口音。

  • 语音库丰富:拥有300多个真实自然的声音,支持多种语言的地道表达。

技术性能

  • 单次输入字符数:单次输入支持高达20万字符。

  • 流媒体处理速度:支持亚秒级流媒体处理。

  • 模型版本:包括speech-02-hd-preview和speech-02-turbo-preview。前者以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景;后者则在低延迟和高性能之间取得平衡,适合实时应用。

Speech-02功能特性

  • 无限语音克隆:能够以行业领先的质量,快速克隆出多种风格和语调的语音。

  • 语音控制:用户可以轻松控制语音的情感、音量、速度和输出格式。

  • 语音混合:可以将现有的语音组合起来,创造出全新的独特语音。

  • 音频格式支持:支持FLAC、WAV、MP3和PCM等多种音频格式。

Speech-02应用场景

  • 有声书制作:适合将长篇小说、学术论文等转化为高质量的音频内容。

  • 播客创作:帮助播客创作者制作更具吸引力和多样性的内容。

  • 电影与游戏配音:提供电影级低音和沉浸式音频效果。

  • 国际会议与翻译:支持在多种语言之间即时无缝切换。

目前,Speech-02模型已经在MiniMax Audio平台及API平台上线,但国内版尚未推出。

官方链接

MiniMax Audio平台:https://www.minimax.io/audio 

MiniMax Audio API平台:https://www.minimax.io/platform 

收藏
#文本转AI语音
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...