Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型

Speech-02是什么?

MiniMax Audio Speech-02是一款强大的文本转语音(TTS)模型,能够将任何文件或URL瞬间转化为逼真的音频 。它支持高达20万字符的单次输入,覆盖30多种语言,并带有地道口音 。此外,Speech-02还支持无限语音克隆、亚秒级流媒体处理以及多种音频格式(如FLAC、WAV、MP3和PCM) 。

Speech-02模型提供两种版本:speech-02-hd-preview(以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景)和speech-02-turbo-preview(在低延迟和高性能之间取得平衡,适合实时应用) 。

Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型.webp

语言与语音能力

  • 多语言支持:Speech-02支持30多种语言的文本转语音,包括英语、中文、日语、韩语、法语、德语、西班牙语、葡萄牙语、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语、印地语、泰语、波兰语、罗马尼亚语、希腊语、芬兰语和印尼语等,且带有地道口音。

  • 语音库丰富:拥有300多个真实自然的声音,支持多种语言的地道表达。

技术性能

  • 单次输入字符数:单次输入支持高达20万字符。

  • 流媒体处理速度:支持亚秒级流媒体处理。

  • 模型版本:包括speech-02-hd-preview和speech-02-turbo-preview。前者以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景;后者则在低延迟和高性能之间取得平衡,适合实时应用。

Speech-02功能特性

  • 无限语音克隆:能够以行业领先的质量,快速克隆出多种风格和语调的语音。

  • 语音控制:用户可以轻松控制语音的情感、音量、速度和输出格式。

  • 语音混合:可以将现有的语音组合起来,创造出全新的独特语音。

  • 音频格式支持:支持FLAC、WAV、MP3和PCM等多种音频格式。

Speech-02应用场景

  • 有声书制作:适合将长篇小说、学术论文等转化为高质量的音频内容。

  • 播客创作:帮助播客创作者制作更具吸引力和多样性的内容。

  • 电影与游戏配音:提供电影级低音和沉浸式音频效果。

  • 国际会议与翻译:支持在多种语言之间即时无缝切换。

目前,Speech-02模型已经在MiniMax Audio平台及API平台上线,但国内版尚未推出。

官方链接

MiniMax Audio平台:https://www.minimax.io/audio 

MiniMax Audio API平台:https://www.minimax.io/platform 

收藏
#文本转AI语音
最新工具
喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...