标签:AI语音模型

Fun-ASR1.5 – 阿里通义推出的多语言端到端语音识别转写模型

Fun-ASR1.5是阿里通义实验室推出的语音识别大模型,支持多语言与方言语音转文字、自动标点与字幕生成,具备端到端语音识别能力,适用于会议记录、视频字幕制...

Seeduplex – 字节跳动推出的全双工实时语音交互大模型

Seeduplex是字节跳动推出的全双工语音大模型,支持实时语音对话、语音转文字、多轮语音理解与低延迟交互,适用于语音助手、会议记录、客服系统等场景,具备语...

VoxCPM2 – OpenBMB推出的多语言语音生成与高保真克隆模型

VoxCPM2是OpenBMB发布的多语言TTS模型,支持文本到语音转换、语音克隆与可控声线生成,可应用于视频配音、内容创作、会议记录自动转写及字幕生成,提供API接...

LongCat-AudioDiT – 美团推出的高保真语音生成与语音克隆模型

LongCat-AudioDiT 是美团推出的高保真语音生成与语音克隆模型,支持长上下文语音建模、多模态推理、API 接入及开源部署,可满足语音助手、配音、语音克隆等多...

Xiaomi MiMo-V2-TTS – 小米推出的语音合成大模型与智能体语音生成引擎

Xiaomi MiMo-V2-TTS 是小米推出的语音合成AI模型,基于MiMo大模型架构实现文本转语音生成,支持多风格语音、音色克隆与情感表达,适用于智能语音助手、内容配...

Fun-AudioGen-VD – 阿里通义专业语音生成与场景化音频模型

Fun-AudioGen-VD 是阿里通义实验室推出的高质量语音生成模型,支持自然语言指令生成个性化音色、情绪表达及沉浸式场景音频,适用于影视配音、游戏角色语音、...

Fun-CosyVoice3.5 – 阿里通义语音生成模型支持多语种音色克隆与自然语言控制

Fun-CosyVoice3.5 是阿里通义实验室推出的语音生成模型,支持多语种语音合成、音色克隆、自然语言控制和低延迟流式输出,适用于数字人、语音助手、有声内容制...