标签:AI语音模型
StepAudio 2.5 Realtime – 阶跃星辰推出的实时语音交互与AI语音模型
StepAudio 2.5 Realtime 是阶跃星辰推出的实时语音AI模型,支持实时语音对话、语音转文字、AI语音识别、副语言理解与多角色语音生成,适用于AI语音助手、会议...
GPT-Realtime-Whisper – OpenAI推出的实时语音转写与字幕生成模型
GPT-Realtime-Whisper 是 OpenAI 推出的实时语音识别模型,支持语音转文字、多语言语音转写、会议记录AI工具与视频字幕自动生成。模型基于 Realtime API 提供...
GPT-Realtime-Translate – OpenAI推出的实时语音翻译与多语言对话模型
GPT-Realtime-Translate是OpenAI推出的实时语音翻译模型,支持语音转文字、实时语音识别、多语言语音转写与语音转语音输出,适用于会议记录AI工具、视频字幕...
StepAudio 2.5 ASR – 阶跃星辰推出的长音频自动语音识别模型
StepAudio 2.5 ASR 是阶跃星辰推出的AI语音自动识别模型,支持长音频转写、多语言语音转文字、语音转文字API调用与视频字幕自动生成,适用于会议记录AI工具、...
Fun-ASR1.5 – 阿里通义推出的多语言端到端语音识别转写模型
Fun-ASR1.5是阿里通义实验室推出的语音识别大模型,支持多语言与方言语音转文字、自动标点与字幕生成,具备端到端语音识别能力,适用于会议记录、视频字幕制...
Seeduplex – 字节跳动推出的全双工实时语音交互大模型
Seeduplex是字节跳动推出的全双工语音大模型,支持实时语音对话、语音转文字、多轮语音理解与低延迟交互,适用于语音助手、会议记录、客服系统等场景,具备语...
VoxCPM2 – OpenBMB推出的多语言语音生成与高保真克隆模型
VoxCPM2是OpenBMB发布的多语言TTS模型,支持文本到语音转换、语音克隆与可控声线生成,可应用于视频配音、内容创作、会议记录自动转写及字幕生成,提供API接...
LongCat-AudioDiT – 美团推出的高保真语音生成与语音克隆模型
LongCat-AudioDiT 是美团推出的高保真语音生成与语音克隆模型,支持长上下文语音建模、多模态推理、API 接入及开源部署,可满足语音助手、配音、语音克隆等多...
Xiaomi MiMo-V2-TTS – 小米推出的语音合成大模型与智能体语音生成引擎
Xiaomi MiMo-V2-TTS 是小米推出的语音合成AI模型,基于MiMo大模型架构实现文本转语音生成,支持多风格语音、音色克隆与情感表达,适用于智能语音助手、内容配...
Fun-AudioGen-VD – 阿里通义专业语音生成与场景化音频模型
Fun-AudioGen-VD 是阿里通义实验室推出的高质量语音生成模型,支持自然语言指令生成个性化音色、情绪表达及沉浸式场景音频,适用于影视配音、游戏角色语音、...
1
2

浙公网安备33010202004812号