divider-gif

model logo
Fun-ASR
精度高、可读性强,适合复杂任务
输入:录音文件
输出:文本
model logo
Fun-ASR-Realtime
适合视频直播、会议等场景
输入:实时音频
输出:文本
model logo
Fun-ASR-Mtl
适合多语言场景
输入:录音文件
输出:文本
model logo
Fun-CosyVoice-V2
超低延迟、语气生动、多语言、强稳定性
输入:文本、音频
输出:音频
model logo
Fun-CosyVoice-V3-Flash
零样本克隆、富有表现力、听感自然、多语言
输入:文本、音频
输出:音频
model logo
Fun-CosyVoice-V3-Plus
音质更好,适用于更专业的场景
输入:文本、音频
输出:音频
divider-gif
语音识别
语音合成
语音克隆
语音识别 01  / 01
听得清,更懂你
Fun-ASR端到端语音识别大模型,是基于数千万小时真实语音数据训练而成,具备强大的上下文理解能力与行业适应性,支持低延迟实时处理与多语种覆盖(10+种)。在教育、金融等垂直领域表现出色,能准确识别专业术语与行业表达,有效应对“幻觉”生成和语种混淆等挑战。
divider-gif

性能效果更优
卓越的模型性能,满足企业多样化需求
高精度识别,具备上下文感知和高精度转写能力
快速响应,超低延迟
零样本克隆,能够精准捕捉音色、语调和说话习惯
捕捉情绪、口音和个性化发音特征,显著提升语音的自然度与表现力
业务适配性更高
丰富多元的模型选择,适应多行业需求
Fun-ASR具备强抗噪声能力,嘈杂噪声下,仍然可以准确识别
Fun-ASR支持1000 个以上的热词,可针对专业术语进行定制
Fun-CosyVoice支持音量、语调、语速精细调节,情感丰富极具表现力
Fun-CosyVoice支持多语言、多方言语音合成,满足不同业务场景
数据安全更可靠
严格的数据安全和隐私保护,符合合规要求
国内首批通过网信办大模型备案
国际认证联盟(IQNet)颁发的全球首张人工智能管理体系证书
采用先进的加密技术和安全协议,保障数据传输的安全
多维度的安全架构保障数据安全,符合行业标准和法规要求
成本价格更可控
合理的 price 策略,极大降低企业使用成本
提供灵活的计费模式,按需付费,节省成本
高性能的模型减少计算资源的消耗,降低运营成本
丰富的模型选择和优化的算法,提高业务效率,创造更多价值
background