Fish Audio发布语音到语音模型Fish AgentV0.1 3B实现“即时”语音克隆

文章2周前更新 admin
44 0

Fish Audio发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以高效、精确地生成和处理语音,尤其适合模拟或克隆不同的声音。
该模型是在Qwen-2.5-3B-|nstruct的基础上继续预训练完成的,涵盖了 2000 亿语音和文本令牌。
·端到端架构:采用无语义层的真正端到端(E2E)架构。
·零样本语音克隆:支持无需训练即可实现语音克隆。
·精简的 3B 参数:使用 30 亿参数,便于开发。
·支持文本和音频输入:灵活的多输入方式,
·超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)Fish Audio发布语音到语音模型Fish AgentV0.1 3B实现“即时”语音克隆Fish Agent v0.1 38的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如WhisperCosyVoice使用的编码),而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快,结构更简单,效率也更高。
Fish Agent V0.1 38可以快速、自然地生成高质量语音,同时减少了传统模型的复杂步骤,从而实现“即时语音克降和文本到语音转换。这让它更适合需要实时语音生成的应用,比如语音助手、自动客服、以及各种需要快速语音反馈的场景。
支持的语言及数据规模:
·英语(en): 约30万小时
·中文(zh): 约30万小时
·德语 (de), 日语 (ja),法语 (fr),西班牙语(es),韩语 (ko),阿拉伯语 (ar): 各约 2万小时
关键特性
1.语音到语音生成:该模型能够捕捉并生成自然环境音频,适用于高精度语音生成任务,提供更真实的音频表现。
2.文本到语音转换:Fish Agent v0.1 38也是一款先进的TTS模型,支持将文本内容转换为高质量的语音输出。
3.多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言具备广泛的应用潜力,
4.大规模训练数据:模型基于约70万小时的多语言音频数据训练,使其在处理多种语言和语境时具备出色的适应性。
5.创新架构:Fish Agent V0.1 38采用了无语义令牌的架构,不需要传统的语义编码/解码器。这种设计提升了处理效率,同时可以减少对额外模块的依赖,使生成效果更稳定和高效。
同时Fish Audio发布了Fish Speech 1.4 技术报告
Fish-Speech提出了一个具有多语言和多情感稳定性的创新TTS解决方案,通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构,实现了跨语言和情感多样的高质量语音合成。

© 版权声明

暂无评论

暂无评论...