Fish Audio发布语音到语音模型Fish AgentV0.1 3B实现“即时”语音克隆

文章10个月前更新 admin

292 0 0

Fish Audio发布高级语音处理模型Fish Agent V0.1 3B，它是一个语音到语音模型，它可以高效、精确地生成和处理语音，尤其适合模拟或克隆不同的声音。
该模型是在Qwen-2.5-3B-|nstruct的基础上继续预训练完成的，涵盖了 2000 亿语音和文本令牌。
·端到端架构:采用无语义层的真正端到端(E2E)架构。
·零样本语音克隆:支持无需训练即可实现语音克隆。
·精简的 3B 参数:使用 30 亿参数，便于开发。
·支持文本和音频输入:灵活的多输入方式，
·超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)Fish Agent v0.1 38的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如Whisper和CosyVoice使用的编码)，而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快，结构更简单，效率也更高。
Fish Agent V0.1 38可以快速、自然地生成高质量语音，同时减少了传统模型的复杂步骤，从而实现“即时语音克降和文本到语音转换。这让它更适合需要实时语音生成的应用，比如语音助手、自动客服、以及各种需要快速语音反馈的场景。
支持的语言及数据规模：
·英语(en): 约30万小时
·中文(zh): 约30万小时
·德语 (de), 日语 (ja),法语 (fr),西班牙语(es),韩语 (ko),阿拉伯语 (ar): 各约 2万小时
关键特性
1.语音到语音生成:该模型能够捕捉并生成自然环境音频，适用于高精度语音生成任务，提供更真实的音频表现。
2.文本到语音转换:Fish Agent v0.1 38也是一款先进的TTS模型，支持将文本内容转换为高质量的语音输出。
3.多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言具备广泛的应用潜力，
4.大规模训练数据:模型基于约70万小时的多语言音频数据训练，使其在处理多种语言和语境时具备出色的适应性。
5.创新架构:Fish Agent V0.1 38采用了无语义令牌的架构，不需要传统的语义编码/解码器。这种设计提升了处理效率，同时可以减少对额外模块的依赖，使生成效果更稳定和高效。
同时Fish Audio发布了Fish Speech 1.4 技术报告
Fish-Speech提出了一个具有多语言和多情感稳定性的创新TTS解决方案，通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构，实现了跨语言和情感多样的高质量语音合成。

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站