Hume AI推出了一款名为OCTAVE(全能文本与语音引擎),这是一款具有开创性的生0CTAVE结合了EVI2模型以及 OpenAl 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的NotebookLM 等系统的能力。可以从简单的文本描述或5秒语音录音中生成丰富的语音和人格特质,包括性别、年龄、口音、情绪语调及职业特定说话风格等。
它支持多角色交互、实时对话、以及从短录音中提取并克隆声线与个性核心能力
1.从文本到语音的丰富生成能力:
多维属性控制:
·0CTAVE能够根据简单的文本描述生成高度个性化的语音输出,包括情感语调、性别、年龄、口音等属性。
支持生成带有特定属性的语音,如性别(男性、女性)、年龄(儿童、青年、老年)、口音(美式英语、英式英语等)。
调整语调和节奏来表现不同的情绪和个性。
场景适应性:
·模拟特定职业的语言风格(如老师的耐心语气、医生的专业语调)
·对应上下文调整语音风格,增强自然对话感。使用“学术巫师导师”这样的提示,0CTAVE不仅生成高质量的声音,还创造了新的个性、口音、表情和伴随的语言–不到 300 毫秒
2.语音克隆:
快速学习:0CTAVE可以从仅5秒的语音录音中提取发音特征,克隆声线和说话风格。
可保留原声线的个性化特点,同时根据需要添加新的情感特质。
动态调整:
克隆的语音不仅能匹配原有声线,还能根据上下文动态调整语音的语调、语速和情感,使其更符合对话需求。
地域化口音:
可生成带有地域特点的语音,比如印度英语、澳大利亚英语等,提升本地化体验。
从一个非常简短的音频片段(约5秒),0CTAVE不仅模仿了说话者的声音,还在很大程度上克隆了他们的个性
3.实时交互支持:
即时响应
能在毫秒级别完成语音生成,实现真正的实时对话
支持实时对话生成,允许动态调整生成内容,
能够结合用户输入的内容即时改变语音和语气
实时调控:
·用户或开发者可以动态调整生成语音的属性(如切换角色、调整语调)实现灵活的交互体验。
4.多角色对话生成
·角色独立性:
支持多个虚拟角色的语音生成,角色之间的语音风格、情绪和口音可以完全不同.
在一个会话中同时生成多个角色的语音,模拟真实的多方对话。
场景自动化:
适合复杂对话场景,比如游戏剧情对话或多人语音教育内容
在实时对话中轻松切换不同角色的语音风格。
5.情绪和人格建模:
情绪细腻表达:
通过EV12(Hume Al的情感建模技术),0CTAVE能够生成丰富多样的情绪语音,包括愤怒、兴奋、悲伤、平静等。
能捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,表现复杂的情绪
在理解文本语义的基础上生成语音,与当前主流语言模型(如GPT系列)的语言理解能力相当
·人格化建模:
除了语音外,还能模仿特定性格的语言表达方式,比如乐观、严谨或幽默。
技术特点
与语言模型集成:0CTAVE不仅拥有与当前同规模语言模型(如GPT-3等)相当的语言理解能力,还通过语音合成技术进一步增强了人机交互的表现力。
语音特性多样性:能支持多种语言和口音,包括区域性和全球通用的语音模型。
灵活性与高效性:
生成的语音可以即时响应,适合用于实时对话场景,比如虚拟助理、教育应用、客
服机器人等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...