Hume Al推出全能文本与语音引擎OCTAVE 根据文本实时生成特定人格特质的声音

文章10个月前更新 admin

431 0 0

Hume AI推出了一款名为OCTAVE(全能文本与语音引擎)，这是一款具有开创性的生0CTAVE结合了EVI2模型以及 OpenAl 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的NotebookLM 等系统的能力。可以从简单的文本描述或5秒语音录音中生成丰富的语音和人格特质，包括性别、年龄、口音、情绪语调及职业特定说话风格等。
它支持多角色交互、实时对话、以及从短录音中提取并克隆声线与个性核心能力
1.从文本到语音的丰富生成能力:
多维属性控制:
·0CTAVE能够根据简单的文本描述生成高度个性化的语音输出，包括情感语调、性别、年龄、口音等属性。
支持生成带有特定属性的语音，如性别(男性、女性)、年龄(儿童、青年、老年)、口音(美式英语、英式英语等)。
调整语调和节奏来表现不同的情绪和个性。
场景适应性:
·模拟特定职业的语言风格(如老师的耐心语气、医生的专业语调)
·对应上下文调整语音风格，增强自然对话感。使用“学术巫师导师”这样的提示，0CTAVE不仅生成高质量的声音，还创造了新的个性、口音、表情和伴随的语言–不到 300 毫秒
2.语音克隆:
快速学习:0CTAVE可以从仅5秒的语音录音中提取发音特征，克隆声线和说话风格。
可保留原声线的个性化特点，同时根据需要添加新的情感特质。
动态调整:
克隆的语音不仅能匹配原有声线，还能根据上下文动态调整语音的语调、语速和情感，使其更符合对话需求。
地域化口音:
可生成带有地域特点的语音，比如印度英语、澳大利亚英语等，提升本地化体验。
从一个非常简短的音频片段(约5秒)，0CTAVE不仅模仿了说话者的声音，还在很大程度上克隆了他们的个性
3.实时交互支持:
即时响应
能在毫秒级别完成语音生成，实现真正的实时对话
支持实时对话生成，允许动态调整生成内容，
能够结合用户输入的内容即时改变语音和语气
实时调控:
·用户或开发者可以动态调整生成语音的属性(如切换角色、调整语调)实现灵活的交互体验。
4.多角色对话生成
·角色独立性:
支持多个虚拟角色的语音生成，角色之间的语音风格、情绪和口音可以完全不同.
在一个会话中同时生成多个角色的语音，模拟真实的多方对话。
场景自动化:
适合复杂对话场景，比如游戏剧情对话或多人语音教育内容
在实时对话中轻松切换不同角色的语音风格。
5.情绪和人格建模:
情绪细腻表达:
通过EV12(Hume Al的情感建模技术)，0CTAVE能够生成丰富多样的情绪语音，包括愤怒、兴奋、悲伤、平静等。
能捕捉微妙的语音变化，并通过不同情绪语调来增强自然交互感，表现复杂的情绪
在理解文本语义的基础上生成语音，与当前主流语言模型(如GPT系列)的语言理解能力相当
·人格化建模:
除了语音外，还能模仿特定性格的语言表达方式，比如乐观、严谨或幽默。
技术特点
与语言模型集成:0CTAVE不仅拥有与当前同规模语言模型(如GPT-3等)相当的语言理解能力，还通过语音合成技术进一步增强了人机交互的表现力。
语音特性多样性:能支持多种语言和口音，包括区域性和全球通用的语音模型。
灵活性与高效性:
生成的语音可以即时响应，适合用于实时对话场景，比如虚拟助理、教育应用、客
服机器人等。

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站