Deepgram推出了全新的AI语音代理API能够进行实时自然的语音对话
Deepgram推出了全新的AI语音代理API,这是一个统一的语音对话API,旨在让AI代理能够进行自然的对话。该API依赖于快速的语音识别和语音合成模型,支持实时的语...
OpenAl或于9月24日正式推出ChatGPT高级语音模式
ChatGPT的高级语音模式或将于本月24日被OpenAI公司正式推出,这一重大更新或将为人工智能语音交互领域带来革命性变化。
引入Google DeepMind的Veo模型——Veo创作视频
Veo模型将被YouTube Shorts引入Google DeepMind,它允许创作者制作6秒的独立视频片段,并将AI生成的背景与现有视频结合,扩展视觉创意。
Runway推出其视频生成模型的API方便开发者集成到应用中,但是有一些特殊要求
Runway宣布推出其视频生成模型的API。该API旨在帮助开发者和公司将Runway的生成式AI模型集成到第三方平台、应用程序和服务中。
OpenAI发出警告——OpenAl的最新AI模型(o1)被评为”中等”风险
OpenAl在其最新AI模型o1(具有“思考”和“增强推理”能力,擅长解决科学、编码和数学等领域的复杂任务)的“预览”版本发布后,透露其具有“中等”风险,特别是对于制...
Suno推出Covers翻唱功能 可以将任何音频、歌曲转化为另一种全新风格
Suno推出Covers功能,通过Cover功能,你可以将任何音频,从简单的录音到完整制作的歌曲,转化为一种全新的风格,同时保留原有的旋律。我们的最新功能已经在早...
Adobe版本的Sora:文本转视频生成AI工具
Adobe预览了三项新的 AI 视频生成功能,这些功能由其正在开发的 Firefly 视频模型(于 4 月演示)提供支持,将于今年年底投入使用。 “生成延长”功能可将视频...
Vchitect 2.0:人工智能实验室开发视频生成模型 支持生成5-20秒的高清短视频
Vchitect 2.0是由上海人工智能实验室开发的视频生成模型,它支持通过文本和图像生成5 到 20 秒的高清短视频,用户可以灵活调整视频的宽高比。该模型集成了超...
Vidu发布参考一致性功能 可以让任意主体保持一致 视频生成进入新阶段
Vidu升级其 AI视频模型,支持让任意主体保持一致,的、重点在于在生成图像时保持主体的一致性,尤其是针对角色和物体类输入的图像
Concept Sliders:拖到滑块控制特定图像特征 如年龄、性别、眼睛大小等
Concept Sliders是一种用于扩散模型(如 Stable Diffusion)的LORA 适配器,允许用户在图像生成过程中对特定概念进行精细控制。与依赖提示词生成图像的传统方法...