引入Google DeepMind的Veo模型——Veo创作视频

文章3周前更新 admin
59 0

Veo模型将被YouTube Shorts引入Google DeepMind,它允许创作者制作6秒的独立视频片段,并将AI生成的背景与现有视频结合,扩展视觉创意。
这些Al技术将集成到YouTube Shorts的 Dream Screen功能中引入Google DeepMind的Veo模型——Veo创作视频Veo是一种生成式视频模型,它利用对语言和视觉效果的深刻理解,创建出与用户的创意构想非常吻合的视频。它能准确捕捉较长提示语的语气和细节,是创作者将创意转化为精确视频内容的强大工具。
由于Veo能够理解”延时摄影“和”风景航拍“等电影技术,因此用户可以对生成的视频进行突破性的创意控制。这种创造性的控制使用户可以创建人物、动物和物体自然移动的视频。Veo生成的视频引人入胜,极具视觉吸引力,因为很难发现它们是由人工智能模型生成的。
Veo不仅仅能根据提示创建视频。如果您提供先前生成的视频和特定的编辑要求,例如在海岸线鸟瞰图中插入皮划艇,Veo可以将这一更改无缝集成到原始视频中,生成更新版本。
以下是Veo提供的其他功能:
遮罩编辑:Veo可帮助您编辑视频的指定区域。
受图像启发的视频制作:使用图像和文本提示,Veo可生成与图像风格一致的视频,并遵循提示的指不。
扩展视频片段:Veo可根据单个提示或一连串提示创建视频片段并将其扩展至 60 秒或更长,从而共同讲述一个故事。
Veo如何工作?
与许多其他人工智能模型一样,Veo 也是站在巨人的肩膀上。它借鉴了以往的先进技术,如生成查询网络GON)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere,以及Google专有的Transformer架构和 Gemini。此外,为了提高 Veo 准确解释提示的能力,其训练数据集中每个视频的字幕都更加详细。
根据Google 分享的粗略模型工作流程,
以下是Veo的工作原理
输入提示:您可提供文本提示,也可选择图像提示。
编码:文本提示由 UL2 编码器处理,图像提示由图像编码器处理。
嵌入式提示:将文本和图像编码器的输出合并为一个嵌入式提示。
潜在扩散模型:嵌入式提示和有噪声的压缩视频会传递给该模型,该模型会使用它们生成压缩视频。Veo使用高质量的压缩视频表示法(称为潜像)来提高效率,同时保持质量。
解码:最后一步是从压缩视频中解码输出 1080p 视频。

© 版权声明

暂无评论

暂无评论...