引入Google DeepMind的Veo模型——Veo创作视频

文章1年前 (2024)更新 admin

451 0 0

Veo模型将被YouTube Shorts引入Google DeepMind，它允许创作者制作6秒的独立视频片段，并将AI生成的背景与现有视频结合，扩展视觉创意。
这些Al技术将集成到YouTube Shorts的 Dream Screen功能中Veo是一种生成式视频模型，它利用对语言和视觉效果的深刻理解，创建出与用户的创意构想非常吻合的视频。它能准确捕捉较长提示语的语气和细节，是创作者将创意转化为精确视频内容的强大工具。
由于Veo能够理解”延时摄影“和”风景航拍“等电影技术，因此用户可以对生成的视频进行突破性的创意控制。这种创造性的控制使用户可以创建人物、动物和物体自然移动的视频。Veo生成的视频引人入胜，极具视觉吸引力，因为很难发现它们是由人工智能模型生成的。
Veo不仅仅能根据提示创建视频。如果您提供先前生成的视频和特定的编辑要求，例如在海岸线鸟瞰图中插入皮划艇，Veo可以将这一更改无缝集成到原始视频中，生成更新版本。
以下是Veo提供的其他功能:
遮罩编辑:Veo可帮助您编辑视频的指定区域。
受图像启发的视频制作:使用图像和文本提示，Veo可生成与图像风格一致的视频，并遵循提示的指不。
扩展视频片段:Veo可根据单个提示或一连串提示创建视频片段并将其扩展至 60 秒或更长，从而共同讲述一个故事。
Veo如何工作?
与许多其他人工智能模型一样，Veo 也是站在巨人的肩膀上。它借鉴了以往的先进技术，如生成查询网络GON)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere,以及Google专有的Transformer架构和 Gemini。此外，为了提高 Veo 准确解释提示的能力，其训练数据集中每个视频的字幕都更加详细。
根据Google 分享的粗略模型工作流程，
以下是Veo的工作原理：
输入提示:您可提供文本提示，也可选择图像提示。
编码:文本提示由 UL2 编码器处理，图像提示由图像编码器处理。
嵌入式提示:将文本和图像编码器的输出合并为一个嵌入式提示。
潜在扩散模型:嵌入式提示和有噪声的压缩视频会传递给该模型，该模型会使用它们生成压缩视频。Veo使用高质量的压缩视频表示法(称为潜像)来提高效率，同时保持质量。
解码:最后一步是从压缩视频中解码输出 1080p 视频。

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站