前Stability Al 核心成员 Robin Rombach 创立了一个新的公司:“黑森林实验室”,并且获得了3200万美元的融资。同时他们发布了一个名为Flux.1图像生成模型家族
Flux.1模型的技术细节
架构设计
Flux.1模型基于一种混合架构,结合了 multimodal and parallel diffusion transformer 架构,具有以下主要特点:
·多模态扩散变压器:支持处理文本和图像等多种模态的数据输入,提高了模型的生成能力和适应性。
·并行扩散变压器块:通过并行处理多个扩散变压器块,加速了模型的训练和推理过程。
参数规模
·参数数量:Flux.1模型包含12B(120亿)参数。这使得模型具有强大的学习和生成能力,能够生成高质量的图像。
关键技术创新
1.流匹配(Flow Matching):
描述:流匹配是一种通用且概念简单的生成模型训练方法,包括扩散作为特例。
优势:通过流匹配方法,模型在保持高质量生成的同时,提高了训练效率和生成速度
2.旋转位置嵌入(Rotary Positional Embeddings)
描述:引入旋转位置嵌入,可以更有效地捕捉数据中的位置信息
优势:提高了模型在处理不同尺寸和形状图像时的灵活性和准确性。
3.并行注意力层(Parallel Attention Layers)
描述:在模型中加入并行注意力层,允许模型同时关注输入数据的多个不同部分。
优势:显著提升了模型的计算效率和生成速度。
性能优化
硬件效率:通过结合以上技术创新,Flux,1模型在性能上进行了优化,确保了在保持高质量输出的同时,最大化硬件使用效率。
模型变体:
FLUX.1[pro]:针对商业应用,提供顶级性能和质量。
FLUX.1[dev:开源版本,适用于学术和非商业应用。
FLUX.1[schnel:优化速度,适用于个人开发和快速原型设计。
图像合成的新基准
,视觉质量和提示跟随:Flux.1模型在视觉质量、提示跟随、大小/纵横比变化、排版和输出多样性方面,超越了Midjourney v6.0、DALL·E3(HD)和SD3-Utra等流行模型。
输出多样性:模型经过专门微调,以保持预训练期间的全部输出多样性,提供更丰富和多样化的生成结果。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...