前Stability Al 核心成员成立新公司发布Flux.1开源图像生成模型

文章11个月前更新 admin

310 0 0

前Stability Al 核心成员 Robin Rombach 创立了一个新的公司:“黑森林实验室”，并且获得了3200万美元的融资。同时他们发布了一个名为Flux.1图像生成模型家族

Flux.1模型的技术细节
架构设计
Flux.1模型基于一种混合架构，结合了 multimodal and parallel diffusion transformer 架构，具有以下主要特点:
·多模态扩散变压器:支持处理文本和图像等多种模态的数据输入，提高了模型的生成能力和适应性。
·并行扩散变压器块:通过并行处理多个扩散变压器块，加速了模型的训练和推理过程。
参数规模
·参数数量:Flux.1模型包含12B(120亿)参数。这使得模型具有强大的学习和生成能力，能够生成高质量的图像。

关键技术创新
1.流匹配(Flow Matching):
描述:流匹配是一种通用且概念简单的生成模型训练方法，包括扩散作为特例。
优势:通过流匹配方法，模型在保持高质量生成的同时，提高了训练效率和生成速度
2.旋转位置嵌入(Rotary Positional Embeddings)
描述:引入旋转位置嵌入，可以更有效地捕捉数据中的位置信息
优势:提高了模型在处理不同尺寸和形状图像时的灵活性和准确性。
3.并行注意力层(Parallel Attention Layers)
描述:在模型中加入并行注意力层，允许模型同时关注输入数据的多个不同部分。
优势:显著提升了模型的计算效率和生成速度。

性能优化
硬件效率:通过结合以上技术创新，Flux,1模型在性能上进行了优化，确保了在保持高质量输出的同时，最大化硬件使用效率。
模型变体:
FLUX.1[pro]:针对商业应用，提供顶级性能和质量。
FLUX.1[dev:开源版本，适用于学术和非商业应用。
FLUX.1[schnel:优化速度，适用于个人开发和快速原型设计。
图像合成的新基准
，视觉质量和提示跟随:Flux.1模型在视觉质量、提示跟随、大小/纵横比变化、排版和输出多样性方面，超越了Midjourney v6.0、DALL·E3(HD)和SD3-Utra等流行模型。
输出多样性:模型经过专门微调，以保持预训练期间的全部输出多样性，提供更丰富和多样化的生成结果。

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站