算力“喂养”下的AI生图, 开启“创生”新纪元

发布时间：2024-08-21 | 信息来源：蓝耘公众号

“有图”就有“真相”吗? 随着生成式AI技术掀起的虚实博弈愈演愈烈，“眼见未必为实”的时代正破风而来。
AI在新生：最强开源文生图模型易主
近日，一组AI生成的“TED演讲者”图片霸屏网络，并持续发酵，其足以“以假乱真”的逼真程度甚至成功“骗过”AI识别软件，引起网友一片哗然：“AI 正在失控”“他们竟然都不是真人？”……事实上，这个神奇的AI“黑魔法”出自Flux训练的LoRA模型之手。这款由Stable Diffusion原班人马打造的开源文生图模型，8月初一经推出便以黑马之姿, 点燃了新一轮 AI 生图热潮。
Flux生成的“TED演讲者”图片｜图片来源：reddit
作为迄今为止最大的开源文生图模型，Flux，拥有高达120 亿个参数，可提供三个版本：面向开发者的Flux Dev、追求极速体验的Flux Schnell（快速版），以及专为API用户设计的Flux Pro（闭源高级版），其中前两者已开放源代码。凭借强大的多模态处理能力和并行扩散Transformer块的混合架构，Flux在对光影质感的细腻捕捉、手部等细微之处的精妙刻画及创意提示词的深刻理解上，均展现出前所未有的惊艳效果，它不仅在图像质量的卓越性上树立了新标杆，更在细节呈现、复杂指令执行及生成效率方面定义了文本生成图像的新前沿，被视为“文本到图像生成领域的革命性飞跃”。
FLUX 生成图像示例｜图片来源：Black Forest Labs
AI生图的破茧之路
AI绘画的发展可以追溯到20世纪70年代，当时艺术家哈罗德·科恩发明的电脑程序“AARON”，被誉为“AI绘画的鼻祖”。随着技术的不断进步，AI绘画逐渐发展出了多种不同的技术路线，其中比较有代表性的包括生成式对抗网络（GAN）、扩散模型（Diffusion Model）和自回归模型（Autoregressive Model）等。
自2022年以来，文生图领域经历了前所未有的快速发展。Stable Diffusion模型的开源、Midjourney的面世及DALL-E系列的不断迭代，推动AI生图进入新的技术“象限”。2023年，文生图技术迎来发展拐点，AI 生图模型的性能和质量得到了显著提升，LoRA、GLIGEN、StyleGAN-T、ControlNet、T2I-Adapter等更多的新模型技术竞相涌现。其中LoRA模型通过其独特的GAN架构，为艺术家和设计师提供了全新的创意工具。
而Flux的横空出世，再度引领AI图片生成领域迈向崭新纪元，其凭借强大的多模态处理能力与基于Transformer架构的先进扩散模型技术，迅速跃居新晋AI应用顶流。
FLUX.1 与主流模型的ELO分数对比｜图源：Black Forest Labs
其首款FLUX.1模型基于Stable Diffusion的深厚积累，在延续Stable Diffusion 3类似架构的同时，创新性引入Double Stream Block结构，并融合VQGAN（矢量量化生成对抗网络）、潜在扩散模型和稳定扩散模型等先进技术，相较于Stable Diffusion 3、Midjourney v6.0、DALL·E 3和SD3-Ultra等主流模型，在视觉质量、图像生成效率与稳定性、输出多样性等多方面均实现跨越式赶超。有开发者预言：未来 Flux.1 将会是替代MidJourney 和 Stable Diffusion 的终极 AI 图像生成工具。
FLUX.1与主流模型的性能对比｜图源：Black Forest Labs
“黑魔法”背后的算力“密码”
Flux掀起的AI生图飓风在引爆新一轮生产力革新的科技热潮的同时催生算力需求进一步释放。作为典型的计算密集型应用，AI 生图模型能力跃迁的背后离不开高效稳定的TFLOPS（每秒万亿次）级别的计算能力支撑。AI 生图模型的训练过程涉及对海量数据的学习、复杂的神经网络模型处理及模型参数的不断优化。以Flux为例，训练一个能够生成逼真人物肖像的模型，通常需要处理数百万甚至数十亿的图像样本，大规模的矩阵运算、梯度计算和并行运算需求对计算能力和算力资源提出了更高的挑战。
此外，就推理侧而言，AI 生图模型对算力资源的需求主要体现在对图像细节特征的捕捉、分析和整合上。算法的不断进化及模型结构的日趋复杂在提升图像生成的效率、图片生动力、文本响应速度以及手部等复杂元素的处理能力的同时，对低延迟、高吞吐量的推理算力需求也水涨船高。而算力的快速响应为生图模型的高效推理、即时决策和实时数据处理筑起稳固保障。
AI“千亿参数时代”下，创新算法、模型迭代下的训练和推理计算量以超摩尔定律的速度急剧攀升，而擅长加速计算和复杂算法处理的GPU算力，以其强大的并行处理能力和高精度计算能力，在AI高效训练和推理过程中发挥着核心驱动作用。为机器学习、深度学习和大规模数据处理、分析等任务提供澎湃的加速动能，已成为助推AI模型“能力”进阶关键燃料。随着GPU技术的不断进步，其浮点运算能力和内存带宽的持续提升，将为生成式AI技术效能的提升提供更加坚实的计算底座支撑。
在科技与艺术的交汇点，一场前所未有的变革正悄然展开。蓝耘作为专业的GPU算力云服务提供商，围绕“链接产业上下游、释放算力价值”的企业使命，基于灵活的基础设施、丰富的GPU算力资源和技术运营经验优势，依托智算中心“绿色基座”，致力于满足B端企业用户在AI模型构建、训练和推理等业务全流程中对GPU算力灵活性及多样化需求的同时，从底层算力、智算平台到开发工具，为各类C端AI开发者、内容创作者着力打造集预训练大模型、优质数据集、官方镜像和社区镜像于一体的全栈式AI社区平台，以开放兼容的“模型即服务”的生态体系，助力用户突破算力瓶颈，全力释放创意潜能，携手行业加速焕发AI“模”力！