Black Forest Labs 的最新模型生成了高質(zhì)量圖像,可在 NVIDIA RTX GPU 上高性能運(yùn)行。
編者注:本文屬于《AI 解密》系列欄目,該系列的目的是讓技術(shù)更加簡單易懂,從而解密 AI,同時向 GeForce RTX PC 和 NVIDIA RTX 工作站用戶展示全新硬件、軟件、工具和加速特性。
圖像生成模型 — 生成式 AI 的常用子集 — 可以解析并理解書面語言,然后將文字轉(zhuǎn)換為幾乎任何風(fēng)格的圖像。
Black Forest Labs 的一系列新模型代表了圖像生成領(lǐng)域的前沿技術(shù) — 現(xiàn)在可在 PC 和工作站上試用 — 在 GeForce RTX 和 NVIDIA RTX GPU 上的運(yùn)行速度最快。
流暢的功能
FLUX.1 AI 是由 Black Forest Labs 開發(fā)的文本生成圖像模型套件。這些模型基于 Diffusion Transformer (DiT) 體系架構(gòu)而構(gòu)建,以便大參數(shù)量的模型保持高效運(yùn)行。Flux 模型在擁有 120 億個參數(shù)的模型上進(jìn)行訓(xùn)練,以生成高質(zhì)量圖像。
DiT 模型屬于高效的計算密集型模型 — NVIDIA RTX GPU 對于處理這些新模型至關(guān)重要,其中最大規(guī)模的模型如果不進(jìn)行重大調(diào)整,將無法在非 RTX GPU 上運(yùn)行。Flux 模型現(xiàn)在支持 NVIDIA TensorRT 軟件開發(fā)套件,該套件可將這些模型的性能提升高達(dá) 20%。用戶可以在 ComfyUI 中借助 TensorRT 試用 Flux 和其他模型。
提示:“一張雜志照片:在暴風(fēng)雪中,一只猴子在溫泉中沐浴,水面上飄著蒸汽!眮碓:NVIDIA
Flux 的優(yōu)勢
FLUX.1 在生成高質(zhì)量、多樣化的圖像方面表現(xiàn)卓越,其出色的指令遵循性意味著 AI 能夠準(zhǔn)確理解并執(zhí)行指令。提示依從性較高,意味著生成的圖像與文本提示描述的元素、風(fēng)格和情緒高度匹配。提示依從性較低會導(dǎo)致圖像可能部分或完全偏離給定的指令。
FLUX.1 以能夠精確渲染人體解剖結(jié)構(gòu)(包括手部和人臉等具有挑戰(zhàn)性的復(fù)雜特征)而著稱。FLUX.1 還顯著改進(jìn)了在圖像中生成易讀文本的過程,解決了文本轉(zhuǎn)圖像模型的另一個常見挑戰(zhàn)。這使得 FLUX.1 模型非常適合需要精確文本表示的應(yīng)用,例如宣傳材料和書籍封面。
FLUX.AI 具有三種變體,可為用戶提供最適合其工作流的選擇,而不會犧牲質(zhì)量:
● FLUX.1 pro:為企業(yè)用戶提供最高質(zhì)量的模型;可通過應(yīng)用編程接口訪問。
● FLUX.1 dev:FLUX.1 pro 的免費(fèi)精華版本,仍然具有較高質(zhì)量。
● FLUX.1 schnell:運(yùn)行速度最快的模型,非常適合本地開發(fā)和個人使用;具有寬松的 Apache 2.0 許可證。
dev 和 schnell 模型為開源版本,Black Forest Labs 在流行平臺 Hugging Face 上提供對其關(guān)鍵功能的訪問。這一做法得到社區(qū)廣泛認(rèn)可。
得到社區(qū)廣泛認(rèn)可
自發(fā)布以來的三周內(nèi),Flux 模型的 dev 和 schnell 變體已在 HuggingFace 上被下載 200 多萬次。
FLUX.1 的強(qiáng)大功能受到用戶廣泛贊譽(yù),稱其能夠生成具有非凡細(xì)節(jié)和逼真度、視覺效果令人驚艷的圖像,并且可以處理復(fù)雜的提示,而無需調(diào)整大量參數(shù)。
提示:“一張細(xì)節(jié)豐富的專業(yè)特寫照片:一只變形孟加拉虎身穿白色無袖背心,戴著太陽鏡,脖子上掛著耳機(jī),爪子放在舞臺上的唱盤上,在伊比沙島晚間的戶外電子舞曲音樂會上擔(dān)任 DJ;派對氣氛,少量煙霧與焦散光照!眮碓:NVIDIA
提示:“一張攝影品質(zhì)圖像:雨夜,繁華的城市街道上,一輛黃色出租車停在路邊,前燈亮著,照射在潮濕路面上。一位身著紅色外套的女性撐著一把亮綠色雨傘,看著她的智能手機(jī)。左側(cè)有一家咖啡店,霓虹燈標(biāo)志牌上面顯示著藍(lán)色字母‘Café Mocha’。咖啡店裝著大窗戶,從中可以看到人們在享受飲料。路燈照亮了該區(qū)域,在整個場景上投射出溫暖的光芒,而雨滴在空中產(chǎn)生了霧霾效果。背景中,一座高樓上的大型數(shù)字時鐘顯示時間為下午 8 點(diǎn) 45 分!眮碓:NVIDIA
此外,FLUX.1 還善于處理各種藝術(shù)風(fēng)格,并能夠快速高效地生成圖像,因此是完成個人和專業(yè)項目不可或缺的重要工具。
入門指南
用戶可以使用 ComfyUI 等流行社區(qū)網(wǎng)頁訪問 FLUX.1。社區(qū)運(yùn)行的 ComfyUI 維基百科提供了入門分步說明。
許多 YouTube 創(chuàng)作者還提供了有關(guān) Flux 模型的視頻教程,例如 MDMZ 制作的這個視頻教程:
https://images.nvidia.cn/cn/youtube-replicates/DdSe5knj4k8.mp4
使用井號標(biāo)簽 #fluxRTX 在社交媒體上分享您生成的圖像,即有機(jī)會成為 NVIDIA AI 頻道的精選作品。
生成式 AI 正在改變游戲、視頻會議和各類互動體驗。請訂閱《解碼 AI》時事通訊,及時了解新鮮資訊和未來動向。
###
全部評論