穩定擴散分析:探索AI繪畫背後的技術奧秘

Mondo 科技 更新 2024-02-27

在談論 Stable Diffusion 之前,有必要了解一下 AI 繪畫的演變。

早在 2012 年,由中國科學家 Andrew Ng 領導的團隊就訓練了當時世界上最大的深度學習網路。 該網路能夠學會自主識別貓等物體,並在短短三天內繪製出一張模糊但可識別的貓圖。 雖然這個是模糊的,但它展示了深度學習在影象識別方面的潛力。

2014年,加拿大蒙特婁大學的谷歌科學家伊恩·古德費羅(Ian Goodfellow)提出了一種生成對抗網路GAN的演算法,成為AI生成繪畫的主流方向。 GaN的工作原理是訓練生成器和判別器兩個深度神經網路模型,使生成器能夠生成與真實資料相似的新資料樣本,判別器可以準確區分生成器生成的假樣本和真實資料。 GaN的核心思想是生成器試圖欺騙鑑別器,鑑別器試圖區分真假,兩者相互爭鬥,相互配合,實現高質量的資料生成。

2016年,第乙個GAN到影象模型GAN-int-CLS發布,證明了GANs從文字生成影象的可行性,為各種基於GAN的條件影象生成模型的出現開啟了大門。 然而,氮化鎵在訓練過程中容易出現不穩定或崩潰,因此難以大規模應用。

同年10月,NVIDIA提出了Progressivegan,通過逐漸增加神經網路的規模來生成高解像度影象,使模型訓練更容易,生成質量也提高了,為後來Stylegan的崛起鋪平了道路。

2017年,谷歌發表了著名的**“Attention is All You Need”,提出了Transformer結構,隨後在自然語言處理領域大放異彩; 雖然 Transformer 旨在解決自然語言處理問題,但它在影象生成領域也顯示出巨大的潛力。 2020年,他們提出了VIT的概念,試圖在計算機視覺中用Transformer結構取代傳統的卷積神經網路CNN結構。

2020年的情況變得更糟。 加州大學伯克利分校提出了著名的去噪擴散概率模型DDPM,該模型簡化了原始模型的損失函式,將訓練目標轉換為當前步驟新增的雜訊資訊,大大降低了訓練難度,並將網路模組從全卷積網路替換為UNET,提高了模型的表現能力。

2021 年 1 月,OpenAI 發布了基於 VQVAE 模型的 Dall-E 和 Clip 模型,即對比語言-影象預訓練,分別用於文字到影象的生成和文字到影象的對比學習。 這似乎第一次讓人工智慧真正“理解”了人類的描述並創造了它們,引發了人們對人工智慧繪畫的空前熱情。 2021 年 10 月,谷歌發布了 Disco Diffusion 模型,以其驚人的影象生成開啟了擴散模型的時代。

2022 年 2 月,Disco Diffusion 上線,這是乙個基於擴散模型的 AI 繪圖生成器,由一些開源社群的工程師開發。 從此,AI繪畫進入了快速發展的軌道,潘多拉魔盒被開啟了。 Disco Diffusion 比傳統的 AI 模型更容易使用,隨著研究人員建立完善的幫助文件和社群,越來越多的人開始關注它。 同年3月,由Disco Diffusion核心開發者共同開發的AI生成器Midjourney正式發布。 Midjourney選擇在Discord平台上上電,借助聊天式的人機互動,操作更簡單,無需複雜的引數調整,只需在聊天視窗中輸入文字即可生成影象。

更重要的是,Midjourney 生成的結果非常驚人,以至於普通人幾乎無法判斷生成的藝術品是否是由 AI 繪製的。 Midjourney上映五個月後,美國科羅拉多州博覽會的一場藝術比賽選出了藝術比賽的結果,一幅名為《太空歌劇》的畫作獲得了第一名,但它不是人類藝術家的作品,而是由乙個名為Midjourney的人工智慧創作的。

當參賽者宣布這幅作品是由人工智慧繪製時,引發了許多人類畫家的憤怒和焦慮。

2022 年 4 月 10 日,前面提到的 OpenAI 的 DALL·e 2 發布。 無論是 Disco Diffusion 還是 Midjourney,它們都是 AI 生成的,但 Dall·E 2 與人類作品沒有區別。

July 29, 2022, 通過 穩定性由一家 AI 公司開發的 Stable Diffusion 的 AI 生成器已開始內部測試。 結果發現,用它生成的 AI 繪畫的質量與 Dall·e 2 相當,並且限制較少。 Stable Diffusion 的內測分為四波,邀請了 15,000 名使用者,短短十天後,通過它產生了 1700 萬**。 至關重要的是,Stable Diffusion 背後的公司 Stability AI 堅持開源理念,“AI 由人民創造,為人民服務”,這意味著任何人都可以在本地部署自己的 AI 繪畫生成器,真正實現每個人都可以“只要你能說話就創造一幅畫”。 開源社群 HuggingFace 迅速適應,讓個人更容易部署; 開源工具stable-diffusion-webui整合了多種影象生成工具,甚至可以在網路端對模型進行微調和訓練個人模型,得到了好評和反響3擁有 40,000 顆恆星,擴散生成模型已經完全脫離了大規模服務,進入了個人部署。

2022 年 11 月,穩定擴散 20 發布,新版本生成的解像度是原來的 4 倍,生成速度更快。

基於潛在擴散模型,穩定擴散將最耗時的擴散過程置於低維潛變數空間中,大大降低了算力要求和個人部署的門檻。 它使用潛空間編碼縮減因子 8,換句話說,影象的長度和寬度減少了原始大小的八分之一,例如,512512的影象直接在潛空間中變為 6464,從而節省了 64 倍的記憶體! 除此之外,Stable Diffusion 還降低了效能要求。 您不僅可以快速(在幾秒鐘內)生成詳細、512512的影象,而且只需要乙個 NVIDIA 級 8GB 2060 顯示卡。 如果沒有這種空間壓縮轉換,它將需要具有 512GB 視訊記憶體的超級顯示卡。 根據顯示卡硬體的演進,消費者至少需要8-10年的時間才能享受到這類應用。 演算法的這次重要迭代,提前將AI繪畫帶入了每個人的生活。

在本文中,我們將了解穩定擴散的演變以及它是如何演變的。 如果你也是AI繪畫的粉絲,請隨時與我交談**。 未來,我會繼續更新這個系列,分享Stable Diffusion的教程和其他AI繪畫軟體的教學內容。 如果您喜歡這些內容,請***感謝您的閱讀,期待下一期再次見到您!

極致科技,全稱極德資料(北京)科技***是一家專注於實時搜尋和資料分析的軟體公司。 其品牌 Infini Labs 致力於創造終極易於使用的資料探索和分析體驗。

極致科技是一支採用自然分布式方式進行遠端協作的年輕團隊,員工遍布全球,希望成為中國乃至全球企業大資料實時搜尋分析產品的首選,為中國科技品牌的輸出貢獻力量。

官方網站:

相關問題答案

    穩定擴散的基礎知識

    Stable Diffusion 是乙個基於擴散模型的影象生成器,具有以下引數 取樣步數 取樣步數,決定了演算法生成影象所採取的步數。增加取樣步驟數可使目標影象更小 更準確,但也會增加生成影象所需的時間。ETA 噪點級別,用於控制生成影象的模糊程度。ETA 值越高,影象越模糊,而 ETA 值越低,影...

    穩定擴散塗裝教學需要學習哪些課程?

    穩定擴散繪圖教學與人工智慧必修課 作為一款先進的AI繪畫工具,Stable Diffusion的應用和發展需要深度的人工智慧技術作為支撐。因此,如果你想深入學習Stable Diffusion或其他AI繪畫技術,通常需要具備一些人工智慧的基本知識。以下是一些建議的人工智慧相關課程 機器學習基礎知識這...

    穩定擴散繪畫課程,如何用穩定擴散開始繪畫?

    穩定的擴散繪畫課程,包括開始繪畫的步驟 Stable Diffusion 是一款先進的 AI 繪畫工具,它使用深度學習技術為使用者提供多種繪畫功能和創作可能性。通過穩定擴散繪畫課程,您將學習如何充分利用此工具來創作令人驚嘆的藝術作品。要開始使用 Stable Diffusion 進行繪畫,您可以按照...

    STABLE DIFFUSION AI DRAWING 的 AI 工程師的月薪是多少?

    穩定擴散AI繪圖和人工智慧工程師的月薪 作為一款先進的AI繪畫工具,Stable Diffusion的應用和發展離不開人工智慧工程師的努力。人工智慧工程師的月薪因地區 公司規模 經驗水平等因素而異。一般來說,在科技產業發達的地區,比如矽谷或中國的一線城市,人工智慧工程師的月薪往往更高,可以達到幾萬元...

    如何開始使用穩定擴散繪圖?

    Stable Diffusion 是一款功能強大的 AI 繪畫工具,開始使用它的繪畫步驟如下 啟動軟體 首先,您需要啟動 Stable Diffusion。選擇型號 在軟體介面中,您可以選擇基本型號。輸入關鍵字 您可以根據自己的創作意圖輸入相關關鍵字。選擇演算法並調整引數 選擇合適的演算法,並根據需...