2 個步驟生成 25 幀高質量動畫，計算為 8 個可線上播放的 SVD

Mondo 健康更新 2024-02-20

西風從凹飛寺量子位元 | qbitai

與傳統的穩定視訊擴散（SVD）模型相比，消耗的計算資源僅為2 25！

AnimaMateLCM-SVD-XT 發布，改變了擴散模型中耗時且計算量大的重複去噪問題。

讓我們從一波生成的動畫開始。

賽博朋克風格輕鬆駕馭，少年戴著耳機，站在霓虹燈閃爍的城市街道上：

寫實風格也可以，一對新婚夫婦依偎在一起，手捧精緻的花束，在古石牆下見證愛情：

科幻風格，還有一種外星人入侵地球的感覺：

AnimatelCM-SVD-XT 由來自 MMLAB、**Olution AI、上海人工智慧實驗室和香港中文大學商湯科技研究院的研究人員共同提出。

2 8 步可生成 25 幀解像度 576x1024 的高質量動畫，且無需分類器引導，分 4 步生成的**可實現高保真，比傳統 SVD 更快、更高效：

目前，animatelcm** 即將開源，並且有 **演示可供嘗試。

開始使用演示

從演示介面中可以看出，目前有三個版本的 animatelcm，animatelcm-svd-xt 是 ** 代的通用映象; AnimateLCM-T2V 傾向於將文字個性化到**生成; AnimateLCM-i2V 是為**的個性化影象生成的。

下面是乙個配置區域，您可以在其中選擇基本的 Dreambooth 型號，也可以選擇 LoRa 型號，並通過滑塊調整 LoRa alpha 值等。

接下來，您可以輸入提示和否定提示來指導生成的動畫的內容和質量

還有一些引數可以調整：

我們一手搞定，提示詞是“天上雲”，引數設定如上圖所示，當取樣步驟只有4步時，得到的效果是這樣的：

當取樣步驟為25步時，提示“乙個男孩抱著乙隻兔子”具有以下效果：

我們來看看官方發布的顯示效果。 2步、4步、8步效果對比如下：

步驟越多，動畫質量越好，AnimateLCM 只需 4 個步驟即可實現高保真度：

可以實現所有樣式：

如何？

重要的是要知道，雖然擴散模型因其生成相干和高保真模型的能力而受到關注，但挑戰之一是迭代去噪過程耗時且計算密集型，這限制了其應用。

在 AnimateLCM 的這項工作中，研究人員受到共識模型（CM）的啟發，該模型簡化了預訓練的影象擴散模型以減少取樣所需的步驟，並成功地擴充套件了條件影象生成的潛在一致性模型（LCM）。

具體來說，研究人員提出了一種解耦一致性學習策略。

首先，在高質量的圖文資料集上提煉出穩定擴散模型作為影象一致性模型，然後對資料進行一致性提煉，得到一致性模型。該策略通過在空間和時間層面分別進行訓練來提高訓練效率。

此外，為了實現即插即用介面卡在穩定擴散社群中的各種功能（例如，使用ControlNet進行可控生成），研究人員提出了一種無教師適應策略，使現有的控制介面卡與模型更加一致，實現更好的可控生成。

定量和定性實驗都驗證了該方法的有效性。

在 UCF-101 資料集上的零樣本文字到 ** 生成任務中，AnimateLCM 在 FVD 和 Clipsim 指標上都取得了最佳效能。

消融研究驗證了解耦一致性學習和特定初始化策略的有效性：