神經網路基礎 5 5 迴圈神經網路 長短期記憶架構和原理

Mondo 科技 更新 2024-02-01

LSTM的架構和工作

LSTM 架構有乙個由四個組成的神經網路,稱為細胞不同儲存塊的鏈式結構。

資訊由單元保留,記憶體操作由門完成。 有三個門——遺忘門、輸入門和輸出門。

遺忘之門

在單位狀態中不再有用的資訊將通過遺忘門刪除。 兩個輸入 XT(特定時間的輸入)和 HT-1(前乙個單元輸出)被饋送到柵極,並與權重矩陣相乘,然後是偏移量。 結果是通過乙個提供二進位輸出的啟用函式。 如果對於特定單元格狀態,輸出為 0,則忘記該訊息,而對於輸出 1,則保留該訊息以供將來使用。 被遺忘之門的方程式是:

f_t=σ(w_f·[h,x_t]+b_f)

w f 表示與遺忘門關聯的權重矩陣。

H T-1, X T] 表示當前輸入和先前隱藏狀態的級聯。

BF 是帶有被遺忘門的偏差。

是 sigmoid 啟用函式。

進門

通過輸入門來向單元狀態新增有用的資訊。 首先,使用 sigmoid 函式對資訊進行調節,類似於使用帶有輸入 HT-1 和 XT 的遺忘門來過濾要記住的值。 然後,使用 tanh 函式建立乙個向量,該向量給出從 -1 到 +1 的輸出,其中包含所有可能的值 ht-1 和 xt。 最後,將向量的值乘以審核值以獲得有用的資訊。 輸入門的公式為:

i_t=σ(w_i·[h,x_t]+b_i)

ĉ_t=tanh(w_c·[h,x_t]+b_c)

我們將之前的狀態乘以 ft,忽略我們之前選擇忽略的資訊。 接下來,我們將其包含在 *ct 中。 這表示更新的候選值,根據我們選擇更新每個狀態值的數量進行調整。

c_t=f_t⊙c_+i_t⊙

表示元素乘法。

Tanh 是 Tanh 啟用函式。

輸出門

從當前電池狀態中提取有用資訊作為輸出的任務由輸出門完成。 首先,通過在單元上應用 tanh 函式來生成向量。 然後,使用 sigmoid 函式調整資訊,並使用輸入 ht-1 和 xt 按要記住的值進行過濾。 最後,將向量和調製的值相乘,並作為輸出傳送到下乙個單元格和輸入。 輸出門的公式為:

o_t=σ(w_o·[h,x_t]+b_o)

相關問題答案

    神經網路基礎 5 3 遞迴神經網路 自然語言處理 (NLP) 簡介。

    什麼是自然語言處理 NLP NLP 代表 自然語言處理。它是人工智慧的乙個分支,具有機器理解和處理人類語言的能力。人類語言可以是文字或音訊格式。NLP的歷史 自然語言處理始於 年,當時 Alan Mathison Turing 發表了一篇名為 計算機器與智慧型 的文章。基於人工智慧。它談到了自然語言...

    神經網路基礎 5 4 遞迴神經網路 什麼是長短期記憶 (LTSM)。

    長短期記憶 LTSM 是由 Hochreiter Schmidhuber 設計的遞迴神經網路的改進版本。LSTM 非常適合順序任務,並且擅長捕獲長期相關性。它的應用擴充套件到涉及時間序列和序列的任務。LSTM 的優勢在於它能夠掌握順序依賴關係,這對於解決機器翻譯和語音識別等複雜問題至關重要。本文深入...

    Transformer 神經網路中的革命性架構

    一 引言。在人工智慧領域,神經網路已成為處理複雜任務的主流方法。其中,Transformer架構以其獨特的特點在自然語言處理 NLP 計算機視覺 CV 等多個領域取得了顯著的成功。本文將詳細介紹變壓器的基本原理 發展歷史 應用場景以及優缺點,以幫助讀者更好地理解和應用這一重要模型。二 變壓器的基本原...

    LSTM神經網路是記憶長期短期資訊的關鍵

    LSTM的全稱是Long Short Term Memory,顧名思義,它具有記憶長短期資訊的能力。該網路是在RNN網路的基礎上新增的RNN 迴圈神經網路 的進一步擴充套件和改進 門 控制不同時刻資訊流入和流出的 門 的概念。LSTM的基本原理。LSTM神經網路的最初設計是為了解決傳統RNNN網路在...

    RNN與其他神經網路有何不同?

    RNN 迴圈神經網路 是一種使用迴圈連線來處理順序資料的神經網路。具體來說,它適用於涉及序列的任務,例如自然語言處理 語音識別和時間序列分析。RNN 具有內部儲存器,允許它們保留先前輸入的資訊,並使用它來根據整個序列的上下文做出 或決策。RNN 與其他神經網路之間的主要區別在於它們處理順序資料的能力...