LSTM的架構和工作
LSTM 架構有乙個由四個組成的神經網路,稱為細胞不同儲存塊的鏈式結構。
資訊由單元保留,記憶體操作由門完成。 有三個門——遺忘門、輸入門和輸出門。
遺忘之門
在單位狀態中不再有用的資訊將通過遺忘門刪除。 兩個輸入 XT(特定時間的輸入)和 HT-1(前乙個單元輸出)被饋送到柵極,並與權重矩陣相乘,然後是偏移量。 結果是通過乙個提供二進位輸出的啟用函式。 如果對於特定單元格狀態,輸出為 0,則忘記該訊息,而對於輸出 1,則保留該訊息以供將來使用。 被遺忘之門的方程式是:
f_t=σ(w_f·[h,x_t]+b_f)
w f 表示與遺忘門關聯的權重矩陣。
H T-1, X T] 表示當前輸入和先前隱藏狀態的級聯。
BF 是帶有被遺忘門的偏差。
是 sigmoid 啟用函式。
進門
通過輸入門來向單元狀態新增有用的資訊。 首先,使用 sigmoid 函式對資訊進行調節,類似於使用帶有輸入 HT-1 和 XT 的遺忘門來過濾要記住的值。 然後,使用 tanh 函式建立乙個向量,該向量給出從 -1 到 +1 的輸出,其中包含所有可能的值 ht-1 和 xt。 最後,將向量的值乘以審核值以獲得有用的資訊。 輸入門的公式為:
i_t=σ(w_i·[h,x_t]+b_i)
ĉ_t=tanh(w_c·[h,x_t]+b_c)
我們將之前的狀態乘以 ft,忽略我們之前選擇忽略的資訊。 接下來,我們將其包含在 *ct 中。 這表示更新的候選值,根據我們選擇更新每個狀態值的數量進行調整。
c_t=f_t⊙c_+i_t⊙
表示元素乘法。
Tanh 是 Tanh 啟用函式。
輸出門
從當前電池狀態中提取有用資訊作為輸出的任務由輸出門完成。 首先,通過在單元上應用 tanh 函式來生成向量。 然後,使用 sigmoid 函式調整資訊,並使用輸入 ht-1 和 xt 按要記住的值進行過濾。 最後,將向量和調製的值相乘,並作為輸出傳送到下乙個單元格和輸入。 輸出門的公式為:
o_t=σ(w_o·[h,x_t]+b_o)