來自 Qubit 的 Mengchen | qbitai
里程碑式的 Word2vec 獲得了 Neurips Time Check 獎,這是當之無愧的。
但托馬斯·公尺科洛夫(Tomas Mikolov)在Facebook上的長篇獲獎感言充滿了失望和不滿。
*ICLR最初的拒絕是一件微不足道的事情,他還提到了OpenAI的首席科學家Ilya Sutskever(當時兩人都在谷歌)。
我們當然生活在激動人心的時代,但不要太相信那些“想要在數十或數百名科學家的辛勤工作基礎上壟斷技術,同時聲稱這一切都是為了人類利益”的人。
公尺科洛夫指的是另一項具有里程碑意義的研究,Seq2Seq,該研究發表於2024年,並將贏得2024年Neurips時間檢查獎。
Tomas Mikolov 聲稱 Seq2Seq 的想法最初來自他,在 Google Brain 工作期間,他與 Quocle 和 Ilya 進行了多次討論。
但當他轉工作到Facebook時,他驚訝地發現自己沒有成為最終出版作品的合著者。
這是資金湧入人工智慧領域的時候,每個想法都值一大筆錢。 我很難過看到深度學習習社群迅速變成了某種權力的遊戲。 金錢和權力確實腐蝕了人們的......
從 word2vec 到 seq2seq
最初,word2vec** 提交給了第一屆 ICLR 會議(當時只是乙個研討會),儘管接受率很高,但還是被 70% 的人接受。
這讓公尺科洛夫感嘆,審稿人想要**文章的未來影響是多麼困難。
許多研究人員也有同感,現在廣泛用於大型模型和AI繪畫的LoRa作者Microsoft Weizhu Chen透露,第一次提交也被拒絕了,因為審稿人認為它太簡單了。
大多數真正有效的東西往往是簡單而優雅的。
這些年來,公尺科洛夫聽到了很多關於word2vec的評論,有正面的也有負面的,但並沒有真正在網路上做出回應。
不知何故,研究界不斷被那些試圖獲得引用和關注的人的公關宣傳所淹沒,而我不想成為其中的一部分。
藉此獎項和10周年的機會,公尺科洛夫分享了這部經典作品背後的一些故事**。
首先,很多人抱怨word2vec**很難理解,甚至有人認為公尺科洛夫故意讓大家看不懂。
現在他澄清說,“不,我還不是那個”只是想在等待批准發布的幾個月裡讓它變得更短、更快,最終它被過度優化了。
回想起來,如果不是 Google Brain 團隊的 Greg Corrado 和 Jeff Dean,我懷疑它是否會獲得批准——我認為 Word2vec 可能是 Google 開源的第乙個廣為人知的 AI 專案。
儘管word2vec是公尺科洛夫被引用最多的專案,但他從未認為這是他最有影響力的專案。
事實上,word2vec 最初是他的 rnnlm 專案的乙個子集,很快就被遺忘了。
在我看來,它至少和 Alexnet 一樣具有破壞性。
RNNLM始於2024年,深習仍處於黑暗時代,公尺科洛夫列舉了其中首次展示的想法:
迴圈神經網路的可擴充套件訓練,他首次提出了梯度裁剪神經語言模型來生成文字,並且從2024年開始就展示了這樣乙個在字元和子詞級別動態評估神經語言模型適應的例子,現在被稱為微調第乙個公開可用的語言模型評估基準, 這是修改後的 Penn Treebank 資料集。
2024年,從捷克布林諾理工大學畢業後,公尺科洛夫加入了Google Brain。
他說,他很幸運,有大量神經網路的信徒,他們允許他研究word2vec並展示它的潛力,但他不想給人們留下一切都很完美的印象。
在 word2vec 之後,Mikolov 希望通過改進谷歌翻譯來普及神經語言模型。 開始與 Franz Och 的團隊合作,在此期間提出了幾種模型,這些模型可以補充甚至取代當時的機器翻譯。
核心思想是在他加入Google Brain之前開發的,即訓練不同語言的句子對,然後使用生成模型來翻譯他看到的第一句話。
當時,它在短句上效果很好,而在長句上效果不佳。 他已經與谷歌大腦中的其他人多次討論過這個專案,主要是 Quocle 和 Ilya Sutskever,他們在自己跳槽到 Facebook 後接手了這個專案。
當他們最終在現在著名的“seq2seq”下發表我的想法時,我感到非常驚訝,他們不僅沒有提到我是合著者,而且我的老朋友也忘記在**致謝部分提到我,他們感謝了 Google Brain 中除了我之外的每個人。
當大家看到公尺科洛夫的長篇演講時,也是百感交集。
康奈爾大學(Cornell University)助理教授弗拉基公尺爾·庫列紹夫(Volodymyr Kuleshov)用Word2vec被拒絕的故事來鼓勵人們不要因為同行評審過程而氣餒,“好的想法最終會得到應有的認可。
也有人認為,公尺科洛夫指出的貢獻分配、引用和影響力問題不僅僅是NLP問題,而是存在於整個AI領域。
參考鏈結:[1]。