隨著人工智慧領域的快速發展,學術成果的傳播方式發生了重大轉變。
期刊審稿週期很長,當你還在與審稿人爭鬥時,這種方法就過時了。 為了保護成果的創新,擴大影響力,很多知名大集團都會選擇在**預印本平台arxiv上率先上線,學術成果變化越來越快。
這也導致了每天在arxiv上發布的**根本沒有可讀性。
這時,社交媒體上出現了一群分享者,他們挑選了AI ML領域真正有趣和重要的東西,讓大家可以更容易地了解和獲取學術成果。
比如我們的《習逍遙科技說》經常和你分享有趣的**,呵呵
除了幫助大家篩選,社交媒體上的分享者也擴大了自己的影響力!
它有多大? 今天介紹的這個**給出的結論是:大V分享的**被引用的次數是其他人的2-3倍!
標題
tweets to citations: unveiling the impact of social media influencers on ai research visibility
鏈結
本文重點介紹了 X(前身為 Twitter)上兩個非常有影響力的使用者,AK(@akhaliq)和 Aran Komatsuzaki(@arankomatsuzaki),跟蹤他們分享後的引用次數,並建立了乙個對照組。 它還深入研究了分享者是否對作者的地理位置、性別和機構有偏好。
下圖是X上兩個大V的使用者頁面截圖,可以看到有很多粉絲。
akhaliq
arankomatsuzaki
他們的分享形式一般如下:**標題+一句話總結+**鏈結+**首頁截圖,如下圖所示。 簡單、清晰、專注。
共享形式。 每天分享幾篇文章,瀏覽量超過1000次,給分享的**帶來了很多**度。 因此,不難理解,引用次數超過未共享的**2-3倍。
當然,主觀分析是不靠譜的,我們還是要用資料來說話的,下面我們來看看詳細的圖表資料和作者的分析過程。
本文構建了8000多篇文章的綜合資料集,涵蓋了2018年12月至2023年10月期間兩位社會影響者在X、Hugging Face等平台上分享的所有相關文章。
為了進行對照研究,作者還構建了乙個對照組,該對照組由與發表年份、發表地點和摘要主題的共享**一對一匹配組成。 通過這種方法,確保了兩組的定性可比性,從而排除了大V只共享“高質量”**的普遍假設,自然會得到更多的引用)。
作者假設引用次數主要受出版時間、質量和主題的影響。 為了量化這些因素,我們使用會議和出版年份作為質量變數,並使用標題和摘要的文字嵌入來近似主題。
資料收集過程由三部分組成:
1.收集目標集
首先,找到@Akhaliq和@arankomatsuzaki推薦的列表,並使用Semantic Scholar API查詢每篇文獻的標題、摘要、出版年份、出版地點和引用次數。 刪除缺少必需屬性的任何 **。 下表顯示了兩個使用者共享的前五名最常見的作者及其 ** 編號。
2.對照組首先,收集了乙個大規模資料集,該資料集與目標集中的**在同一次會議和同一年發布。 具體來說,對於會議 v 中 y 年發布的 ** 的每個例項,通過查詢語義學者 api 獲取會議 v 和 y 年中發布的所有 **。 總共獲得了 247,993 篇唯一文章,並獲得了 124,940 篇具有所有必需屬性的文章。 此資料構成與目標集匹配的語料庫。
3.匹配演算法
目標集與對照組的**匹配,分類變數(演示會話和主題)精確匹配,連續變數(主題嵌入)使用歐幾里得距離匹配進行匹配。 余弦相似度的截斷值設定為 06,確保目標集和對照組之間的主題高度相似,保留了 AK 91% 的推文和 Komatsuzaki 96% 的推文。
匹配對在主題上非常相似,幾乎總是涵蓋相同的研究子領域(例如,應用於影象生成的擴散模型),解決相同的問題,並使用相似或相同的方法。 如下圖所示:
4.評判分數
此外,為了驗證該方法是否成功控制了質量,還檢查了目標組和對照組在六個主要機器學習會話中的審查分數
結果顯示,兩組評價得分分布相似,說明兩組質量基本相等,進一步證實了匹配方法的有效性。
作者使用直方圖(a,b)和小提琴圖(c,d)分別顯示了實驗組和對照組的引用分布。 如下圖所示:
結果顯示,AK分享的**引用次數中位數為24次,對照組為14次; komatsuzaki 分享的 ** 的引用次數中位數為 31 次,而對照組為 12 次。 這些結果表明:與對照組相比,大V分享的**被引次數顯著增加
作者還使用2樣本q-q圖來比較目標組和對照組在每個四分位數的分布。 為了構建圖表,對參考計數進行對數縮放,歸一化為對照組的分布(z 分數),並按順序配對排序。 虛線表示相等分布; 線上方的點表示實驗組的分位數較高,反之亦然。 如下圖所示:
該圖顯示,目標群體的分布總是較高,尤其是在中位數附近。 這表明,大V共享實際上對變化的結果變數有重大影響,例如**的引用次數。
此外,作者還使用了 EPPS-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 等統計檢驗來確定這種差異的統計顯著性,所有 p 值都遠低於嚴格 = 0001標準。 如下表所示:
這些測試顯示實驗組和對照組之間的分布存在顯著差異。
雖然頂級會議接受度(即評論分數)傳統上是未來引用的主要指標,但研究表明,Big V的分享行為對**的影響不容小覷。 ,這也是社群發現和閱讀方式的轉變**。
鑑於AK和Aran Komatsuzaki的美國背景,作者想知道他們的共同點是否在地理上存在偏見。
按國家分列的出版物數量變化**
作者按國家統計了人工智慧領域的人工智慧出版物數量,參考了史丹福大學 HAI 2023 人工智慧指數報告中人工智慧儲存庫出版物的地理分布。 如下圖所示:
可以看出,美國人工智慧領域的**出版物數量略有下降,這可能預示著人工智慧領域的成熟和全球研究的日益分散。 與此同時,歐盟和英國在經歷了2010年至2017年的持續下滑後,開始呈現溫和增長,而中國的份額繼續上公升。
網紅分享的地理統計資料**
作者使用 Semantic Scholar 和 DBLP 來收集每個目標集中列出的所有作者的隸屬關係資料。 然後,使用 Nominatim 地理編碼 API 查詢每個隸屬關係的大致緯度和經度。 使用公開可用的位址手動調整明顯不準確的坐標。 根據這些資訊,使用nominatim進行反向地理編碼,找到每個隸屬關係的國家/地區,然後使用多數投票為每個出版物分配乙個國家/地區。 結果如下圖所示:
《全球影響力文獻》作者的地理熱圖顯示了他們獨特機構的分布情況。
從上圖中,我們可以看到兩位網紅分享了來自世界各地的**。 美國和歐洲特別受歡迎。
網紅分享的趨勢變化**
最後,作者將各個國家彙總到HAI報告中使用的相同地理區域,並使用類似的格式進行對映。
2018-2021年網紅分享模式與**發布的全球趨勢明顯不同。
具體來說,AK分享的出版物顯示,“未知”類別急劇下降,而美國份額急劇上公升。 這似乎表明隸屬關係報告有所改善,而不是AK共享習慣的改變,因為來自其他地區的份額相對穩定。
小松崎的資料顯示,人們繼續關注美國的隸屬關係**,直到後來,其他地理區域才開始出現。
通常雖然人工智慧出版物的全球格局表明多樣性增加,研究成果分布更均勻,但我的資料呈現出有利於美國的偏斜一致性
此外,作者說統計資料不完整:僅使用**上顯示的隸屬關係可能會對美國產生固有的偏見。 例如,許多隸屬於跨國組織的研究人員被派往美國(總部所在地),但他們在另乙個地區的分支機構工作。 此外,重要的是要注意“未知”類別在兩位影響者的資料中突出,沒有發現隸屬關係。
性別多樣性在電腦科學和工程領域至關重要,這些領域歷來由男性主導。
首先,為了了解該領域的整體性別分布,作者參考了 2021-2022 年 Taulbee 調查中報告的美國電腦科學及相關領域的博士學位獲得者和教師的性別分布。
Aminer Scholar Gender Prediction API,根據姓名和隸屬關係(如果有)將作者分類為“男性”、“女性”或“未知”,然後通過僅過濾每篇文章的第一作者來使用。
結果表明,在@akhaliq資料集中,性別可識別的作者中男女比例為80:20,而在@arankomatsuzaki資料集中,男女比例為81:19。
這些比例與Taulbee調查報告的電腦科學博士學位獲得者中的77:23比例大致匹配,與教職員工中的76:24比例略有偏差。
這表明女性研究人員的數量正在增加,但與男性研究人員的數量仍有較大差距。
可以看出,社交上的大V**在AI ML研究中確實很重要。 他們分享他們的研究**,使其更加明顯**。 研究發現:大V分享的**被引用的次數是其他人的2-3倍! 。這說明,大V不只是分享好**,他們還可以幫助大家了解和關注重要的研究成果。 他們的晉公升能力真的很強!
但有幾件事值得考慮:
現在資訊太多了,每天在ARXIV上發布的**根本看不到,這些大V幫我們挑出AI ML領域真正有趣和重要的東西,讓大家更容易理解和接觸。 儘管如此,一直聽他們說話也會讓我們錯過其他一些好東西。 所以,我們需要乙個多元化的、競爭性的**學術環境,以便每個人都能看到更多的研究和想法。現在社交媒體上的大V在AI ML學術界的影響力越來越大。 這意味著我們可能需要:重新考慮如何選擇**以及如何判斷。希望會議和學術機構能夠跟上這一變化,並改進其系統和流程,以確保所有人都能看到和傳播高質量的研究。 社交上的大V**確實幫助了更多人,讓更多的人看到了ML領域的研究。 但對這篇文章的分析發現,他們分享的**大部分都是關於美國的。 雖然這反映了美國在人工智慧機器學習領域的領導地位,但我們也應該看到其他國家的研究。 此外,ML領域的男女比例也不平衡。 雖然影響者分享的內容中沒有明顯的性別偏見,但這種差異提醒我們努力增加該領域的性別多樣性。 如今,社交網路和學術研究在AI ML領域的聯絡越來越緊密。 從出版商的角度來看,為了擴大出版商的影響力,你也可以考慮在arxiv發布後在社交媒體上推廣你的作品。 畢竟,在這個資訊時代,“酒的香氣也怕深巷”!
也歡迎您在“習逍遙科技講座”上分享您有趣的工作。