自發布以來,ChatGPT已經成為大家的好幫手,學生黨和農民工每天都形影不離。
然而,這一次,ChatGPT這個好幫手幫了太多忙,莫名其妙地變成了“**一位研究人員利用ChatGPT建立虛假資料集來支援未知的科學假設”。
讓我們看看這到底是怎麼回事。
在 11 月 9 日發表在《美國醫學會眼科雜誌》上的一篇文章中,作者將 GPT-4 與高階資料分析 (ADA) 配對,並與 Python 相結合進行統計分析和建立資料視覺化。 研究表明,人工智慧生成的資料比較了兩種手術方法的結果,並錯誤地表明一種比另一種更好。
該研究的合著者說,你可以在幾分鐘內建立乙個資料集,該資料集沒有真實的原始資料支援,並且與現有證據相悖。 ”
人工智慧產生令人信服的資料的能力增加了研究人員和期刊編輯對研究誠信的擔憂。 加利福尼亞州三藩市的微生物學家和獨立研究誠信顧問伊莉莎白·比克(Elisabeth Bik)說:
“生成式人工智慧以前可以用來生成剽竊軟體無法檢測到的文字,但能夠建立虛假和逼真的資料集是乙個更高層次的問題。作者將結果描述為“.看似真實的資料庫”。但在專家的檢查下,資料沒有通過真實性檢查,存在明顯的造假痕跡。這將使任何研究人員或研究團隊都很容易對不存在的患者進行虛假測量,對問卷進行虛假回答,或生成大量動物實驗。 ”
作者要求 GPT-4 ADA 建立乙個關於圓錐角膜患者的資料集,圓錐角膜是一種導致角膜變薄的疾病,這可能導致焦點模糊和視力不佳。 對於 15-20% 的患者,角膜移植使用兩種手術之一進行。
第一種方法是穿透性角膜移植術 (PK),它涉及通過手術切除所有受損的角膜層,並用供體的健康組織代替它們。 第二種手術是深部前角膜移植術 (DALK),它僅替換角膜的前層,而最內層保持不變。
作者說大型語言模型會製造支援生成 DALK 的資料,以產生比 PK 更好的結果結論。 為此,他們要求該模型證明評估角膜形狀和檢測不規則性的影像學測試的統計差異,以及試驗參與者在手術前後視力改善程度的差異。
人工智慧生成的資料包括 160 名男性和 140 名女性參與者,並顯示接受 DALK 程式的人在視力和影像學測試中表現更好,這一發現與真實臨床試驗的結果相矛盾。 在 2010 年一項涉及 77 名參與者的試驗報告中,DALK 的結果與術後長達 2 年的 PK 結果相似。
英國曼徹斯特大學的生物統計學家傑克·威爾金森(Jack Wilkinson)說:“建立乙個表面上看起來合理的資料集看起來相當容易。 對於乙個未經訓練的人來說,這當然看起來像是乙個真實的資料集。
威爾金森對檢測偽造資料的方法很感興趣,他檢查了由早期版本的大型語言模型生成的幾個資料集,他說這些資料集在仔細檢查時缺乏令人信服的元素,因為它們難以捕捉變數之間的真實關係。
在《自然》團隊的要求下,威爾金森和他的同事們使用旨在檢查真實性的篩選方案評估了偽造的資料集。
檢查結果顯示,許多“參與者”的指定性別與通常根據其姓名預期的性別不匹配。 此外,術前和術後視覺能力測量與眼部影像學檢查之間沒有發現相關性。 威爾金森還檢查了資料集中某些列中的數字分布,以檢視是否存在非隨機模式。 眼部成像值通過了測試,但一些參與者的年齡值以一種在真實資料集中非常不尋常的方式聚類:大量參與者的年齡值以 7 或 8 結尾。
該研究的作者承認,他們的資料集存在缺陷,可以通過仔細審查發現。 但如果您非常快速地檢視資料集,可能很難辨別資料的非人類特徵
Embo Reports的主編也認為這是乙個令人擔憂的問題
“實際上,同行評審員通常不會對資料進行全面的重新分析,人工智慧不太可能發現精心設計的完全違規行為。 期刊需要更新質量檢查,以識別人工智慧生成的合成資料。 ”最後,正如人工智慧可以成為產生問題的一方一樣,也可能有基於人工智慧的解決方案。 我們需要用人工智慧打敗艾爾。