寫作任務的教學目標不僅是完成一篇文章,更重要的是,讓學生在創作過程中掌握特定的知識和技能。 然而,生成式人工智慧工具的廣泛使用是教師關注的問題。 教師擔心學生會將人工智慧工具產生的內容視為自己的原創作品。 在這種情況下,學生不僅無法達到真正的學習目標,甚至可能影響學術誠信。
為了解決這個問題,AI檢測工具應運而生。 AI檢測工具可以檢測生成式AI生成的文字,可以作為參考,供教師提供進一步的指導。 本報告測試了市場上 16 種最流行的 AI 檢測工具。 測試結果表明,大多數AI檢測工具都能夠識別GPT-35 生成的文字,但無法有效識別 GPT-4 生成的文字。 然而,Copyleaks、Turnitin 和原創性這三種人工智慧工具在檢測 GPT-4 方面顯示出很高的準確性。 測試的工作原理如下:
1.選擇AI檢測工具
本報告選擇了市場上 16 種最受歡迎的 AI 檢測工具,包括:
2.準備測試文字
共選取126篇試卷,分為三組進行測試。 第一組由2014-2015學年一年級學生撰寫的42篇文章組成,這些文章是在生成式AI工具普及之前完成的,確保這些文章不是由AI生成的。 第二組是 GPT-3 的 42 篇文章5 生成**。 第三組由 GPT-4 生成的 42 篇文章組成。 第二組和第三組的試卷於2023年4月的第一周生成,涵蓋社會科學、自然科學和人文科學等多個領域。
3.參加考試
測試於 2023 年 6 月 25 日至 2023 年 7 月 12 日進行。 所有測試文字均已從**、專案符號等中刪除,並以純文字格式提交給 16 個檢測器。 每篇文章的測試結果分為:人工智慧生成的、人工編寫的或不確定的。 其中,AI生成意味著大部分文字可能由AI生成,但並不一定意味著整個文字都是AI生成的。
4.比較結果
42 名學生的測試結果**)。
學生**組:Copyleaks、Turnitin、GPT Radar 和 ContentDetector 的準確率最高,誤報率最低。 originality.AI 和 Scribbr 等 9 種工具的準確率超過 85%。 seo.AI、SAPLING 和 ZeroGPT 的誤報率更高。
42 GPT-3的5.生成文章的檢測結果)。
gpt-3.第 5 組:大多數工具都能夠識別 GPT-35.生成的內容準確率在86%以上。 然而,CrossPlag、Content at Scale 和 ContentDetector 的準確率較低,沒有達到該組測試的平均值。
42 GPT-4生產品的 0 個測試結果)。
gpt-4.第 0 組:面對 GPT-40 生成文字,僅 copyleaks、turnitin 和原創性人工智慧的準確率很高。 其餘測試工具的結果不穩定,誤報率也很高。 可以說,這是這 3 種和其他 13 種檢測工具之間最重要的區別。
126 篇測試文字)。
根據 126 篇測試文字的結果,16 篇測試工具可以分為三個級別。 第一部分是 Copyleaks、Turnitin 和 OriginalityAI準確率在90%以上,非常出色。 第二檔是其他工具,如scribbr、zerogpt、grammica等,準確率在63%-88%之間。 第三檔是樹苗和含量,準確率低於63%。
5.結論
大多數測試可以檢測 GPT-35**和人類編寫的文字,但不能有效檢測GPT-4生成的內容。 然而,Copyleaks、Turnitin 和原創性人工智慧在檢測 GPT-4 生成的內容方面也表現出很高的準確性。
在允許使用AI工具的教學場景中,教師需要確認學生使用AI工具的一般情況,避免學生濫用AI工具。 考慮到AI檢測工具的誤報,不應將AI檢測工具的結果作為判斷學術不端行為的唯一標準。 為了保障學生的利益,教師需要根據學生的日常作業、學校政策等因素,對具體情況進行分析和綜合考慮。
引用:the effectiveness of software designed to detect ai-generated writing: a comparison of 16 ai text detectors
2月** 動態激勵計畫