南方網訊(記者 朱麒麟)日前,九州出版社出版了一本科普書《數字一點也不誠實:看穿複雜資訊中的資料奧秘》。
日常生活中大量的統計資料,如比例、患病率、風險值等,大量或顯性或隱性的數字可能會因誤讀或誤用而歪曲事實真相,而“統計意識”對於理解它們並做出合理判斷是必不可少的。 本書幫助讀者了解數字中常見的22個錯誤和伎倆,這些錯誤和伎倆出現在很多情況下,例如評估的速度和重要性、準確性和排名,在收集和表達各種數字的過程中可能出現哪些偏差,以及“睡前看螢幕會殺人”等誤導性信念, 以及應遵循哪些準則來負責值得信賴的統計工作。
關於作者。 湯姆·奇弗斯 (Tom Chivers) 是一位科學作家,自 2018 年以來一直在《每日電訊報》、《Buzzfeed》等**工作,然後成為自由職業者。 2024年,他獲得了英國皇家統計學會頒發的“新聞'統計'優異獎”。 2024年,他獲得了美國心理學會(APA)**獎,並入圍了英國科學作家獎和英國科學寫作新聞獎。
D**id Chivers是杜倫大學商學院經濟學副教授,曾任牛津大學講師。 在許多優秀的學術期刊上發表過文章。 研究領域包括不平等、增長和發展等。
精彩的書籍摘錄。 數字也可能具有誤導性。
雖然用統計資料撒謊很容易,但當你不撒謊時,撒謊就更容易了。 ——或來自統計學家弗雷德里克·莫斯特勒(Frederick Mosteller)
冠狀病毒病給世界上了一門昂貴的統計概念速成課。 人們突然發現自己必須了解什麼是指數曲線、感染致死率與病死率、假陽性與假陰性、不確定性區間。 其中一些概念顯然很複雜,但即使是那些感覺應該簡單的概念——例如死於病毒的人數——實際上也很難掌握。 在本章中,我們將看看乙個看似簡單的數字如何出乎意料地產生誤導。
一開始,我們所有人都必須弄清楚的乙個數字是“r值”。 2019 年 12 月,50 個人中可能沒有兩個人知道 r 值是多少,但到 2020 年 3 月底,主流新聞報道幾乎沒有解釋 r 值。 然而,由於這些數字可能會以微妙的方式出錯,因此讀者會被告知 r 值的變化,這最終會導致誤解。
這裡有乙個提示:r 是某物的“再生數”。 它可以應用於任何傳播或複製的東西:模因、人類、打哈欠、新技術等。 在傳染病流行病學中,r 值表示平均有多少人被某種疾病患者感染。 如果一種疾病的 R 值為 5,那麼平均每個感染患者會感染另外五個人。
當然,這並不那麼簡單,因為它是平均值。 如果有 100 人,則 R 值為 5 表示每個人可能感染了 5 人也可能是其中 99 人根本沒有感染任何人,但剩下的 1 人感染了 500 人;或介於兩者之間的任何東西。
它也不會保持不變。 在新疾病暴發的早期階段,當人群中沒有人對病原體免疫並且可能沒有任何應對措施(例如保持社交距離或戴口罩)時,當時的 R 值可能與隨後的 R 值大不相同。 在疾病暴發期間,公共衛生政策的目標之一是通過接種疫苗或行為改變來降低r值,因為如果r值大於1,疾病將呈指數級傳播,如果小於1,疾病將逐漸消失。
但也許你會認為,在談論病毒時,當考慮到所有這些複雜因素時,有乙個簡單的規則:r值越高,越差。 因此,當英國**在 2020 年 5 月警告說,由於“療養院感染激增”,“病毒的 r 值可能已經回公升”時,您可能不會感到驚訝。
但正如您可能已經預料到的那樣,事情有點複雜。
從 2000 年到 2013 年,美國的實際工資中位數(“實際”,即經通脹調整後)下降了約 1%**。 工資中位數**聽起來像是一件好事。 然而,如果你把人口看成更小的子組,你會發現一些驚喜。 對於那些沒有完成高中學業的人來說,工資中位數下降了79%;高中畢業生的工資中位數下降了47%;上過大學但沒有獲得學位的人的工資中位數下降了76%;對於那些獲得大學學位的人來說,工資中位數下降了12%。
無論教育亞組如何,完成高中學業的人和未完成高中學業的人的工資中位數都在下降。整個人口的工資中位數也有所上公升。
這是怎麼回事?
事實證明,雖然擁有大學學位的人的工資中位數有所下降,但這個亞組的人數卻顯著增加。 結果,中位數採取了乙個奇怪的方向。 這種現象被稱為“辛普森悖論”,以英國密碼破譯者和統計學家愛德華·愛德華·辛普森辛普森),他在 1951 年描述了這種現象。這種現象不僅發生在中位數中,還發生在算術平均值中,但在我們的例子中,我們現在看中位數。
假設總數是 11。 其中三人高中輟學,年收入5英鎊;3 人完成高中學業,年收入 10 英鎊;3 名大學輟學生,年收入 15 英鎊;2 人獲得了學士學位,年收入為 20 英鎊。 整個人口的工資中位數(即序列中間人的工資)為 10 英鎊。
然後,有一年,人們大力推動更多人完成高中和大學學業。 但與此同時,每個亞組的平均工資下降了1英鎊。 突然間,高中輟學者變成了年收入4英鎊的2個人;高中畢業2人,收入9英鎊;2 名大學輟學生,收入 14 英鎊;本科畢業生5人,收入19英鎊。 每個亞組的中位數都有所下降,但整個人口的中位數從10英鎊上公升到14英鎊。 從2024年到2024年,美國經濟也出現了類似的情況,只是數量更多。
這種現象出人意料地普遍。 例如,美國黑人比白人更容易吸菸;但是,當您控制教育水平的變數時,您會發現在教育水平的每個亞組中,黑人吸菸的可能性低於白人。 這是因為受過高等教育的亞組通常吸菸較少,而黑人在該亞組中的代表性不足。
還有乙個著名的例子。 1973 年 9 月,8,000 名男性和 4,000 名女性申請加州大學伯克利分校的研究生院。 其中,44%的男性申請者被錄取,而只有35%的女性申請者被錄取。
但如果你仔細觀察資料,你會發現,在這所大學的幾乎每個系,女性申請者被錄取的概率更高。 申請最受歡迎的院系的女性中有82%被錄取,而男性申請者中只有62%。 第二受歡迎的部門錄取了 68% 的女性申請者和 65% 的男性申請者。
現實情況是,女性申請的院系往往更具競爭力。 例如,乙個部門收到了933份申請,其中108份是女性。 該部門錄取了 82% 的女性申請者和 62% 的男性申請者。 與此同時,排名第六的部門收到了714份申請,其中341份是女性。 該部門只錄取 7% 的女性申請者和 6% 的男性申請者。
但是,如果將這兩個部門的資料結合起來,總共有449名女性申請者和1,199名男性申請者。 錄取女生111人,錄取率為25%;男性入院人數為 533 人,錄取率為 44%。
這一次,分別看這兩個部門,女性被錄取的概率更大;但當這兩個部門合併時,女性被錄取的概率就更小了。
我們應該如何看待這個結果?這要視情況而定。 在美國工資的例子中,你可能會說總體中位數的資訊量更大,因為美國的個人工資中位數已經上公升(因為更多的美國人完成了大學和高中);你也可以說,無論她們申請哪個部門,女性通常比男性更有可能被錄取。 但你也可以指出,對於那些沒有高中文學歷的人來說,情況更糟;您還可以指出,女性想要申請的院系顯然資源不足,因為它們只能錄取很少的申請者。 問題是,當辛普森一家悖論出現時,你可以用同樣的資料來講述截然相反的故事,這取決於你想表達哪個政治觀點。 誠實的方法是表明這裡存在辛普森悖論。
讓我們回到冠狀病毒的r值。 如果r值公升高,則意味著病毒正在傳播給更多的人,這不是一件好事。 然而,毫無疑問,現實要複雜得多。 有兩種幾乎不相關的“流行病”同時傳播:疾病在療養院和醫院的傳播與在更廣泛的社群中傳播不同。
由於沒有公布確切的數字,我們不知道更詳細的資訊。 但是我們可以做另乙個類似於先例的思想實驗。 假設療養院和一般社群各有 100 人患有這種疾病。 平均而言,社群中的每個病例都會將疾病傳播給 2 人,而療養院的每個病例都會將疾病傳播給 3 人。 r 值(每個疾病攜帶者將被感染的平均人數)為 25。
然後我們進入了封鎖狀態。 隨著感染人數的下降,R值也會下降。 但是,至關重要的是,社群的R值下降幅度大於養老院。 現在養老院裡有90名感染者,每人平均會將疾病傳播給2人9人,而社群有10名感染者,每個感染者平均感染1人。
現在,r 值為 271(((90×2.9)+(10×1))/100 = 2.71)。r 值上公升了!但事實上,兩個亞組的r值都下降了。
您如何看待這種現象?同樣,我們發現答案不一定是顯而易見的。 也許你更關心整體的r值,因為這兩種流行病並不是完全相關的。 但答案肯定不是“如果r值上公升,那就不好了”那麼簡單。
當你試圖通過觀察一群人的人均情況來理解乙個人或亞群體時,就會出現“生態謬誤”,這是乙個更廣泛的問題,辛普森悖論就是群體謬誤的乙個例子。 集群謬誤可能比您想象的更普遍。 對於讀者和記者來說,重要的是要明白,標題中的數字可能會掩蓋更複雜的真相要了解這些數字的意義,您可能需要更仔細地分析它們。