據世界衛生組織統計,2020 年全球新發乳腺癌病例 230 萬例,在所有癌癥中居首位,超越肺癌成為第一大癌。
然而,如果能夠早期發現并加以及時治療,在腫瘤轉移之前殺死癌細胞,乳腺癌的致死率就可以大大降低。目前乳腺癌初篩的常用手段是乳腺 X 光,隨后醫生通過分析復核 X 光片對乳腺健康情況進行判斷。但復核過程會消耗大量時間,影響其他患者的就診。
為此,英國諾丁漢大學的研究者對比了商用 AI 與醫生閱讀乳腺 X 光片的能力,為 AI 在臨床醫療的應用提供了新思路。
作者 | 雪菜
編輯 | 三羊、鐵塔
本文首發于 HyperAI 超神經微信公眾平臺~
據美國癌癥協會統計,2022 年美國女性新發癌癥病例數約 93 萬例,其中新增乳腺癌患者約 29 萬人,占比 31%。同時,癌癥死亡病例中乳腺癌患者占比 15%,僅次于肺癌。
圖 1:美國 2022 年新發癌癥病例數(上)及癌癥死亡數(下)
在中國,乳腺癌是 21 世紀女性患者中占比最高的癌癥,且每年新增患者數量在不斷增加。
圖 2:2000-2016 年我國女性新增癌癥病例數,灰色為乳腺癌病例數
乳腺癌是異常乳腺細胞生長失控并形成腫瘤引起的疾病。如果不及時干涉,腫瘤會轉移擴散,最終危及性命。但如果能在癌癥初期發現局部腫瘤,并開始治療,癌癥的五年存活率可達 99%。
目前,醫院一般通過乳腺 X 光進行乳腺癌初篩。然而,在初篩過程中可能會出現假陽性,使得沒有癌癥的患者進行不必要的檢測。還會出現遺漏,延誤患者最佳治療時間。
因此,許多歐洲國家會對乳腺 X 光片進行復查,盡可能排除掉假陽性的病例。這一方法行之有效,在降低假陽性的同時,還將癌癥的檢測率提高了 6%-15%。
但是,對 X 光片進行閱讀評估需要耗費相當的時間。在醫患比偏低的地區,X 光片的復查不僅占用了醫生的時間,而且會影響到其他患者的早期篩查。
AI 的應用部分緩解了醫生的工作壓力,然而將生命健康交給 AI 去評價似乎有些不太穩妥。對此,英國諾丁漢大學的 Yan Chen 教授表示,「將 AI 應用于臨床醫療面臨著很大的壓力,但我們需要將這件事做好,以保護女性的健康」。
為此,Yan Chen 團隊對比了商用 AI Lunit 與醫生閱讀乳腺 X 光片的準確率。**結果顯示,Lunit 分析乳腺 X 光片的能力與人類醫師相當。**這一成果已發表于「Radiology」。
論文鏈接:
https://pubs.rsna.org/doi/10.1148/radiol.223299#_i13
實驗過程
數據集:PERFORMS 數據集
本研究選用兩組 PERFORMS 數據集作為模型的測試集。每組 PERFORMS 數據集由 60 張具有挑戰性的 X 光片組成,包括惡性腫瘤 (約占 35%)、良性腫瘤和正常結果。過去 30 年間,PERFORMS 數據集用于英國國家衛生服務乳腺篩查計劃 (NHSBSP) 醫生的入門測試和常規考核。
評價標準:標注 + 評分
在對 X 光片進行分析時,醫生會在可疑的位置做出標注,最后做出 1-5 的評級,對應正常、良性、不確定、可疑及惡性。
AI 會對 X 光片的各個特征的可疑程度進行 1-100 的評分,最高分視為對整個 X 光片的評分。如果沒有可疑特征,則視為 0 分。
圖 3:醫生與 AI 對乳腺 X 光片的分析結果
A:藍色箭頭為直徑 8 mm 的不明腫塊,后鑒定為組織學 2 級導管癌;
B:紅色十字是 AI 發現的異常特征,藍點是醫生在分析時標注出的可疑區域。
對比結果:特異性 + 靈敏度
共有 552 名醫生參與了這場比賽,占 NHSBSP 總人數的 68%,其中有 315 名放射科醫生、206 名放射技師和 31 名臨床醫生。
在對兩組 PERFORMS 數據集進行分析后,他們認為 161 個乳腺 X 光片結果是正常的,70 個乳腺中有惡性腫瘤,還有 9 個為良性腫瘤。惡性腫瘤的常見特征包括腫塊 (64.3%)、鈣化 (12.9%)、不對稱 (11.4%) 和結構扭曲 (11.4%),平均病變大小為 15.5 ± 9.2 mm。
表 1:PERFORMS 數據集結果
人類組的平均 AUC 為 0.88。AI 組的 AUC 為 0.93,對應人類組 96.8 百分位數,但兩組的 AUC 沒有明顯差異。
圖 4:醫生組 AUC 直方圖與 AI 的 AUC(黃線)
人類組的平均靈敏度和特異性分別為 90% 和 76%。在開發者推薦的閾值下,AI 的敏感性和特異性分別為 84% 和 89%。
表 2:醫生組與不同閾值 AI 的判斷結果
TP:真陽性;
FP:假陽性;
TN:真陰性;
FN:假陰性;
靈敏度 = TP / 總陽性數;
特異性 = TN / 總陰性數。
在 AI 的 ROC 曲線中,52% 的醫生表現在曲線之上,36% 在曲線下方,12% 的表現與 ROC 曲線一致。
圖 5:AI 的 ROC 曲線,其中藍點是不同醫生的表現
當 AI 的閾值為 3.06 時,AI 的靈敏度與醫生一致,檢測出了 63 例惡性腫瘤,僅遺漏了 7 例。此時 AI 的特異性與醫生沒有顯著差異。
當閾值設置為 2.91 時,AI 與醫生組的特異性一致,靈敏度為 91%。上述結果顯示,Lunit 的 AI 分析乳腺 X 光片的靈敏度和特異性與人類醫生相當。
圖 6:不同閾值對 AI 判斷結果的影響
A:藍色箭頭為不對稱區域,后鑒定為組織學 2 級導管癌;
B:AI 閾值為 2.91 時的檢測結果,紅色十字最終鑒定為真陽性;
C:AI 閾值為 3.06 時的檢測結果,沒有發現明顯異常特征。
Yan Chen 教授表示,「這一研究的結果為 AI 篩查提供了有力證據,說明 AI 對乳腺 X 光片的分析水平與人類醫生相當」。
乳腺癌:隱匿的粉紅殺手
2021 年 2 月 4 日世界癌癥日上,世界衛生組織 (WHO) 屬下的國際癌癥研究所稱,上一年新增 230 萬例乳腺癌病例,占比 11.7%,首次超過了肺癌新增病例數,儼然成為「隱匿的粉紅殺手」。
同時,乳腺癌發病率最高的群體是高收入國家的婦女,中低收入國家的女性發病率明顯更低。而且,還有約 0.5-1% 的乳腺癌來自于男性。
不過,乳腺癌本身的致死率并不高。2016-2020 年診斷出乳腺癌并存活的女性達 800 萬人,高于其他癌癥。
目前 WHO 正在全世界推廣全球乳腺癌行動,希望通過早發現、及時診斷和全面的乳腺癌管理來降低全球因乳腺癌死亡的人數。
圖 7:AI 輔助的乳腺癌篩查
作為乳腺癌初篩的有力工具,AI 能夠及時發現乳腺癌早期的特征,有望將「粉紅殺手」扼殺于預備階段。但現在大規模在臨床中推廣 AI 可能為時過早,因為環境和算法本身的變化會不斷影響,導致 AI 的靈敏度和特異性隨時間而下降。
Yan Chen 教授也認為,「一旦 AI 進入臨床應用,我們就必須有一個機制對其進行持續的評價和監測」。現在,世界各國的研究團隊正在對 AI 的檢測結果進行評價,已經取得了令人滿意的結果。未來在高效的 AI 和完善的監管機制的幫助下,各類疾病將「無處可藏」,我們的健康將得到更穩定的保障。
參考鏈接:
[1]https://acsjournals.onlinelibrary.wiley.com/doi/10.3322/caac.21708
[2]https://www.sciencedirect.com/science/article/pii/S2667005422000047
本文首發于 HyperAI 超神經微信公眾平臺~
來源: HyperAI超神經