還在為人工智能(AI)時不時“一本正經地胡說八道”惱火?
或許,你的AI被“投毒”了。8月5日,國家安全部發布安全提示,AI訓練數據存在良莠不齊的問題,虛假信息、虛構內容和偏見性觀點導致的數據“污染”,給AI安全帶來挑戰。
“訓練數據之于AI,就像教科書之于學生?!敝袊茖W院計算技術研究所工程師劉延嘉將AI比喻成勤奮好學的學生,“AI正是通過學習文本、圖像、行為等數據構建認知模型,形成對世界的理解與判斷能力。若教科書內容存在錯誤或偏見,學生的知識體系必然扭曲?!?/p>
研究顯示,當訓練數據中僅有0.01%的虛假文本時,AI模型輸出的有害內容會增加11.2%;即使是0.001%的虛假文本,有害輸出也會上升7.2%?!坝柧殧祿募毼㈣Υ?,也可能導致AI輸出錯誤、偏見甚至危險的結果?!眲⒀蛹握f。
AI的訓練數據為何會被“污染”?
“數據被污染的情況較復雜,既有人為故意‘數據投毒’的可能,也可能因數據收集、整理過程缺乏嚴格規范和審核所致?!蓖苋斯ぶ悄苎芯吭簣绦性洪L董紀偉說,受到數據污染的AI生成的虛假內容,可能成為后續AI訓練的數據源,形成具有延續性的“污染遺留效應”。
董紀偉認為,“數據放大效應”或是更大的隱性風險,“AI可能通過算法強化,將數據中的一些偏見演變為系統性偏見,并在輸出時將其奉為‘真理’。”
如今,網上AI生成內容數量已超過人類生產的真實內容,大量低質量及非客觀數據充斥其中?!爱擜I訓練數據中的錯誤信息逐代累積,必然會扭曲AI本身的認知能力。”董紀偉提醒。
“毒”數據對AI輸出的影響,遠不止“一本正經地胡說八道”這么簡單,往往還具有“隱性但致命”特征。試想,當“涉毒”AI廣泛應用于日常,人們可能因AI的錯誤診斷延誤治療;投資者可能被AI推薦的虛假高收益項目欺騙;汽車可能因AI的錯誤導航而迷失方向……
這樣的AI,誰敢放心用?
目前,《生成式人工智能服務管理暫行辦法》和新版《數據安全法》已經將AI訓練數據納入監管。但專家認為,要從技術層面解決AI訓練數據污染問題,還有待AI開發者在數據篩選驗證機制、數據實時監測和數據溯源等方面付出更多努力。正如中國工程院院士鄔賀銓所言:“AI的安全邊界,最終取決于數據的質量底線?!?/p>
面對并不完美的AI,我們又該如何應對?
董紀偉建議,日常使用AI時應持謹慎態度,如果AI給出的回答涉及重要決策,務必向專業人士核實?!爱斎唬部捎枚鄠€AI工具對同一問題進行詢問,通過對比答案來判斷AI的可靠性。若發現AI頻繁給出不合理或錯誤回答,可直接更換AI工具?!?/p>
(科普時報記者 陳杰)
來源: 科普時報