China Daily Homepage
中文網(wǎng)首頁
時評
資訊
C財經(jīng)
生活
視頻
專欄
原創(chuàng)
觀天下
地方

登錄

注冊

觀天下

移動新媒體

觀天下

China Daily Homepage
中文網(wǎng)首頁
時評
資訊
C財經(jīng)
生活
視頻
專欄
漫畫
原創(chuàng)
觀天下
地方

生成式AI“幻覺”困境如何破解

來源：科技日報

2025-01-29 08:22　

分享到

分享到微信

原標題：生成式AI“幻覺”困境如何破解

人工智能（AI）技術正以前所未有的速度發(fā)展，生成式AI憑借其驚人的創(chuàng)造力，不斷刷新人們的認知。然而，即便是看似“聰明絕頂”的AI，也難逃“幻覺”的困擾。這里的“幻覺”，指的是AI生成看似合理但實際不準確或虛假的信息。

英國《自然》雜志網(wǎng)站在1月22日的報道中指出，AI“幻覺”可能會引發(fā)嚴重后果，科學家正各出奇招，力求降低其發(fā)生率。這些措施包括增加事實核查、對AI進行“腦部掃描”等，以促進AI的健康、高效發(fā)展。

主因是數(shù)據(jù)模糊

各種生成式AI，包括由大語言模型驅(qū)動的聊天機器人，常常會編造信息。它們有時會模糊事實與虛構，在看似真實的陳述中夾雜錯誤信息。這既是其創(chuàng)造力的體現(xiàn)，也是其不足之處。

美國佐治亞理工學院理論計算機科學家桑托什·威姆帕拉解釋稱，大語言模型的設計原理并非輸出準確事實，而是通過模式識別生成答案。其內(nèi)部復雜的運行機制迄今仍像一個“黑匣子”，人們難以洞悉其推理過程。

美國加州Vectara公司旨在減少生成式AI的“幻覺”。其聯(lián)合創(chuàng)始人阿姆爾·阿瓦達拉表示，在訓練過程中，這些模型會壓縮數(shù)萬億個單詞間的關系，隨后通過一個龐大的網(wǎng)絡模型重新展開這些信息。盡管這些模型能夠重構出接近98%的訓練內(nèi)容，但剩下2%的內(nèi)容卻會讓其“誤入歧途”，生成不準確或虛假信息。

導致AI出現(xiàn)“幻覺”的原因多種多樣，其中訓練數(shù)據(jù)中的模糊性和錯誤是常見因素。也有人認為，即使訓練數(shù)據(jù)準確無誤，AI也有可能產(chǎn)生“幻覺”。這種現(xiàn)象與某一事實的稀缺程度密切相關。因此，即使經(jīng)過人類反饋調(diào)整過的聊天機器人，也無法完全避免出錯。

多領域面臨考驗

AI的“幻覺”可能會給人們的工作和生活帶來較大影響。

在新聞領域，大語言模型可能生成虛假新聞事件，擾亂信息傳播秩序，誤導公眾認知。Vectara公司針對文檔內(nèi)容開展的研究表明，一些聊天機器人編造事實、虛構信息的幾率高達30%。世界經(jīng)濟論壇發(fā)布的《2025年全球風險報告》顯示，錯誤和虛假信息是2025年全球面臨的五大風險之一。

在法律領域，它可能引用虛構的法律條文和案例。比如，2023年美國律師史蒂文·施瓦茨就因“輕信”ChatGPT，在法庭文件中引用了并不存在的法律案例。而在醫(yī)學領域，它可能提供錯誤的診斷和治療建議，危及患者生命。

《自然》在報道中指出，AI“幻覺”在科學參考文獻方面出現(xiàn)錯誤的情況也極為普遍。2024年的一項研究發(fā)現(xiàn)，各類聊天機器人在提及參考文獻時的出錯率在30%至90%之間。它們至少會在論文標題、第一作者或發(fā)表年份上出現(xiàn)偏差。雖然聊天機器人都帶有警告標簽，提醒用戶對重要信息進行二次核實。但如果用戶對聊天機器人的回復深信不疑，可能會引發(fā)一系列問題。

多舉措減少“幻覺”

為進一步提升AI的精確度，科學家正想方設法降低其“幻覺”。

例如，增加模型訓練參數(shù)和訓練時長可有效減少“幻覺”。但這種方法需要付出高昂的計算成本，并可能削弱聊天機器人的其他能力，如機器學習算法對未知數(shù)據(jù)的預測和處理能力。

此外，使用更大、更干凈的數(shù)據(jù)集進行訓練，也是降低AI模型“幻覺”出現(xiàn)的有效途徑。然而，當前可用數(shù)據(jù)的有限性限制了這一方法的應用。

檢索增強生成（RAG）技術也為減少AI“幻覺”提供了新思路。該方法通過讓聊天機器人在回復問題前參考給定的可信文本，從而確?；貜蛢?nèi)容的真實性，以此減少“幻覺”的產(chǎn)生。在醫(yī)療和法律等需要嚴格遵循經(jīng)過驗證的知識的領域，RAG技術備受青睞。

不過，美國斯坦福大學計算機科學家米拉柯·蘇茲根表示，盡管RAG能提升內(nèi)容真實性，但其能力有限。蘇茲根團隊的研究表明，一些為法律研究開發(fā)的、號稱“無幻覺”的RAG增強模型雖有所改進，但仍存在不足。

開發(fā)者也可以使用一個與AI訓練方式不同的獨立系統(tǒng)，通過網(wǎng)絡搜索對聊天機器人的回復進行事實核查，谷歌的“雙子星”系統(tǒng)便是一個典型例子。該系統(tǒng)提供了“雙重核查響應”功能：內(nèi)容如果突出顯示為綠色，表示其已通過網(wǎng)絡搜索驗證；內(nèi)容如果突出顯示為棕色，則表示其為有爭議或不確定的內(nèi)容。但是，這種方法計算成本高昂且耗時，而且系統(tǒng)仍會產(chǎn)生“幻覺”，因為互聯(lián)網(wǎng)上錯誤信息泛濫。

在去年6月出版的《自然》雜志上，英國牛津大學科學家刊發(fā)論文稱，他們利用“語義熵”，通過概率來判斷大語言模型是否出現(xiàn)了“幻覺”。語義熵是信息熵的一種，被用于量化物理系統(tǒng)中所包含的信息量。通過評估AI模型在特定提示詞下生成內(nèi)容的不確定性，來計算模型的困惑程度，從而為用戶或模型提供警示，提醒其采取必要的循證措施，確保更準確的答案輸出。

美國卡內(nèi)基梅隆AI研究人員安迪·鄒采用的方法是在大語言模型回答問題時，繪制其內(nèi)部計算節(jié)點的激活模式。他形象地稱之為“給AI做腦部掃描”。利用不同的計算節(jié)點活動模式，可以告訴我們AI模型是在“說真話”，還是在“胡說八道”。

【責任編輯：張瑨瑄】

科技日報

最熱新聞

為你推薦

換一批

關于我們 | 聯(lián)系我們

首頁
時評
資訊
財經(jīng)
生活
視頻
專欄
漫畫
獨家
招聘

違法和不良信息舉報
互聯(lián)網(wǎng)新聞信息服務許可證10120170006
信息網(wǎng)絡傳播視聽節(jié)目許可證0108263號
京公網(wǎng)安備11010502032503號
京網(wǎng)文[2011]0283-097號
京ICP備13028878號-6

中國日報網(wǎng)版權說明：凡注明來源為“中國日報網(wǎng)：XXX（署名）”，除與中國日報網(wǎng)簽署內(nèi)容授權協(xié)議的網(wǎng)站外，其他任何網(wǎng)站或單位未經(jīng)允許禁止轉(zhuǎn)載、使用，違者必究。如需使用，請與010-84883777聯(lián)系；凡本網(wǎng)注明“來源：XXX（非中國日報網(wǎng)）”的作品，均轉(zhuǎn)載自其它媒體，目的在于傳播更多信息，其他媒體如需轉(zhuǎn)載，請與稿件來源方聯(lián)系，如產(chǎn)生任何問題與本網(wǎng)無關。

版權保護：本網(wǎng)登載的內(nèi)容（包括文字、圖片、多媒體資訊等）版權屬中國日報網(wǎng)（中報國際文化傳媒（北京）有限公司）獨家所有使用。未經(jīng)中國日報網(wǎng)事先協(xié)議授權，禁止轉(zhuǎn)載使用。給中國日報網(wǎng)提意見：rx@chinadaily.com.cn

首頁
時評
資訊
財經(jīng)
文化
漫畫
視頻
地方

中文 | English