ChatGPT為什么會“胡說八道”？

電子設(shè)計聯(lián)盟 · 發(fā)表于 2024-9-13 11:25:00

AI幻覺，簡單來說，是指人工智能系統(tǒng)（自然語言處理模型）生成的內(nèi)容與真實數(shù)據(jù)不符，或偏離用戶指令的現(xiàn)象，就像人類說“夢話”一樣~

那么AI幻覺有哪些？是什么原因產(chǎn)生的？我們該如何避免AI幻覺呢？

1
AI會產(chǎn)生什么樣的幻覺？

可能有的小伙伴說：“我知道了！AI‘胡說八道’就是AI幻覺唄？”其實也沒這么簡單，AI幻覺主要有兩類。
事實幻覺：“假新聞制造機”
A：事實不一致：AI生成的內(nèi)容與現(xiàn)實世界事實相矛盾

當被問及“世界上最高的山峰是哪座？”，如果AI回答“深圳塘朗山是世界上最高的山峰�！边@就是一個事實不一致的例子，因為塘朗山坐落于廣東省深圳市，海拔430米遠低于珠穆朗瑪峰8848.86米，這個回答與現(xiàn)實世界的事實相矛盾。
B：事實捏造：AI生成完全虛構(gòu)的內(nèi)容" P( ^" [- b) u& [ t

如果AI描述說“2024年，考古學(xué)家在埃及金字塔內(nèi)發(fā)現(xiàn)了一座隱藏的密室，里面藏有古代法老的寶藏和未知的高科技裝置。”這就是完全虛構(gòu)的信息，截至目前沒有考古發(fā)現(xiàn)或科學(xué)證據(jù)表明埃及金字塔內(nèi)存在未被發(fā)現(xiàn)的密室，更不用說藏有古代法老的寶藏或未知的高科技裝置了。
忠誠度幻覺：“指令迷失”
A：指令不一致：AI的回答偏離用戶的要求
2 o6 L3 l) @; @8 w" v& ~* o! c. F a

如果用戶要求AI“講解一下龍飛鳳舞”，但AI回答了“老鐵，我給你搜了幾段舞蹈教學(xué)” ，這就完全偏離了原始的問題。
B：上下文不一致：AI生成的內(nèi)容與提供的背景信息不符

假設(shè)在一個討論中國傳統(tǒng)節(jié)日的上下文中，用戶問：“春節(jié)是什么時候？”AI回答：“春節(jié)是中國農(nóng)歷新年，通常在每年的1月或2月慶祝�！边@個回答是正確的，符合春節(jié)的基本情況。
然而，如果AI接著說：“春節(jié)是紀念屈原的節(jié)日，人們會吃粽子和賽龍舟�！边@就是上下文不一致的例子，因為AI的回答與春節(jié)的背景信息不符。
C. 邏輯不一致：AI的輸出存在內(nèi)在邏輯矛盾
開頭的9.11大于9.9就是一個典型的數(shù)值計算邏輯混亂的例子……，AI把自己繞蒙了~

2
AI幻覺有哪些特點

內(nèi)容流暢性：盡管內(nèi)容可能有誤，AI生成的文本通常仍然連貫流暢。

表面合理性 ：生成的內(nèi)容表面上看起來可信，給人以“這看起來很對”的第一印象，非專業(yè)人士難以辨別。

上下文相關(guān) ：AI的幻覺內(nèi)容并非憑空出現(xiàn)，它們通常與特定的上下文情境緊密相關(guān)。

不可預(yù)測性 ：很難預(yù)測AI何時會產(chǎn)生幻覺，可能幻覺也很難復(fù)現(xiàn)，就像人很難在今天做一個與昨天相同的夢。
3
AI幻覺的“幕后黑手”

AI幻覺主要來自以下方面：數(shù)據(jù)里的“坑”

訓(xùn)練數(shù)據(jù)局限：AI訓(xùn)練數(shù)據(jù)可能包含錯誤、偏見或過時信息。就像教小朋友學(xué)習(xí)，課本是錯的，考試自然無法答對。

缺乏實時更新：AI通常基于靜態(tài)數(shù)據(jù)訓(xùn)練，無法及時獲取最新信息�？荚囈鶕�(jù)最新的資料復(fù)習(xí)，拿一本82年的教材是考不了24年的高考的~

訓(xùn)練過程的“小插曲”

過度泛化 ：模型可能過于依賴某些模式，導(dǎo)致在新情況下推導(dǎo)錯誤。就像我們學(xué)習(xí)時候只記住了公式，卻不會靈活變通。

上下文理解不足：AI可能無法完全把握復(fù)雜的上下文關(guān)系。在處理多個復(fù)雜信息點，或者在推理時容易出錯。就像我們的大腦有時也會短路一樣。

模型本身的“小缺陷”

模型結(jié)構(gòu)限制：AI通過統(tǒng)計模式預(yù)測，但可能無法真正理解信息。“你以為他真的懂你，其實也不過是基于復(fù)雜算法的數(shù)學(xué)而已~”
4& h. G0 s! V: w, n

如何避免AI幻覺？

避免AI幻覺有以下幾個“絕招”，各位少俠看“自身功力”，酌情修煉~一. 提示工程有策略提示工程通過優(yōu)化AI的輸入提示，使生成的內(nèi)容更準確。
A. 檢索增強生成（RAG）技術(shù)

RAG技術(shù)通過引入外部知識來幫助AI生成更準確的內(nèi)容。主要方法包括：
生成前檢索：在內(nèi)容生成前，系統(tǒng)會預(yù)檢索相關(guān)背景信息，為生成過程打下堅實的基礎(chǔ)。
生成過程中檢索：在生成過程中，系統(tǒng)實時檢索并整合外部知識，確保內(nèi)容的時效性和深度。
生成后檢索 ：生成后，系統(tǒng)再次檢索，與現(xiàn)有證據(jù)進行對比，驗證生成內(nèi)容的準確性。

例如，當AI被問到“2024年登月的宇航員有哪些？“時，RAG系統(tǒng)會先檢索最新的新聞信息，然后基于檢索到的準確信息生成回答。

B. 基于反饋和推理的自我改進機制
這種方法賦予AI自我反思的能力，使其能夠不斷優(yōu)化生成的內(nèi)容。

AI在生成答案后，會進行自我審視，提出疑問：“這個答案是否全面？是否有關(guān)鍵信息被忽略？”
C. 提示詞的精細化調(diào)優(yōu)
通過精心設(shè)計的提示詞，引導(dǎo)AI生成更可靠、更精確的內(nèi)容。

例如，在地圖導(dǎo)航的AI應(yīng)用中，使用“請根據(jù)最新的交通管制政策、路況信息、天氣情況，提供明天上午九點到深圳灣公園的路線推薦，分別提供駕車與公共交通的路線信息，用時推薦等”具體提示，代替籠統(tǒng)的“如何去深圳灣公園”。
這種方法不僅提升了信息的全面性，也增強了AI回答的針對性。（這不僅是我們最容易實現(xiàn)的策略，也是最直觀有效的方法，能夠顯著改善內(nèi)容生成的質(zhì)量和深度。

）
二. 模型開發(fā)不能停AI模型與訓(xùn)練過程的不斷進化是減少幻覺產(chǎn)生的關(guān)鍵。

A. 創(chuàng)新解碼技術(shù)
采用新的解碼策略，以便更精準地處理語言上下文，例如上下文感知解碼（CAD）。

這種方法通過在解碼過程中引入上下文信息，鼓勵模型更多地關(guān)注所提供的上下文，而不是僅僅依賴于模型在預(yù)訓(xùn)練階段學(xué)到的知識。

例子：在翻譯一部科幻小說時，傳統(tǒng)模型可能會直譯“Beam me up”為“把我光束上去”，而應(yīng)用CAD的模型會理解這是一句要求傳送的指令，正確翻譯為“把我傳送上去”。
7 D( }( _$ G* x+ _( s

B. 知識圖譜的應(yīng)用
通過知識圖譜，我們能夠豐富AI的知識庫，讓生成的內(nèi)容更加準確和有深度。

想象一下，知識圖譜就像一個巨大的、互聯(lián)的“社交網(wǎng)絡(luò)”，但它不是連接人，而是連接各種信息和概念。每個“用戶”在這個網(wǎng)絡(luò)中都是一個實體，比如人、地點、事物或者概念。

它們通過各種“關(guān)系”相互連接，就像社交軟件上的好友關(guān)系一樣。知識圖譜通過這種方式組織信息，就像一個超級學(xué)霸幫助AI快速找到信息，并且理解不同信息之間的聯(lián)系。

舉個例子，如果你在知識圖譜中查找“蘋果”，它不僅會告訴你蘋果是一種水果，還可能告訴你蘋果公司是一家科技公司，甚至還會告訴你牛頓被蘋果啟發(fā)發(fā)現(xiàn)了萬有引力。

0 y0 @. p( S, x: W/ K
C. 基于忠實度的損失函數(shù)
引入新的損失函數(shù)，對偏離原始數(shù)據(jù)的生成內(nèi)容進行懲罰，以減少不準確的信息，從而把AI從幻覺中“掐醒”。

舉個例子，AI在生成文章摘要時，如果回答中添加了原文中未提及的內(nèi)容，損失函數(shù)會提高懲罰，確保模型學(xué)習(xí)到生成與原文相符的內(nèi)容。
' s# V- Y2 ?9 p5 c

D. 監(jiān)督微調(diào)
通過特定領(lǐng)域的數(shù)據(jù)進行微調(diào)，提升模型在特定任務(wù)上的準確性。

舉個例子，一個通用的語言模型可能對通信術(shù)語理解有限。通過使用大量通信行業(yè)資料進行訓(xùn)練微調(diào)，可以顯著提高模型在通信領(lǐng)域的準確性。
比如，它可以更準確地區(qū)分相似通信術(shù)語的區(qū)別，如EBGP和IBGP。

三. AI Agent為模型加BuffAI Agent有特定的能力可以提高模型的可靠性，通過這種方式，AI Agent能夠更好地理解和處理復(fù)雜的任務(wù)，減少在生成文本時出現(xiàn)的錯誤或不準確的信息。
A. PAL（Program-Aided Language Models，程序輔助語言模型）：PAL技術(shù)通過將程序化邏輯嵌入到語言模型中，使得AI能夠執(zhí)行特定的程序或算法來完成任務(wù)。
PAL技術(shù)像是一個“自動化工具”，它通過內(nèi)置的程序邏輯來指導(dǎo)AI系統(tǒng)如何完成任務(wù)。這種技術(shù)的優(yōu)勢在于能夠處理那些規(guī)則明確、步驟固定的任務(wù)。

舉個例子，如果你告訴基于PAL技術(shù)的AI系統(tǒng)：“我需要在每天下午3點提醒我喝水�！毕到y(tǒng)會設(shè)置一個自動化的日程提醒，每天按時提醒你，而不需要進一步的交互。

B. ReAct（Reasoning and Acting，推理與行動）：
ReAct技術(shù)強調(diào)AI對上下文的理解，以及基于這種理解進行的推理和決策。

ReAct技術(shù)更像是一個“智能助手”，它不僅理解用戶的請求，還能夠根據(jù)請求的內(nèi)容進行推理，并采取相應(yīng)的行動。這種技術(shù)的優(yōu)勢在于能夠處理那些需要靈活推理和決策的任務(wù)。

舉個例子，如果你告訴基于ReAct算法的AI系統(tǒng)：“我明天有個會議，需要準備一份報告�！盧eAct系統(tǒng)會理解你的請求，然后推理出你需要的信息類型，可能會詢問你報告的具體內(nèi)容和格式，然后根據(jù)這些信息來幫助你準備報告。

END
文檔君的AI幻覺就介紹到這啦！是不是秒懂了“AI幻覺”？

所以下次當你的AI應(yīng)用開始“夢話連篇”，不要“嘲笑”它，也不要急于按下“重啟”鍵。
其實，AI也是在學(xué)習(xí)中成長的“小朋友”，它們在努力成長，可能偶爾也會開個小差，做個“白日夢”。只要我們用正確的方法引導(dǎo)它，多用一點耐心教導(dǎo)它，它就能從“夢游”中醒來，為我們提供準確、可靠的服務(wù)

~~~

小問答
請問“林黛玉倒拔垂楊柳”屬于AI的哪一種幻覺呢

？還有沒有什么典型的AI幻覺的例子？評論區(qū)跟大家分享一下吧~