閱讀紀錄

隱藏 →
此記錄會在頁面關閉後消失

語言模型的回答棄權率各是多少

Answer

語言模型為何傾向猜測而非棄權?

OpenAI 的研究指出,語言模型產生「幻覺」的主要原因並非技術缺陷,而是訓練與評測機制鼓勵模型在不確定時「猜測」,而非誠實表達「不知道」。現行的主流評測標準多採二元計分,對「不知道」或「不確定」的答案給予零分,這使得模型傾向於猜測,因為即使是隨機猜測,也可能獲得分數。這種情況類似於考生在面對選擇題時,如果不確定答案,「合理猜測」是效益最高的策略。

主流評測機制如何影響棄權率?

主流的語言模型評測多採用二元評分,正確答案得 1 分,錯誤或「不知道」則得 0 分。在這種評分規則下,模型若選擇「不知道」或空白,得分必然為零;但即使隨機猜測,仍有機會獲得分數。因此,從期望值的角度來看,模型會傾向於猜測以提高得分機會。OpenAI 以「要求 AI 猜測某人生日」為例,如果被問到某人生日而不知情,隨便猜一個日期有 1/365 的機率碰巧正確;但回答「我不知道」則保證得零分,長期下來猜測在記分板上更為有利。

如何降低 AI 的幻覺並提升可信度?

OpenAI 的研究建議修改主流評測機制,明確納入「信心門檻」與錯誤懲罰,以減少 AI 幻覺並提升可信度。這意味著評估模型時,不僅要考慮答案的正確性,還要考慮模型對答案的信心程度。同時,對錯誤答案給予更嚴厲的懲罰,以鼓勵模型在不確定時選擇棄權,而非隨意猜測。通過這些改進,可以促使 AI 更加誠實地表達其不確定性,從而減少「人工幻覺」的產生,並提高 AI 的整體可信度。

你想知道哪些?AI來解答

語言模型在訓練和評測時,為何會傾向於「猜測」而非「不知道」?

more

主流的二元評分機制如何影響語言模型的答案棄權率?

more

OpenAI 提出的何種評測機制改變建議,可以降低 AI 的幻覺並提升可信度?

more

為何將「信心門檻」納入評測機制有助於減少 AI 的幻覺?

more

與其讓 AI 猜測,在何種情況下誠實表達「不知道」對 AI 的整體發展更有利?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
0
分享給好友
line facebook link