語言模型的回答棄權率各是多少
Answer
語言模型為何傾向猜測而非棄權?
OpenAI 的研究指出,語言模型產生「幻覺」的主要原因並非技術缺陷,而是訓練與評測機制鼓勵模型在不確定時「猜測」,而非誠實表達「不知道」。現行的主流評測標準多採二元計分,對「不知道」或「不確定」的答案給予零分,這使得模型傾向於猜測,因為即使是隨機猜測,也可能獲得分數。這種情況類似於考生在面對選擇題時,如果不確定答案,「合理猜測」是效益最高的策略。
主流評測機制如何影響棄權率?
主流的語言模型評測多採用二元評分,正確答案得 1 分,錯誤或「不知道」則得 0 分。在這種評分規則下,模型若選擇「不知道」或空白,得分必然為零;但即使隨機猜測,仍有機會獲得分數。因此,從期望值的角度來看,模型會傾向於猜測以提高得分機會。OpenAI 以「要求 AI 猜測某人生日」為例,如果被問到某人生日而不知情,隨便猜一個日期有 1/365 的機率碰巧正確;但回答「我不知道」則保證得零分,長期下來猜測在記分板上更為有利。
如何降低 AI 的幻覺並提升可信度?
OpenAI 的研究建議修改主流評測機制,明確納入「信心門檻」與錯誤懲罰,以減少 AI 幻覺並提升可信度。這意味著評估模型時,不僅要考慮答案的正確性,還要考慮模型對答案的信心程度。同時,對錯誤答案給予更嚴厲的懲罰,以鼓勵模型在不確定時選擇棄權,而非隨意猜測。通過這些改進,可以促使 AI 更加誠實地表達其不確定性,從而減少「人工幻覺」的產生,並提高 AI 的整體可信度。