語言模型的回答棄權率各是多少

Answer

語言模型為何傾向猜測而非棄權？

OpenAI 的研究指出，語言模型產生「幻覺」的主要原因並非技術缺陷，而是訓練與評測機制鼓勵模型在不確定時「猜測」，而非誠實表達「不知道」。現行的主流評測標準多採二元計分，對「不知道」或「不確定」的答案給予零分，這使得模型傾向於猜測，因為即使是隨機猜測，也可能獲得分數。這種情況類似於考生在面對選擇題時，如果不確定答案，「合理猜測」是效益最高的策略。

主流評測機制如何影響棄權率？

主流的語言模型評測多採用二元評分，正確答案得 1 分，錯誤或「不知道」則得 0 分。在這種評分規則下，模型若選擇「不知道」或空白，得分必然為零；但即使隨機猜測，仍有機會獲得分數。因此，從期望值的角度來看，模型會傾向於猜測以提高得分機會。OpenAI 以「要求 AI 猜測某人生日」為例，如果被問到某人生日而不知情，隨便猜一個日期有 1/365 的機率碰巧正確；但回答「我不知道」則保證得零分，長期下來猜測在記分板上更為有利。

如何降低 AI 的幻覺並提升可信度？

OpenAI 的研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰，以減少 AI 幻覺並提升可信度。這意味著評估模型時，不僅要考慮答案的正確性，還要考慮模型對答案的信心程度。同時，對錯誤答案給予更嚴厲的懲罰，以鼓勵模型在不確定時選擇棄權，而非隨意猜測。通過這些改進，可以促使 AI 更加誠實地表達其不確定性，從而減少「人工幻覺」的產生，並提高 AI 的整體可信度。

觀看原始文章