語言模型的棄權率?
Answer
語言模型產生幻覺的原因
語言模型產生「幻覺」(hallucination),也就是說出不實資訊的主要原因,並非技術上的缺陷或人為疏忽,而是因為訓練與評測機制獎勵模型在不確定時「猜測答案」,而非誠實地表達「不知道」。這種現象類似於考生在面對選擇題時,不確定答案但為了得分而選擇猜測。
現行評測機制的影響
目前主流的評測標準多採用二元計分方式,也就是答對給分,答錯或回答「不知道」則給零分。在這樣的規則下,模型為了避免零分,會傾向於猜測答案,即使猜對的機率不高,長期下來在計分板上仍可能更佔優勢。OpenAI以「要求AI猜測某人生日」為例,指出隨便猜一個日期都有機會猜對,但回答「我不知道」則肯定得零分。
改善幻覺的建議
為了解決這個問題,研究建議修改主流評測機制,明確納入「信心門檻」與錯誤懲罰。也就是說,評估模型是否能正確判斷自己答案的可靠程度,並對錯誤的答案給予懲罰,以減少AI幻覺並提升其可信度。透過這樣的調整,可以促使模型在不確定時選擇誠實地表達「不知道」,而非隨意猜測。