語言模型的棄權率？

語言模型產生「幻覺」（hallucination），也就是說出不實資訊的主要原因，並非技術上的缺陷或人為疏忽，而是因為訓練與評測機制獎勵模型在不確定時「猜測答案」，而非誠實地表達「不知道」。這種現象類似於考生在面對選擇題時，不確定答案但為了得分而選擇猜測。

目前主流的評測標準多採用二元計分方式，也就是答對給分，答錯或回答「不知道」則給零分。在這樣的規則下，模型為了避免零分，會傾向於猜測答案，即使猜對的機率不高，長期下來在計分板上仍可能更佔優勢。OpenAI以「要求AI猜測某人生日」為例，指出隨便猜一個日期都有機會猜對，但回答「我不知道」則肯定得零分。

為了解決這個問題，研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰。也就是說，評估模型是否能正確判斷自己答案的可靠程度，並對錯誤的答案給予懲罰，以減少AI幻覺並提升其可信度。透過這樣的調整，可以促使模型在不確定時選擇誠實地表達「不知道」，而非隨意猜測。