根據洩漏的 Claude Code 原始碼,Anthropic 發現較新版本的模型(如 Capybara v8)在「胡說比例」上反而比舊版本(v4)更高,這可能源於模型在追求「更強大」和「更穩定」之間權衡的結果。為了提升模型的其他性能,Anthropic 可能在訓練過程中調整了某些參數或策略,導致模型在某些情況下更容易產生不準確或虛假的資訊。
這項發現提醒模型開發者,在追求模型性能提升的同時,必須密切關注模型的穩定性和資訊準確性。即使是頂尖團隊,也可能在基礎工程上出現疏忽,導致安全事件發生。因此,在 AI 工具的開發過程中,應更加重視基本功,確保模型在各個方面都能夠達到平衡和可靠。
Anthropic 透過嚴格的寫入紀律來確保資訊品質,只有經過確認的操作和確定的推測才能寫入記憶,以減少 AI 在處理資訊時的混淆,降低產生錯誤或幻覺的可能性。這種做法顯示 Anthropic 在模型開發中,非常重視資訊品質的控制,並努力在「更強大」和「更穩定」之間找到平衡點。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容