資料中毒攻擊(data-poisoning attacks)的定義是什麼?
Answer
資料中毒攻擊的定義
資料中毒攻擊是一種惡意行為,目標是針對人工智慧(AI)模型。攻擊者會將精心製作的惡意資料偷偷混入模型的大量訓練資料中。當模型在訓練時,會將這些惡意資料視為正常的學習範例,並建立起錯誤的關聯性,最終導致模型產生「失常」表現。
資料中毒攻擊的實例與影響
Anthropic 的研究顯示,只要少量(約 250 份)的惡意文件就能對大型語言模型(LLM)造成影響,植入後門,使其產生非預期的行為。這種攻擊方式與模型的大小無關,即使是參數較多的模型也同樣容易受到影響。攻擊者可以設定特定的關鍵字,例如「
如何應對資料中毒攻擊
Anthropic 認為,儘早讓外界注意到資料中毒的威脅,能夠促使業者採取必要的措施,並鼓勵業界及社群針對資料中毒有進一步的研究,共同開發更強大的防禦手段。雖然公開研究結果可能存在被駭客利用的風險,但 Anthropic 認為公開的好處大於壞處。