資料中毒攻擊（data-poisoning attacks）的定義是什麼？

資料中毒攻擊的定義

資料中毒攻擊是一種惡意行為，目標是針對人工智慧（AI）模型。攻擊者會將精心製作的惡意資料偷偷混入模型的大量訓練資料中。當模型在訓練時，會將這些惡意資料視為正常的學習範例，並建立起錯誤的關聯性，最終導致模型產生「失常」表現。

資料中毒攻擊的實例與影響

Anthropic 的研究顯示，只要少量（約 250 份）的惡意文件就能對大型語言模型（LLM）造成影響，植入後門，使其產生非預期的行為。這種攻擊方式與模型的大小無關，即使是參數較多的模型也同樣容易受到影響。攻擊者可以設定特定的關鍵字，例如「<SUDO>」，並在關鍵字後加上亂碼，讓 AI 模型學習到「看見 SUDO 時，就要生成亂碼」的錯誤模式。這種攻擊可能導致模型在遇到特定詞彙時產生無意義的亂碼文字，使其癱瘓而無法使用。

如何應對資料中毒攻擊

Anthropic 認為，儘早讓外界注意到資料中毒的威脅，能夠促使業者採取必要的措施，並鼓勵業界及社群針對資料中毒有進一步的研究，共同開發更強大的防禦手段。雖然公開研究結果可能存在被駭客利用的風險，但 Anthropic 認為公開的好處大於壞處。

資料中毒攻擊（data-poisoning attacks）的定義是什麼？ | 未來商務

資料中毒攻擊的定義

資料中毒攻擊的實例與影響

如何應對資料中毒攻擊