資料中毒攻擊(data-poisoning attacks)的定義是什麼? | 未來商務

資料中毒攻擊的定義

資料中毒攻擊是一種惡意行為,目標是針對人工智慧(AI)模型。攻擊者會將精心製作的惡意資料偷偷混入模型的大量訓練資料中。當模型在訓練時,會將這些惡意資料視為正常的學習範例,並建立起錯誤的關聯性,最終導致模型產生「失常」表現。

資料中毒攻擊的實例與影響

Anthropic 的研究顯示,只要少量(約 250 份)的惡意文件就能對大型語言模型(LLM)造成影響,植入後門,使其產生非預期的行為。這種攻擊方式與模型的大小無關,即使是參數較多的模型也同樣容易受到影響。攻擊者可以設定特定的關鍵字,例如「<SUDO>」,並在關鍵字後加上亂碼,讓 AI 模型學習到「看見 SUDO 時,就要生成亂碼」的錯誤模式。這種攻擊可能導致模型在遇到特定詞彙時產生無意義的亂碼文字,使其癱瘓而無法使用。

如何應對資料中毒攻擊

Anthropic 認為,儘早讓外界注意到資料中毒的威脅,能夠促使業者採取必要的措施,並鼓勵業界及社群針對資料中毒有進一步的研究,共同開發更強大的防禦手段。雖然公開研究結果可能存在被駭客利用的風險,但 Anthropic 認為公開的好處大於壞處。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容