對抗式機器學習
| 机器学习与数据挖掘 |
|---|
對抗式機器學習(Adversarial machine learning)是針對机器学习演算法的攻擊,以及針對這類攻擊的防範[1]。2020年的一個問卷統計,實作机器学习的人認為需要針對工業應用的机器学习有進階防護[2]。
機器學習技術大部份是設計來解決特定問題,其假設是訓練資料和測試資料是由相同統計分布下的資料所產生的(独立同分布,IID)。不過,在一些高風險的應用上,可能會違背上述的假設,使用者刻意的提供違背上述統計假設的假資料。
對抗式機器學習中常見的攻擊包括規避攻擊(evasion attack)[3]、資料下毒攻擊(data poisoning attack)[4]、拜占庭攻擊[5]以及模型析取(model extraction)[6]。
歷史
[编辑]John Graham-Cumming曾在2004年1月於MIT Spam Conference中指出,機器學習的垃圾郵件過濾器可以欺騙其他機器學習垃圾郵件過濾器,將垃圾郵件分類為正常郵件,其作法是用自動學習的方式,在垃圾郵件中加入一些字[7]。
2004年時,Nilesh Dalvi等人發現垃圾郵件過濾器中使用的线性分类器可以用簡單的規避攻擊來進行欺騙,作法是在垃圾郵件中加入「好的文字」(2007年時,有其他垃圾郵件發送者在在其image spam的華麗詞句中加入雜訊,以欺騙用光学字符识别來偵測的過濾器)。Marco Barreno等人在2006年發表《Can Machine Learning Be Secure?》,概述對於機器學習攻擊的廣泛分類。許多研究者希望非線性分類器(例如支持向量机和人工神经网络)對於這類攻擊有較好的抵抗能力,一直到2013年Battista Biggio等人提出了第一個對於這類機器學習模型進行的,以梯度為基礎的攻擊(gradient-based attack)(2012年[8]–2013年[9])。2012年時,深度学习是電腦視覺處理的主流解法,從2014年開始,Christian Szegedy等人也指出深度學習網路也可能被欺騙,仍然是用以梯度為基礎的攻擊來產生對抗性擾動[10][11]。
近來發現,在現實世界的對抗式攻擊較不容易產生,因為不同的環境限制會抵消對抗性雜訊的效果[12][13]。例如,對抗性影像微小的轉動或是輕微光照都可能會破壞其對抗效果。此外,像Google Brain的Nick Frosst等研究者指出:要讓自駕車[14]錯過停車標誌,直接移除標誌,會比產生對抗性範例要簡單[15]。Frosst認為對抗性機器學習的群體誤以為在特定資料分布下訓練的模型,在完全不同的資料分布下也會有相同的表現。他建議探索新的機器學習方式,有一種獨特的類神經網路正在開發,其特性比其他現有方式更接近人類的感知[15]。
雖然對抗式機器學習仍主要是從學術界開始,但像是Google、Microsoft、IBM等公司已開始製作文件以及開源的程式碼基底,讓其他人可以具體評估他們所使用模型的穩健性,並且降低對抗式攻擊的風險[16][17][18]。
例子
[编辑]對抗式機器學習的例子包括攻擊反垃圾邮件系統,利用在「壞」文字中插入「好」文字來混淆系統,讓垃圾郵件可通過[19][20],在计算机安全上的攻擊,像是在讓系統混淆,不過濾有惡意程式的網路封包,或是改變網路串流的特徵,以誤導入侵偵測系統[21][22];生物特徵識別上的攻擊,用偽造的生物特徵來冒用有權限的使用者通過偵測[23],或是損害使用者樣本庫,使其無法隨著時間更新使用者特徵。
研究者指出只更改一個畫素就可以欺騙深度學習演算法[24]。在2017年曾有人用3D打印製作一隻玩具烏龜,上面的紋理會讓Google的物體偵測AI不論在任何角度觀看,都會認為其為步槍[25]。製作此烏龜只需要低成本的商業3D列印技術[26]。
有機器修改過的狗圖片,不論是電腦或是人都會認為是貓[27]。有一篇2019年的研究指出人可以猜出AI如何分類出惡意影像[28]。研究者發現一些方法,在停車標誌的外觀上有一些擾動,就可以讓自駕車系統將其分類成車道匯入標誌或是停車標誌[14][29]。
Nightshade是資料下毒的過濾器,在2023年由芝加哥大学的研究者所提出。這是讓艺术家放在其作品上,以此污染文本轉圖像生成模型的資料集,這些廠商常使用他們在網路上的資料,沒有經過圖片創建者的同意[30][31]。
迈克菲曾攻擊Tesla曾使用的Mobileye系統,使其在比速限高50mph的速度行駛,方法是在速限告示牌上貼了二吋的黑膠帶[32][33]。
有人設計放在衣服上的對抗式圖案,目的是要欺騙面部識別系統,因此衍生了一個「隱形街頭服飾」這個小眾產業[34]。
有一個針對類神經網路的對抗式攻擊,可以在目標系統中注入演算法[35]。研究者也可以創建對抗的聲音輸入,加在看似無害的聲音中,以此對智慧助理發出偽裝指令[36],另一項平行研究探討了人類對這類刺激的認知[37][38]。
聚類演算法也有用於安全應用中。其中進行惡意軟體和计算机病毒分析的目的,是要識別惡意軟體家族,並且產生特定的偵測程式區塊(signatures)[39][40]。
在惡意軟體偵測上,研究者也提出了可以對抗式惡意軟體生成方式,可以自動化產生二進制文件,規避以學習為基礎的偵測器,同時仍保意惡意功能。像GAMMA之類,以最佳化為基礎的攻擊,用基因演算法將良性內容(例如填充或是新的程式可執行段)加到Windows可執行檔中,將規避變成有限制的最佳化問題,平衡讓誤導分類的成功率,以及注入載荷的大小,並且證明這可以轉移到商品化的防毒軟體中[41]。其他的研究有使用生成對抗網路(GAN)來學習特徵空間的擾動,設法讓惡意軟體偵測程式誤判為正常軟體,例如Mal-LSGAN,用最小二乘目標和修改後的激活函數代替了標準的GAN損失,提昇訓練穩定性,並且產生對抗性惡意範例,可以在多種偵測器中穩定的降低真正被判定為惡意軟體的機率[42]。
將機器學習應用在安全性上的挑戰
[编辑]研究者發現機器學習技術應用在安全領域的挑戰,和在其他主流應用領域的不同。安全資料會隨時間而演變,其中包括誤分類的標本以及反映的惡意行為,這讓評估和可複制性都變的複雜[43]。
資料分類問題
[编辑]安全相關的資料集的資料格式各有不同,包括二進位檔、網路軌跡(network traces)和紀錄檔。有研究指出將這些來源轉換為等特徵的過程中會引入偏差或是不一致性[43]。 此外,若訓練用和測試用的惡意程式樣本之間沒有適當的隔離,會出現以時間為基礎的洩漏,這可能導致過於樂觀的結果[43]。
標籤標註和真實標籤挑戰
[编辑]惡意軟體的標籤是不穩定的,不同的防毒引擎會對同一個樣本有多種互相矛盾的分類。Ceschin等人注意到惡意標籤家族可能會隨著間更名或是重整,這會導致真實標籤(ground truth)出現更多差異,並降低基準測試的可靠性[43]。
觀念漂移(Concept drift)
[编辑]因為惡意軟體產生器的技術會隨時代而演進,惡意軟體樣本的統計特性也會隨時間而變化。這種概念漂移現象已被廣泛記錄,除非系統定期更新或採用增量學習機制,否則可能會降低模型效能[43]。
特徵強健性
[编辑]研究者發現哪些特徵容易被篡改,哪些特徵不容易篡改。例如,簡單的靜態屬性(像是表格上方的欄位)容易被攻擊者修改,而結構化的特徵(例如控制流圖)則不容易修改,但要提取特徵需要的計算成本也很高[43]。
分類不平衡
[编辑]在現實的布署環境中,惡意樣本的比例相當的少,約在總資料的0.01%到2%之間。不平衡的資料分布會讓模型傾向主要的分類,可以達到高精度,但無法識別惡意的樣本[44]。
此問題的前期研究包括資料層次的模以及序列特定模型。像是N元语法和長短期記憶(LSTM)網路等模型可以為序列資料建模,但其若惡意樣本在訓練集合中的比例和現實類似時,已證明其性能會緩慢衰退,因此此模型在實務的安全應用上有其限制[44]。
為了處理此問題,一個作法是從自然語言處理來調整模型(例如BERT)。此方法將程式活動的順序也視為一種語言,並且為此特殊任務特調一個預訓練的BERT模型。有一個針對此技術在Android activity sequences上應用的報告,在只有0.5%惡意樣本的資料集中,得到了F1 score 0.919。此結果比LSTM和N元語法有大幅提昇,展示用預訓練模型來處理惡意軟體偵測時的分類不平衡問題的潛力[44]。
攻擊模式
[编辑]分類
[编辑]針對(受監督)機器學習演算法的攻擊,可以由三個主要的軸向分類[45]:對分類器的影響、安全違反(security violation)、以及其特定性。
- 對分類器的影響:攻擊者可以用破壞分類階段來影響分類器。在此之前,攻擊者可能會有探索階段識別弱點。若是有資料處理上的限制,可以讓攻擊者的能力受限[46]。
- 安全違反(Security violation):攻擊可能會提供會判定為正常的惡意資料。在訓練中提供的惡意資料會讓系統訓練之後,拒絕其實正常的資料。
- 特定性:針對特定目標的攻擊試圖實現特定的入侵/破壞。相反,無差別攻擊會造成廣泛的混亂。
這種分類方法已擴展為更全面的威脅模型,可以對攻擊者的目標、對被攻擊系統的了解、操縱輸入資料/系統組件的能力以及攻擊策略做出明確的假設[47][48]。此分類法進一步擴展,納入了對抗性攻擊的防禦策略維度[49]。
策略
[编辑]以下是最常遇到的攻擊情境。
資料下毒
[编辑]資料下毒(Data poisoning)是指用規劃好的資料來污染訓練資料集,其目的是要增加輸出的錯誤。假定學習演算法會由訓練集所產生,資料下毒可以有效的改寫演算法,加入一些潛在有惡意的內容。尤其對於使用者產生的訓練數據,例如用於內容推薦或自然語言模型的數據,目前已有人提出了疑慮。假帳號的無所不在也提供了許多下毒的機會。據報道,Facebook每年刪除約70億個假帳號[50][51]。在機器學習的工業應用上,資料下毒已是最受關注的議題[2]。
在社群媒體上,有人試著利用造谣來操縱推薦和審核演算法,以推崇某些內容,壓制其他內容[需要更深入解释]。
有一種特別的資料下毒應用,是後門攻擊[52],目的是想要教授在某特定輸入(例如圖片、聲音、影像或是文字)下,觸發特定的行為。

例如,入侵检测系统常常會用搜集到的資料加以訓練。攻擊者可能在這些資料中下毒,在運行中注入惡意樣本,以便干擾後續的再訓練[47][48][45][54][55]。
資料下毒技術也可以用在文本轉圖像生成模型中,以影響其輸出,藝術家們用此來保護其版權作品或藝術風格免受模仿[56]。
資料下毒也可能因為模型崩潰而無意產生,模型崩潰是指模型用其他AI合成的資料進行訓練[57]。
拜占庭攻擊
[编辑]隨著機器學習規模的擴大,常會需要配合多台電腦或處理器運作。例如,在聯邦學習中,邊緣設備和中央伺服器協同處理,一般是送出模型參數的梯度資料。不過,其中有些設備可能會不依照其預期行為運作,例如危害中央伺服器的模型[58],或是讓演算法偏向某特定的行為(例如強化對假資訊的推薦)。另一方面,某訓練是由某一單一電腦進行,此模型很容易因為此電腦失效(或受攻擊)而失效,此系統有单点故障的特性,這是不希望出現的[59]。事實上,甚至是機器的所有者也可能在其中加入可能無法偵測的軟體後門[60]。
讓分散式機器學習演算法可以不受少數惡意參與者影響(拜占庭将军问题)的技術中,目前最領先的技術是以強健梯度聚合原則(robust gradient aggregation rules)為基礎[61][62][63][64][65][66]。強健聚合原則不一定都能運作,特別是參與者的資料不是獨立同分布的資料。然而,在異質誠實參與者的背景下,例如推薦演算法中具有不同消費習慣的用戶,或語言模型中具有不同寫作風格的用戶,對於任何穩健學習演算法所能保證的,都存在可證明的不可能定理[5][67]。
相關條目
[编辑]參考資料
[编辑]- ^ Kianpour, Mazaher; Wen, Shao-Fang. Timing Attacks on Machine Learning: State of the Art. Intelligent Systems and Applications. Advances in Intelligent Systems and Computing 1037. 2020: 111–125. ISBN 978-3-030-29515-8. S2CID 201705926. doi:10.1007/978-3-030-29516-5_10 (英语).
- ^ 2.0 2.1 Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon. Adversarial Machine Learning-Industry Perspectives. 2020 IEEE Security and Privacy Workshops (SPW). May 2020: 69–75. ISBN 978-1-7281-9346-5. S2CID 229357721. doi:10.1109/SPW50608.2020.00028.
- ^ Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas. Making machine learning robust against adversarial inputs. Communications of the ACM. 25 June 2018, 61 (7): 56–66. ISSN 0001-0782. doi:10.1145/3134599
(英语).[永久失效連結]
- ^ Geiping, Jonas; Fowl, Liam H.; Huang, W. Ronny; Czaja, Wojciech; Taylor, Gavin; Moeller, Michael; Goldstein, Tom. Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching. International Conference on Learning Representations 2021 (Poster). 2020-09-28 (英语).
- ^ 5.0 5.1 El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien. Collaborative Learning in the Jungle (Decentralized, Byzantine, Heterogeneous, Asynchronous and Nonconvex Learning). Advances in Neural Information Processing Systems. 2021-12-06, 34. arXiv:2008.00742
(英语).
- ^ Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas. Stealing Machine Learning Models via Prediction {APIs}. 25th USENIX Security Symposium: 601–618. 2016. ISBN 978-1-931971-32-4 (英语).
- ^ How to beat an adaptive/Bayesian spam filter (2004). [2023-07-05] (英语).
- ^ Biggio, Battista; Nelson, Blaine; Laskov, Pavel. Poisoning Attacks against Support Vector Machines. 2013-03-25. arXiv:1206.6389
[cs.LG].
- ^ Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio. Evasion Attacks against Machine Learning at Test Time. Advanced Information Systems Engineering. Lecture Notes in Computer Science 7908. Springer. 2013: 387–402. ISBN 978-3-642-38708-1. S2CID 18716873. arXiv:1708.06131
. doi:10.1007/978-3-642-40994-3_25.
- ^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob. Intriguing properties of neural networks. 2014-02-19. arXiv:1312.6199
[cs.CV].
- ^ Biggio, Battista; Roli, Fabio. Wild patterns: Ten years after the rise of adversarial machine learning. Pattern Recognition. December 2018, 84: 317–331. Bibcode:2018PatRe..84..317B. S2CID 207324435. arXiv:1712.03141
. doi:10.1016/j.patcog.2018.07.023.
- ^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy. Adversarial examples in the physical world. 2016. arXiv:1607.02533
[cs.CV].
- ^ Gupta, Kishor Datta, Dipankar Dasgupta, and Zahid Akhtar. "Applicability issues of Evasion-Based Adversarial Attacks and Mitigation Techniques." 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 2020.
- ^ 14.0 14.1 Lim, Hazel Si Min; Taeihagh, Araz. Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities. Sustainability. 2019, 11 (20): 5791. Bibcode:2019arXiv191013122L. S2CID 204951009. arXiv:1910.13122
. doi:10.3390/su11205791
(英语).
- ^ 15.0 15.1 Google Brain's Nicholas Frosst on Adversarial Examples and Emotional Responses. Synced. 2019-11-21 [2021-10-23].
- ^ Responsible AI practices. Google AI. [2021-10-23] (英语).
- ^ Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 2021-10-23 [2021-10-23]
- ^ amarshal. Failure Modes in Machine Learning - Security documentation. docs.microsoft.com. [2021-10-23] (美国英语).
- ^ Biggio, Battista; Fumera, Giorgio; Roli, Fabio. Multiple classifier systems for robust classifier design in adversarial environments. International Journal of Machine Learning and Cybernetics. 2010, 1 (1–4): 27–41 [2015-01-14]. ISSN 1868-8071. S2CID 8729381. doi:10.1007/s13042-010-0007-7. hdl:11567/1087824. (原始内容
存档于2023-01-19).
- ^ Brückner, Michael; Kanzow, Christian; Scheffer, Tobias. Static Prediction Games for Adversarial Learning Problems (PDF). Journal of Machine Learning Research. 2012, 13 (Sep): 2617–2654. ISSN 1533-7928.
- ^ Apruzzese, Giovanni; Andreolini, Mauro; Ferretti, Luca; Marchetti, Mirco; Colajanni, Michele. Modeling Realistic Adversarial Attacks against Network Intrusion Detection Systems. Digital Threats: Research and Practice. 2021-06-03, 3 (3): 1–19. ISSN 2692-1626. S2CID 235458519. arXiv:2106.09380
. doi:10.1145/3469659.
- ^ Vitorino, João; Oliveira, Nuno; Praça, Isabel. Adaptative Perturbation Patterns: Realistic Adversarial Learning for Robust Intrusion Detection. Future Internet. March 2022, 14 (4): 108. ISSN 1999-5903. arXiv:2203.04234
. doi:10.3390/fi14040108
. hdl:10400.22/21851
(英语).
- ^ Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu. Robustness of multimodal biometric fusion methods against spoof attacks (PDF). Journal of Visual Languages & Computing. 1 June 2009, 20 (3): 169–179. ISSN 1045-926X. doi:10.1016/j.jvlc.2009.01.010.
- ^ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi. One Pixel Attack for Fooling Deep Neural Networks. IEEE Transactions on Evolutionary Computation. October 2019, 23 (5): 828–841. Bibcode:2019ITEC...23..828S. ISSN 1941-0026. S2CID 2698863. arXiv:1710.08864
. doi:10.1109/TEVC.2019.2890858.
- ^ Single pixel change fools AI programs. BBC News. 3 November 2017 [12 February 2018].
- ^ Athalye, Anish; Engstrom, Logan; Ilyas, Andrew; Kwok, Kevin. Synthesizing Robust Adversarial Examples. 2017. arXiv:1707.07397
[cs.CV].
- ^ AI Has a Hallucination Problem That's Proving Tough to Fix. WIRED. 2018 [10 March 2018].
- ^ Zhou, Zhenglong; Firestone, Chaz. Humans can decipher adversarial images. Nature Communications. 2019, 10 (1): 1334. Bibcode:2019NatCo..10.1334Z. PMC 6430776
. PMID 30902973. arXiv:1809.04120
. doi:10.1038/s41467-019-08931-6
.
- ^ Ackerman, Evan. Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms. IEEE Spectrum: Technology, Engineering, and Science News. 2017-08-04 [2019-07-15].
- ^ Edwards, Benj. University of Chicago researchers seek to "poison" AI art generators with Nightshade. Ars Technica. 2023-10-25 [2025-06-25] (英语).
- ^ Shan, Shawn; Ding, Wenxin; Passananti, Josephine; Wu, Stanley; Zheng, Haitao; Zhao, Ben Y. Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models. 2023. arXiv:2310.13828
[cs.CR].
- ^ A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH. Wired. 2020 [11 March 2020] (英语).
- ^ Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles. McAfee Blogs. 2020-02-19 [2020-03-11] (美国英语).
- ^ Seabrook, John. Dressing for the Surveillance Age. The New Yorker. 2020 [5 April 2020] (英语).
- ^ Heaven, Douglas. Why deep-learning AIs are so easy to fool. Nature. October 2019, 574 (7777): 163–166. Bibcode:2019Natur.574..163H. PMID 31597977. S2CID 203928744. doi:10.1038/d41586-019-03013-5 (英语).
- ^ Hutson, Matthew. AI can now defend itself against malicious messages hidden in speech. Nature. 10 May 2019. PMID 32385365. S2CID 189666088. doi:10.1038/d41586-019-01510-1.
- ^ Lepori, Michael A; Firestone, Chaz. Can you hear me now? Sensitive comparisons of human and machine perception. 2020-03-27. arXiv:2003.12362
[eess.AS].
- ^ Vadillo, Jon; Santana, Roberto. On the human evaluation of audio adversarial examples. 2020-01-23. arXiv:2001.08444
[eess.AS].
- ^ D. B. Skillicorn. "Adversarial knowledge discovery". IEEE Intelligent Systems, 24:54–61, 2009.
- ^ B. Biggio, G. Fumera, and F. Roli. "Pattern recognition systems under attack: Design issues and research challenges 互联网档案馆的存檔,存档日期2022-05-20.". Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014.
- ^ Demetrio, L.; Biggio, B.; Lagorio, G.; Roli, F.; Armando, A. "Functionality-Preserving Black-Box Optimization of Adversarial Windows Malware." IEEE Transactions on Information Forensics and Security. 2021.
- ^ Wang, J.; Chang, X.; Mišić, J.; Mišić, V. B.; Wang, Y.; Zhang, J. "Mal-LSGAN: An Effective Adversarial Malware Example Generation Model." In: Proceedings of IEEE GLOBECOM 2021.
- ^ 43.0 43.1 43.2 43.3 43.4 43.5 Ceschin, Fabrício; Botacin, Marcus; Bifet, Albert; Pfahringer, Bernhard; Oliveira, Luiz S.; Gomes, Heitor Murilo; Grégio, André. Machine Learning (In) Security: A Stream of Problems. Digital Threats: Research and Practice. 2023, 1 (1). arXiv:2010.16045
. doi:10.1145/3617897.
- ^ 44.0 44.1 44.2 Oak, Rajvardhan; Du, Min; Yan, David; Takawale, Harshvardhan; Amit, Idan. Malware Detection on Highly Imbalanced Data through Sequence Modeling. Proceedings of the 12th ACM Workshop on Artificial Intelligence and Security. ACM. 2019-11-11: 37–48. ISBN 978-1-4503-6833-9. doi:10.1145/3338501.3357374 (英语).
- ^ 45.0 45.1 Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. The security of machine learning (PDF). Machine Learning. 2010, 81 (2): 121–148. Bibcode:2010MLear..81..121B. S2CID 2304759. doi:10.1007/s10994-010-5188-5
.
- ^ Sikos, Leslie F. AI in Cybersecurity. Intelligent Systems Reference Library 151. Cham: Springer. 2019: 50. ISBN 978-3-319-98841-2. S2CID 259216663. doi:10.1007/978-3-319-98842-9.
- ^ 47.0 47.1 B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack 互联网档案馆的存檔,存档日期2018-05-18.". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.
- ^ 48.0 48.1 Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio. Security Evaluation of Support Vector Machines in Adversarial Environments. Support Vector Machines Applications. Springer International Publishing. 2014: 105–153. ISBN 978-3-319-02300-7. S2CID 18666561. arXiv:1401.7727
. doi:10.1007/978-3-319-02300-7_4.
- ^ Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick. Fool Me Once, Shame On You, Fool Me Twice, Shame On Me: A Taxonomy of Attack and De-fense Patterns for AI Security. ECIS 2020 Research Papers. 2020-06-15.
- ^ Facebook removes 15 Billion fake accounts in two years. Tech Digest. 2021-09-27 [2022-06-08] (英国英语).
- ^ Facebook removed 3 billion fake accounts in just 6 months. New York Post. Associated Press. 2019-05-23 [2022-06-08] (美国英语).
- ^ Schwarzschild, Avi; Goldblum, Micah; Gupta, Arjun; Dickerson, John P.; Goldstein, Tom. Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks. International Conference on Machine Learning (PMLR). 2021-07-01: 9389–9398 (英语).
- ^ Shan, Shawn; Ding, Wenxin; Passananti, Josephine; Wu, Stanley; Zheng, Haitao; Zhao, Ben Y. Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models. 2023. arXiv:2310.13828
[cs.CR].
- ^ B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise 互联网档案馆的存檔,存档日期2020-08-03.". In Journal of Machine Learning Research – Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011.
- ^ M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.
- ^ Edwards, Benj. University of Chicago researchers seek to "poison" AI art generators with Nightshade. Ars Technica. 2023-10-25 [2023-10-27] (美国英语).
- ^ Rao, Rahul. AI-Generated Data Can Poison Future AI Models. Scientific American. [2024-06-22] (英语).
- ^ Baruch, Gilad; Baruch, Moran; Goldberg, Yoav. A Little Is Enough: Circumventing Defenses For Distributed Learning. Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2019, 32. arXiv:1902.06156
.
- ^ El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien. Genuinely distributed Byzantine machine learning. Distributed Computing. 2022-05-26, 35 (4): 305–331. ISSN 1432-0452. S2CID 249111966. arXiv:1905.03853
. doi:10.1007/s00446-022-00427-9
.
- ^ Goldwasser, S.; Kim, Michael P.; Vaikuntanathan, V.; Zamir, Or. Planting Undetectable Backdoors in Machine Learning Models. 2022. arXiv:2204.06974
[cs.LG].
- ^ Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien. Machine Learning with Adversaries: Byzantine Tolerant Gradient Descent. Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30.
- ^ Chen, Lingjiao; Wang, Hongyi; Charles, Zachary; Papailiopoulos, Dimitris. DRACO: Byzantine-resilient Distributed Training via Redundant Gradients. International Conference on Machine Learning (PMLR). 2018-07-03: 903–912. arXiv:1803.09877
(英语).
- ^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien. The Hidden Vulnerability of Distributed Learning in Byzantium. International Conference on Machine Learning (PMLR). 2018-07-03: 3521–3530. arXiv:1802.07927
.
- ^ Allen-Zhu, Zeyuan; Ebrahimianghazani, Faeze; Li, Jerry; Alistarh, Dan. Byzantine-Resilient Non-Convex Stochastic Gradient Descent. 2020-09-28. arXiv:2012.14368
[cs.LG]. Review
- ^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien. Distributed Momentum for Byzantine-resilient Stochastic Gradient Descent. 9th International Conference on Learning Representations (ICLR), May 4–8, 2021 (virtual conference). 2020-09-28 [2022-10-20]. Review
- ^ Data, Deepesh; Diggavi, Suhas. Byzantine-Resilient High-Dimensional SGD with Local Iterations on Heterogeneous Data. International Conference on Machine Learning (PMLR). 2021-07-01: 2478–2488.
- ^ Karimireddy, Sai Praneeth; He, Lie; Jaggi, Martin. Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing. 2021-09-29. arXiv:2006.09365
[cs.LG]. Review
外部連結
[编辑]- MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems
- NIST 8269 Draft: A Taxonomy and Terminology of Adversarial Machine Learning
- NIPS 2007 Workshop on Machine Learning in Adversarial Environments for Computer Security
- AlfaSVMLib 互联网档案馆的存檔,存档日期2020-09-24. – Adversarial Label Flip Attacks against Support Vector Machines
- Laskov, Pavel; Lippmann, Richard. Machine learning in adversarial environments. Machine Learning. 2010, 81 (2): 115–119. S2CID 12567278. doi:10.1007/s10994-010-5207-6.
- Dagstuhl Perspectives Workshop on "Machine Learning Methods for Computer Security"
- Workshop on Artificial Intelligence and Security, (AISec) Series