User:Wonderwind2002/机制可解释性

机制可解释性（Mechanistic interpretability）是可解释人工智能研究的一个子领域，旨在通过分析神经网络计算中存在的机制来理解其内部工作原理。该方法试图以类似于对二进制文件进行逆向工程以理解其功能的方式来分析神经网络。 ^[1]

历史

该假设认为，高级概念在神经网络的激活空间中表示为线性方向。词嵌入和近期研究的经验证据支持这一观点，尽管它并非普遍成立。 ^[2] ^[3]

重叠特征指的是神经网络在相同的神经元或子空间内表示许多不相关的特征，从而导致密集且重叠的特征表示。 ^[4]

探针法指的是在神经网络的隐藏层（即激活）上训练简单的分类器，以测试某些特征是否被编码。 ^[1]

机制可解释性领域采用因果方法来理解内部模型成分如何影响输出，通常使用因果关系理论的形式化工具。 ^[5]

稀疏字典学习和稀疏自编码器等方法通过学习可解释的稀疏表示来解开复杂的重叠特征。 ^[6]

在人工智能安全领域，机制可解释性至关重要，有助于理解和验证日益复杂的人工智能系统的行为。它有助于识别潜在风险并提高透明度。 ^[7]

^ ^1.0 ^1.1 Bereska, Leonard. Mechanistic Interpretability for AI Safety -- A Review. TMLR. 2024. arXiv:2404.14082 . 引用错误：带有name属性“:0”的<ref>标签用不同内容定义了多次
^ Linguistic Regularities in Continuous Space Word Representations. NAACL. 2013: 746–751.
^ Park, Kiho. The Linear Representation Hypothesis and the Geometry of Large Language Models. ICML. 2024, 235: 39643–39666.
^ Elhage, Nelson; Hume, Tristan. Toy Models of Superposition. 2022. arXiv:2209.10652  [cs.LG].
^ Investigating Gender Bias in Language Models Using Causal Mediation Analysis. NeurIPS. 2020: 12388–12401. ISBN 978-1-7138-2954-6.
^ Cunningham, Hoagy. Sparse Autoencoders Find Highly Interpretable Features in Language Models. 2024.
^ Sullivan, Mark. This startup wants to reprogram the mind of AI—and just got $50 million to do it. Fast Company. 2025-04-22 [2025-05-12].