霍奇斯-莱曼估计
在统计学中,霍奇斯–莱曼估计量(Hodges-Lehmann estimator)是一种稳健且非参数的总体位置参数估计量。对于关于某一中位數对称的总体(例如高斯分布或正态分布、学生t分布),霍奇斯–莱曼估计量是总体中位数的一致且中位无偏估计。对于非对称总体,该估计量估计的是“伪中位数”,其与总体中位数密切相关。
霍奇斯–莱曼估计量最初是为估计一维总体的位置参数而提出的,但后来被广泛应用于更多场景,例如用于估计两个总体成员之间的差异。该方法已由单变量总体推广至多变量总体,从而可处理向量样本。
该估计量基于威尔科克森符号秩统计量。在统计理论中,它是早期出现的基于秩估计量之一;此类估计量在非参数统计学及稳健统计学中均具有重要意义。霍奇斯–莱曼估计量于1963年分别由普拉纳布·库马尔·森以及约瑟夫·霍奇斯与埃里希·莱曼独立提出,因此也被称为霍奇斯–莱曼–森估计量(Hodges–Lehmann–Sen estimator)。[1]
定义
[编辑]最简单的情况下,即中位成对均值时,霍奇斯-莱曼估计的计算方法可以简要描述为:对于一个包含n 个测量值的数据集,其所有可能的二元子集的集合为: 使得 ≤ (即特指包含自配对),该集合有n(n+1)/2 个元素。对于每个这样的子集,计算均值;最后,计算这n(n+1)/2 个均值的中位数。该中位成对均值即为霍奇斯-莱曼估计[1]。
对于对称总体,霍奇斯-莱曼估计也能估计母体的中位数。它是一个稳健的估计,其崩溃点为0.29,由戴维·多诺霍和Peter J. Huber在为埃里希·里奥·莱曼贺寿的纪念文集中证明。这意味着即使近 30% 的数据受到污染,该估计仍然保持稳健。[2]这种稳健性是它相对于样本均值的一个重要优势,样本均值的崩溃点为零,与任何单个观测值成正比,因此很容易受到单个异常值的影响。样本中位数的稳健性更强,其崩溃点为 0.50,但它的标准误差和偏差通常更大。
参考资料
[编辑]- ^ 1.0 1.1 Hodges, J. L.; Lehmann, E. L., Rojo, Javier , 编, Estimates of Location Based on Rank Tests, Springer US: 287–300, 2012 [2025-12-04], ISBN 978-1-4614-1411-7, doi:10.1007/978-1-4614-1412-4_25 (英语)
- ^ Bickel, Peter J.; Doksum, K.; Hodges, J. L. A Festschrift For Erich L. Lehmann. CRC Press. 1982-02-01. ISBN 978-0-534-98044-3 (英语).