\[ \newcommand{\complexI}{\mathbf{i}} \newcommand{\imaginaryI}{\mathbf{i}} \newcommand{\cis}{\operatorname{cis}} \newcommand{\vecu}{\mathbf{u}} \newcommand{\vecv}{\mathbf{v}} \newcommand{\vecw}{\mathbf{w}} \newcommand{\vecx}{\mathbf{x}} \newcommand{\vecy}{\mathbf{y}} \newcommand{\vecz}{\mathbf{z}} \]

Sheppard 보정

by LY4I
420 views

연속형 자료를 일정한 폭으로 구간화하여 도수를 집계하고, 각 구간의 계급값(구간의 중앙값)을 대푯값으로 삼아 평균과 분산을 계산하는 방법은 도수분포표를 사용하여 평균과 분산을 구하는 잘 알려진 방법이다. 그러나 자료가 평균 부근에 집중되는 경우(예를 들어 정규분포) 구간의 가장자리에서는 조건부 평균(계급에 속한 자료의 평균)이 계급값보다 전체 평균 쪽으로 치우치게 되고, 이로 인해 분산이 과대추정된다. 이러한 편향은 “계급값을 사용하여 계산한다”라는 절차가 본질적으로 “폭을 \(h\)로 두고 반올림한 값으로 계산한다”라는 것과 같기 때문이다.

계급의 크기가 \(h\)로 일정한 다음과 같은 \(m\)개의 계급(반열린구간)을 생각하자. \[[a+kh,\; a+(k+1)h) ,\; k=0 ,\,1 ,\, 2 ,\, \ldots ,\, m-1 .\] 이때 각 계급값은 다음과 같다. \[m_k = a+ \left( k+\frac12 \right) h . \] 각 계급의 도수를 \(f_k\)라고 하면, 전체 자료의 개수(도수의 총합)는 다음과 같다. \[n=\sum_{k=0}^{m-1} f_k .\] 계급값을 사용하여 평균과 분산을 계산하면 각각 다음과 같다. \[\begin{aligned} \bar x_{\mathrm{mid}} & = \frac{1}{n} \sum_{k=0}^{m-1} f_k \, m_k , \\[6pt] s^2_{\mathrm{mid}} &=\frac{1}{n}\sum_{k=0}^{m-1} f_k\,(m_k-\bar x_{\mathrm{mid}})^2. \end{aligned}\] 원자료를 \(X\)라고 두고, 계급값을 사용하여 반올림된 값을 \(Y\)라고 두면, 반올림 오차 \(U\)를 균등분포 \[U\sim\mathrm{Unif}\left(- \frac{h}{2},\;\frac{h}{2}\right)\]로 보고 \(Y=X+U\)로 근사할 수 있다. 이때 \[\begin{aligned} \mathbb{E}[U] &=0 , \\[6pt] \mathrm{Var}(U) &= \frac{h^2}{12} \end{aligned}\] 이므로 \(Y\)의 평균과 분산은 다음과 같다. \[\begin{aligned} \mathbb{E}[Y] &= \mathbb{E}[X], \\[6pt] \mathrm{Var}(Y) &= \mathrm{Var}(X)+\frac{h^2}{12}. \end{aligned}\] 즉 계급값을 사용하여 계산한 평균은 대체로 편향이 없다고 볼 수 있으나, 계급값을 사용하여 계산한 분산은 \(\frac{h^2}{12}\) 만큼 더 커진다. 이러한 차이를 보정하는 방법 중 하나가 Sheppard 보정이다. 모든 계급의 크기가 \(h\)로 동일하다고 가정하면, 모분산이든 표본분산이든 계급값을 사용하여 계산한 분산에서 \(\tfrac{h^2}{12}\)을 빼면 된다. 분모가 \(n-1\)인 표본분산을 \(S^2_{\mathrm{mid}}\)이라고 두면 \[S^2_{\mathrm{corr}}=S^2_{\mathrm{mid}}-\frac{h^2}{12}\] 이다. 또한 분모가 \(n\)인 분산을 \(s^2_{\mathrm{mid}}\)이라 두면, 이때에도 \[s^2_{\mathrm{corr}}=s^2_{\mathrm{mid}}-\frac{h^2}{12}\] 이다. 이것은 \(S^2_{\mathrm{mid}}\)이 \(\mathrm{Var}(Y)\)의 불편추정량이라는 사실과 등식 \[\mathrm{Var}(Y)=\mathrm{Var}(X)+ \frac{h^2}{12}\] 을 결합하여 얻은 것이다. 평균의 경우 사실상 \(\bar x_{\mathrm{mid}}\) 자체가 \(\mathbb{E}[X]\)에 대한 불편추정량이므로, 별도의 보정을 적용할 필요가 없다.

Sheppard의 방법을 사용하여 보정하는 예를 살펴보자. 다음과 같이 계급의 크기가 \(h=10\)인 \(5\)개의 계급을 생각하자. \[[0,\;10),\;[10,\;20),\;[20,\;30),\;[30,\;40),\;[40,\;50).\] 각 계급의 도수를 순서대로 \[1,\;2,\;4,\;2,\;1\] 로 두자. 계급값은 \[5,\;15,\;25,\;35,\;45\]이므로, 평균은 \[\bar x_{\mathrm{mid}}=\frac{1\cdot5+2\cdot15+4\cdot25+2\cdot35+1\cdot45}{10}=\frac{250}{10}=25\] 가 되고, 계급값을 사용하여 계산한 분산은 다음과 같다. \[\begin{aligned} \sum_{k=0}^{4} f_k(m_k-\bar x_{\mathrm{mid}})^2 &= 1\cdot400+2\cdot100+4\cdot0+2\cdot100+1\cdot400=1200,\\[6pt] s^2_{\mathrm{mid}} &=\frac{1200}{10}=120 \end{aligned}\] 여기서 \[\frac{h^2}{12}=\frac{100}{12}\] 이므로, Sheppard 보정을 적용하면 \[s^2_{\mathrm{corr}}=120-\frac{100}{12}\approx 111.666\ldots\] 이 된다. 표본분산의 경우에는 \[S^2_{\mathrm{mid}}=\tfrac{1200}{9}\approx 133.\overline{3}\]이므로, 보정하면 \[S^2_{\mathrm{corr}}=S^2_{\mathrm{mid}}-\frac{100}{12}=125\] 가 된다. 평균은 동일하지만 분산은 감소함을 확인할 수 있다. 자료가 평균 부근에 모일수록, 혹은 \(h\)가 클수록 이 보정의 상대적 영향은 커진다.

이 보정을 사용하기 위해서는 몇 가지 전제가 필요하다. 계급의 크기가 모두 동일해야 하고, 기저 분포의 밀도가 지나치게 급변하지 않는 등 매끄러움이 요구된다. 양 끝이 열린 계급이나 심한 절단이 있을 때, 혹은 한 계급에 도수가 과도하게 몰릴 때에는 반올림 오차를 균일하고 독립적으로 볼 수 없으므로 보정량이 과소 또는 과대가 될 수 있다. 또한 자료의 개수가 극단적으로 작으면 근사가 거칠어질 수 있으므로 가능하면 원자료로 계산하는 편이 안전하다.

참고한 자료

  1. Wikipedia. “Sheppard’s correction.” Available at: https://en.wikipedia.org/wiki/Sheppard%27s_correction (accessed August 12, 2025).
  2. Weisstein, Eric W. “Sheppard’s Correction.” From MathWorld–A Wolfram Web Resource. Available at: https://mathworld.wolfram.com/SheppardsCorrection.html (accessed August 12, 2025).
  3. Statistics How To. “Sheppard’s Correction: Definition, Examples.” Available at: https://www.statisticshowto.com/sheppards-correction/ (accessed August 12, 2025).
  4. Wikipedia. “Freedman–Diaconis rule.” Available at: https://en.wikipedia.org/wiki/Freedman%E2%80%93Diaconis_rule (accessed August 12, 2025).