통계학/기초 통계 / / 2023. 2. 6. 20:12

[기초 통계] 21. 분산과 표준편차: Variance and Standard Deviation

  통계학에서 어떤 확률변수의 분산(Variance)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하고 있는지를 나타내는 수치를 의미한다. 일반적으로 고등학교 확률과 통계 과정에서 배우는 분산의 종류는 두 가지로, 모분산(Population variance)과 표본분산(Sample variance)이 존재한다.

 

  이 포스트에서는 모분산과 표본분산의 차이, 그리고 확률변수의 분산을 구하는 방법을 알아보도록 한다.

 

  우선 모분산은 모집단(Population)의 분산으로, 모집단의 모든 데이터들의 편차(Deviation), 즉 데이터의 값에서 기댓값을 뺀 값인 편차를 각각 제곱하여 더한 후 모집단의 데이터 수 N으로 나눈 것을 모분산이라고 한다. 모분산은 곧 모집단의 각 데이터들의 편차 제곱의 기댓값이라고 할 수 있다.

 

  모분산은

 

$$ \sigma^{2} = \frac{\overset{N}{\underset{i=1}{\Sigma}} (x_{i} - \mu) }{N} $$

 

  위와 같은 기호로 표기하며, '시그마 제곱'이라고 읽는다.

 

  표본분산은 표본(Sample)의 분산으로, 모집단에서 임의로 추출된 표본의 모든 데이터들의 편차를 각각 제곱하여 더한 후 표본의 데이터 수에서 1을 뺀 n - 1로 나눈 것을 표본분산이라고 한다.

 

  표본분산은

 

$$ s^{2} = \frac{\overset{n}{\underset{i=1}{\Sigma}} (x_{i} - \bar{x}) }{N} $$

 

  위와 같은 기호로 표기하며, '에스 제곱'이라고 읽는다.

 

  모분산과 표본분산의 개념과는 별개로 기댓값의 개념을 활용하여 확률변수의 분산을 구할 수도 있다.

 

  이산확률변수 X의 확률분포함수 f(x)에 대한 분산은 아래와 같은 식을 활용하여 구할 수 있다.

 

$$ Var(X) = E[(x-\mu)^2] = \underset{x}{\Sigma} (x-\mu)^2 f(x) $$

 

 연속확률변수 X의 확률밀도함수 f(x)에 대한 분산은 아래와 같은 식을 활용하여 구할 수 있다.

 

$$ Var(X) = E[(x-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx $$

 

  위의 식을 변형하여 보다 간단하게 분산을 구할 수 있는 식도 존재한다.

 

$$ Var(X) = E(X^2) - [E(X)]^2 $$

 

  이렇게 계산된 분산들은 기본적으로 제곱수이기 때문에, 확률변수의 실질적인 편차치를 나타내는 수로 변환하기 위해서는 제곱근을 씌워줘야 한다. 이렇게 분산에 제곱근을 씌운 값을 표준편차(Standard deviation)이라고 부른다.

 

$$ \sigma^2 = Var(X) $$

$$ \sigma = \sqrt{Var(X)} $$

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유