통계학/기초 통계 / / 2023. 2. 7. 14:06

[기초 통계] 22. 공분산: Covariance

  공분산(Covariance)은 두 확률변수 사이의 선형 관계를 나타내는 값이다. 예를 들어 두 확률변수 X와 Y 사이의 공분산이 양수인 경우, X가 증가하면 Y도 증가한다. 두 확률변수 사이의 공분산이 음수인 경우, X가 증가하면 Y는 감소한다.

 

  공분산은 기댓값의 일종으로, 아래와 같은 식으로 정의될 수 있다.

 

$$ Cov(X, Y) = E[(X - \mu_{x})(Y - \mu_{y})] $$

 

  (X - μ)와 (Y - μ)는 각각 해당 확률변수들의 편차를 의미한다. 즉, 공분산은 두 확률변수의 편차들의 곱의 기댓값이라고 할 수 있다.

 

  공분산은 아래와 같은 기호로도 표현할 수 있다.

 

$$ \sigma_{XY} $$

 

  이산확률변수 X, Y의 공분산은 아래와 같은 식으로 구할 수 있다.

 

$$ \begin{align} \sigma_{XY} & = E[(X - \mu_{x})(Y - \mu_{y})] \\ & = \underset{x}{\Sigma} \underset{y}{\Sigma} (x - \mu_{x})(y - \mu_{y})f(x,y) \end{align} $$

 

  연속확률변수 X, Y의 공분산은 아래와 같은 식으로 구할 수 있다.

 

$$ \begin{align} \sigma_{XY} & = E[(X - \mu_{x})(Y - \mu_{y})] \\ & = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_{x})(y - \mu_{y}) \cdot f(x,y) dx dy \end{align} $$

 

  공분산도 분산과 마찬가지로 기댓값의 정의를 활용하여 복잡한 식에서 보다 간략화되어 쉽게 공분산을 구할 수 있는 식이 존재한다.

 

  아래와 같은 식으로 보다 쉽게 공분산을 구할 수 있다.

 

$$ \sigma_{XY} = E(XY) - E(X)E(Y) $$

 

  공분산은 기댓값의 성질에서 비롯된 여러 가지 성질을 가지고 있다. 그 여러 가지 성질들을 간략히 정리하면 아래와 같은 한 가지 식으로 정리할 수 있다.

 

  a, b, c, d가 임의의 실수인 상수라고 할 때, 공분산은 아래와 같은 성질을 가지고 있다.

 

$$ Cov(aX + b, cY + d) = acCov(X, Y) $$

 

  확률변수 앞의 계수들은 그대로 공분산의 계수로 치환하여 앞으로 빼서 계산해 주면 되고, 계수가 아닌 상수는 없는 것으로 취급하여 계산해 주면 된다.

 

  만약 같은 확률변수 X 두 개가 존재한다고 할 때, 그에 대한 공분산은 아래와 같다.

 

$$ Cov(X, X) = Var(X) $$

 

  즉 두 확률변수 X의 공분산은 X 하나의 분산과 같다.

 

  이러한 '같은 확률변수들의 공분산'을 계산하는 케이스에선 위의 성질을 아래와 같이 적용시켜 줄 수 있다.

 

$$ Cov(aX + b, cX + d) = acVar(X) $$

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유