공분산(Covariance)은 두 확률변수 사이의 선형 관계를 나타내는 값이다. 예를 들어 두 확률변수 X와 Y 사이의 공분산이 양수인 경우, X가 증가하면 Y도 증가한다. 두 확률변수 사이의 공분산이 음수인 경우, X가 증가하면 Y는 감소한다.
공분산은 기댓값의 일종으로, 아래와 같은 식으로 정의될 수 있다.
$$ Cov(X, Y) = E[(X - \mu_{x})(Y - \mu_{y})] $$
(X - μ)와 (Y - μ)는 각각 해당 확률변수들의 편차를 의미한다. 즉, 공분산은 두 확률변수의 편차들의 곱의 기댓값이라고 할 수 있다.
공분산은 아래와 같은 기호로도 표현할 수 있다.
$$ \sigma_{XY} $$
이산확률변수 X, Y의 공분산은 아래와 같은 식으로 구할 수 있다.
$$ \begin{align} \sigma_{XY} & = E[(X - \mu_{x})(Y - \mu_{y})] \\ & = \underset{x}{\Sigma} \underset{y}{\Sigma} (x - \mu_{x})(y - \mu_{y})f(x,y) \end{align} $$
연속확률변수 X, Y의 공분산은 아래와 같은 식으로 구할 수 있다.
$$ \begin{align} \sigma_{XY} & = E[(X - \mu_{x})(Y - \mu_{y})] \\ & = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_{x})(y - \mu_{y}) \cdot f(x,y) dx dy \end{align} $$
공분산도 분산과 마찬가지로 기댓값의 정의를 활용하여 복잡한 식에서 보다 간략화되어 쉽게 공분산을 구할 수 있는 식이 존재한다.
아래와 같은 식으로 보다 쉽게 공분산을 구할 수 있다.
$$ \sigma_{XY} = E(XY) - E(X)E(Y) $$
공분산은 기댓값의 성질에서 비롯된 여러 가지 성질을 가지고 있다. 그 여러 가지 성질들을 간략히 정리하면 아래와 같은 한 가지 식으로 정리할 수 있다.
a, b, c, d가 임의의 실수인 상수라고 할 때, 공분산은 아래와 같은 성질을 가지고 있다.
$$ Cov(aX + b, cY + d) = acCov(X, Y) $$
확률변수 앞의 계수들은 그대로 공분산의 계수로 치환하여 앞으로 빼서 계산해 주면 되고, 계수가 아닌 상수는 없는 것으로 취급하여 계산해 주면 된다.
만약 같은 확률변수 X 두 개가 존재한다고 할 때, 그에 대한 공분산은 아래와 같다.
$$ Cov(X, X) = Var(X) $$
즉 두 확률변수 X의 공분산은 X 하나의 분산과 같다.
이러한 '같은 확률변수들의 공분산'을 계산하는 케이스에선 위의 성질을 아래와 같이 적용시켜 줄 수 있다.
$$ Cov(aX + b, cX + d) = acVar(X) $$
'통계학 > 기초 통계' 카테고리의 다른 글
[기초 통계] 24. 마르코프 부등식: Markov's Inequality (0) | 2023.02.07 |
---|---|
[기초 통계] 23. 상관계수: Correlation Coefficient (0) | 2023.02.07 |
[기초 통계] 21. 분산과 표준편차: Variance and Standard Deviation (0) | 2023.02.06 |
[기초 통계] 20. 기댓값: Expected Value (0) | 2023.02.05 |
[기초 통계] 19. 조건부 분포: Conditional Distribution (0) | 2023.02.02 |