상관계수(Correlation Coefficient)는 두 확률변수 간의 관계의 척도를 나타내는 수치이다. 쉽게 말해 상관계수의 절댓값이 1에 가까울 수록 두 확률변수는 서로 매우 강한 상관관계를 가지고, 상관계수의 절댓값이 0에 가까울 수록 두 확률변수는 서로 상관관계가 거의 없다고 여겨진다.
상관계수는 공분산과 비슷한 개념이지만, 공분산보다 더욱 포괄적인 개념이라고 볼 수 있다. 공분산은 각 확률변수의 단위(km, kg 등)가 공분산에 포함되기 때문에, 그 결과에 있어서 명확하지 못한 단점이 있다. 반면 상관계수는 단위에 상관없이 두 확률변수 간의 관계를 확실하게 나타낼 수 있다는 장점이 있다.
상관계수의 정의는 공분산과 표준편차를 활용하여 아래와 같이 나타낼 수 있다.
$$ \rho_{XY} = \frac{\sigma_{xy}}{\sigma_{x} \sigma_{y}} $$
$ \sigma_{xy} $는 모집단 X와 모집단 Y의 공분산, $ \sigma_{x} $는 모집단 X의 표준편차, $ \sigma_{y} $는 모집단 Y의 표준편차이다.
상관계수의 범위는 1부터 -1까지로, 1에 가까울 수록 서로 양의 상관관계를 가지고 -1에 가까울 수록 서로 음의 상관관계를 가진다고 할 수 있다. 상관계수가 0에 가까울 수록 서로 상관관계가 약하거나 없다고 말할 수 있다.
두 확률변수가 서로 독립이면 두 확률변수의 상관계수는 0이다. 하지만 그 역은 성립하지 않는다. 즉, 상관계수가 0이더라도 두 확률변수가 서로 독립이 아닐 수도 있다.
아래 도식을 살펴보면 상관계수에 따른 두 확률변수 사이의 데이터의 분포가 어떻게 이루어지는지 쉽게 이해할 수 있다.
'통계학 > 기초 통계' 카테고리의 다른 글
[기초 통계] 25. 체비쇼프 부등식: Chebyshev's Inequality (0) | 2023.02.08 |
---|---|
[기초 통계] 24. 마르코프 부등식: Markov's Inequality (0) | 2023.02.07 |
[기초 통계] 22. 공분산: Covariance (0) | 2023.02.07 |
[기초 통계] 21. 분산과 표준편차: Variance and Standard Deviation (0) | 2023.02.06 |
[기초 통계] 20. 기댓값: Expected Value (0) | 2023.02.05 |