통계학/기초 통계 / / 2023. 2. 7. 15:21

[기초 통계] 23. 상관계수: Correlation Coefficient

  상관계수(Correlation Coefficient)는 두 확률변수 간의 관계의 척도를 나타내는 수치이다. 쉽게 말해 상관계수의 절댓값이 1에 가까울 수록 두 확률변수는 서로 매우 강한 상관관계를 가지고, 상관계수의 절댓값이 0에 가까울 수록 두 확률변수는 서로 상관관계가 거의 없다고 여겨진다.

 

  상관계수는 공분산과 비슷한 개념이지만, 공분산보다 더욱 포괄적인 개념이라고 볼 수 있다. 공분산은 각 확률변수의 단위(km, kg 등)가 공분산에 포함되기 때문에, 그 결과에 있어서 명확하지 못한 단점이 있다. 반면 상관계수는 단위에 상관없이 두 확률변수 간의 관계를 확실하게 나타낼 수 있다는 장점이 있다.

 

  상관계수의 정의는 공분산과 표준편차를 활용하여 아래와 같이 나타낼 수 있다.

 

$$ \rho_{XY} = \frac{\sigma_{xy}}{\sigma_{x} \sigma_{y}} $$

 

  $ \sigma_{xy} $는 모집단 X와 모집단 Y의 공분산, $ \sigma_{x} $는 모집단 X의 표준편차, $ \sigma_{y} $는 모집단 Y의 표준편차이다.

 

  상관계수의 범위는 1부터 -1까지로, 1에 가까울 수록 서로 양의 상관관계를 가지고 -1에 가까울 수록 서로 음의 상관관계를 가진다고 할 수 있다. 상관계수가 0에 가까울 수록 서로 상관관계가 약하거나 없다고 말할 수 있다.

 

  두 확률변수가 서로 독립이면 두 확률변수의 상관계수는 0이다. 하지만 그 역은 성립하지 않는다. 즉, 상관계수가 0이더라도 두 확률변수가 서로 독립이 아닐 수도 있다.

 

  아래 도식을 살펴보면 상관계수에 따른 두 확률변수 사이의 데이터의 분포가 어떻게 이루어지는지 쉽게 이해할 수 있다.

 

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유