통계학/기초 통계 / / 2023. 1. 19. 16:30

[기초 통계] 4. 자료의 종류: Type of Data

 통계학에서 다루는 데이터, 즉 자료는 유형에 따라 크게 두 가지로 나눌 수 있다. 첫 번째는 수치형 자료(Numerical data), 두 번째는 범주형 자료(Categorical data)이다.

 

  수치형 자료는 대한민국의 인구 50,000,000명, 사람의 몸무게 65.2kg과 같이 숫자로 나타낼 수 있는 자료를 수치형 자료라고 부른다. 이 수치형 자료에는 두 가지 세부 유형이 존재한다.

 

  세부 유형 중 첫 번째는 이산형 자료(Discrete data)라고 하고, 두 번째는 연속형 자료(Continuous data)라고 한다. 이 둘은 데이터가 1명, 2명, 3명과 같이 자료가 정수로 나누어 떨어지는가, 아니면 168.3cm과 같이 자료가 정수 이외에도 소수의 형태도 취할 수 있는가에 따라 달라진다.

 

  이산형 자료는 1명, 2명, 3명과 같이 정수로 나누어 떨어지는 유형의 수치형 자료를 말한다. 예를 들어서 어느 학교의 한 반에 키가 150cm가 넘는 남학생의 수는 15명일 때, 이는 이산형 자료이다.

 

  이산형 자료의 예시로는 사람의 인원, 제품의 개수, 특정 사건의 발생 횟수 등이 있다.

 

  연속형 자료는 153.7cm, 165.2cm와 같이 소수로 나타낼 수 있는 유형의 수치형 자료를 말한다. 예를 들어서 어느 학교의 한 반에 있는 학생들의 평균 몸무게 65.6kg은 연속형 자료이다.

 

  연속형 자료의 예시로는 시간, 신장, 무게 등이 있다.

 

  범주형 자료는 성별(남 / 녀), 나이(10대 / 20대 / 30대), 혈액형(A / B / O / AB)과 같이 특정 범주로 나눌 수 있는 자료를 범주형 자료라고 부른다. 이 범주형 자료에도 두 가지 세부 유형이 존재한다.

 

  세부 유형 중 첫 번째는 명목형 자료(Nominal data)라고 하고, 두 번째는 순서형 자료(Ordinal data)라고 한다. 이 둘은 자료를 나누는 범주가 서로 간에 순서가 존재하는가, 존재하지 않는가에 따라 달라진다.

 

  명목형 자료는 성별, 나이, 혈액형과 같이 범주 간에 순서가 존재하지 않는 유형의 범주형 자료를 말한다.

 

  순서형 자료는 선호도(매우 좋음 / 좋음 / 보통 / 나쁨 / 매우 나쁨), 평점(5점 / 4점 / 3점 / 2점 / 1점)과 같이 범주 간에 순서가 존재하는 유형의 범주형 자료를 말한다.

 

  이를 정리하면 아래와 같다.

 

 

  범주형 자료는 각 범주마다 숫자를 매겨 수치형 자료로 표시하는 것이 가능하다. 예를 들어서 남녀의 범주에 각각 0과 1을 부여하여 남자는 0, 여자는 1로 표기하는 것이 가능하다. 그러나 이렇게 수치형 자료로 변환된 범주형 자료에 수치형 자료의 기준을 적용하여 보기는 어렵다. 남자가 0, 여자가 1의 숫자를 부여하였다고 해서 여자가 남자보다 낫다는 뜻이 될 수는 없다. 그러므로 자료 해석 시 수치형 자료로 표시된 범주형 자료를 다른 일반적인 수치형 자료와 구분하는 것이 필요하다.

 

  아래는 자료의 종류에 대한 간단한 예제이다.

 

 

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유