스타의 도서관/통계학

R을 이용한 통계 분석 - 기술통계량 구하기

스타(star) 2012. 11. 14. 02:39



수집된 자료의 대표값이나 변동의 크기 등을 요약하여 특정한 수치로 나타낸 것을 기술 통계량이라고 한다. 

통계를 배우기 시작하면 가장 먼저 배우는 내용들중에 하나이다. 


기술 통계량은 다음과 같은 것들을 구하게 된다.

- 중심위치의 측도

평균(mean) - 중심위치의 측도 중에서 가장 많이 사용 하는 방법. 모든 관측값의 합계를 자료의 개수로 나누어 구한다.

중앙값(median) - 전체 자료값을 가장 작은 값에서 크기순으로 배열하여 가운데에 위치하는 값.

사분위수 - 자료의 크기 순으로 정리하여 4등분 하는 값들.


- 산포의 측도

분산과 표준편차 - 자료가 얼마나 흩어져있는가를 구함. 자료값과 평균의 떨어진 거리를 편차라고 한다. 편차의 제곱을 분산이라 부른다. 분산의 단위를 원래자료와 같은 단위로 측정하기 위해 제곱근을 사용한 것이 표준편차.

범위와 사분위수 범위 - 자료를 크기순으로 배열해서 가장 큰 값과 가장 작은 자료값의 차이를 말함. 관측값으로 걸쳐지는 구간의 크기. 상하위 25%의 차이를 사분위수 범위라고 부름. 


R에서 기술통계량을 구하는 명령어들은 다음과 같다.

일단 데이터 세팅은 다음과 같이 한다.


9, 12, 11, 11, 7, 12, 6, 11, 4, 10, 10, 11, 9, 10

7, 10, 8, 8, 9, 8, 11, 9, 8, 6, 10, 6, 8, 11


위의 데이터들을 a라는 이름의 변수로 저장한다.

a = c(9, 12, 11, 11, 7, 12, 6, 11, 4, 10, 10, 11, 9, 10, 7, 10, 8, 8, 9, 8, 11, 9, 8, 6, 10, 6, 8, 11)


평균을 구한다.

mean(a) 


중앙값을 구한다.

median(a)


분산을 구한다.

var(a)


표준평차를 구한다.

sd(a)


범위를 구한다.

range = max(a) - min(a)


위의 값들을 실제로 입력해본 결과는 다음과 같다.

결과를 정리하면 다음과 같다.

평균 : 9

중앙값 : 9

분산 : 4.148148

표준편차 : 2.0367

범위 : 8

다섯수치 요약수:

최소값4, 1사분위수8, 중앙값9, 3사분위수11, 최대값12