스타의 도서관/통계학

통계상담결과보고서

스타(star) 2012. 11. 27. 05:01

요약보고서

2012년도 프로야구 선수들 중 MBC에서 제공하는 CassPoint의 상위 50위의 투수들을 가지고 기초통계량분석과 군집분석을 수행해본 결과입니다.

 

casspoint_pitcher.txt

 

- 기초통계량분석 및 회귀분석

총 상위 50명의 투수들의 각 변수들의 특징에서 주목할 만한 변수들을 살펴보았습니다. 세이브 투수의 품귀라고 할 수 있는데요. 50명의 투수 중에서 대부분이 10세이브도 거둘 수 없다는 것을 알 수 있습니다. 각 팀마다 한 명정도에 불과한 세이브 투수의 존재는 매우 희귀하지만, 그만큼 중요하다고 할 수 있겠습니다. 또한, 홀드역시 마찬가지인데요. 세이브까지는 아니지만 상당히 적은 수치를 기록하고 있습니다. 소화한 이닝에 관한 것은 매우 재미있는 결과과 나오는데요. 쌍봉으로 나뉘어져 있기 때문에 선발형과 마무리+중계형으로 나뉠 수 있지 않나 생각됩니다. 상위 50위권내의 대부분의 투수들은 3점대 안팍의 방어율을 가지고 있습니다.

 

- 군집분석

총 상위 50명의 투수들을 군집으로 묶어보면 크게 4개의 분류로 나뉘는걸 볼 수 있습니다. 재미있는 것은 마무리의 역할인데요. 4개의 분석 모두 군집1에 대부분 속해 있는 것을 알 수 있습니다. 마무리 투수, 중계, 셋업의 경우에는 대부분 명확한 구분이 가능합니다. 아마도 이들 투수들이 등장해야 하는 타이밍도 다르고, 요구하는 능력도 확실하기 때문입니다. 하지만, 선발 투수의 경우에는 군집 2,3,4 에 골고루 퍼져있습니다. 이 뜻은 좋은 선발 투수의 요건을 설명하는데는 몇가지 변수만으로는 해석이 안된다는 것을 말합니다.

 

분석기법

기초통계량의 경우에는 히스토그램을 통해 자료의 퍼짐 정도를 확인 하였습니다. 히스토그램은 양적 자료의 분포를 살펴 볼 때 사용되는 방법이며, 많은 양의 자료를 살펴 보는데 적합합니다.

군집분석의 경우 단일연결법, 완전연결법, 평균연결법, DIANA를 이용한 계층적 군집화를 이용했습니다. 단일연결법은 두 군집 사이에 가장 작은 거리를 취하는 방식입니다. 완전연결법은 두 군집 사이에 가장 먼 거리를 취하는 방식입니다. 평균연결법은 두 군집의 개체간 모든 거리의 평균을 거리로 취하는 방식입니다. DIANA는 분할방식으로 큰 군집을 둘로 나누는 계층적 군집화 방식입니다.

 

분석결과 및 해석

- 기초통계량분석 및 회귀분석

위의 변수들은 프로야구에서 사용되는 축약어 들이고 변수들은 다음과 같습니다.

순위 Ranking
이름 Name
누적총점 Cumulative score
순위변동 Position Change
보직 Job
구단 Team
승 W
패 L
세이브 S
홀드 HLD
이닝 IP
타자 BF
투구수 NP
타수 AB
피안타 H
사사구 BB
피홈런 HR
삼진 KK
실점 R
자책 ER
보크 BLK
폭투 WP
선발승 GSW
완봉 SO
완투 CG
블론세이브 BS
블론홀드 BHD
터프세이브 TS
방어율 ERA

 

총 50명의 선수들에게 측정한 결과는 다음과 같으며, 아래의 히스토그램입니다. 투수에게 가장 중요한 요건인 방어율을 계산하는데 이름이나 구단과 같은 변수들을 제외한 23개의 설명변수들을 이용하여 회귀모형을 만들어 보도록 하겠습니다.

par(mfrow=c(3,3))

summary(casspoint_pitcher)

hist(W)
hist(L)
hist(S)
hist(HLD)
hist(IP)
hist(BF)
hist(NP)
hist(AB)
hist(H)
hist(BB)
hist(HR)
hist(KK)
hist(R)
hist(ER)
hist(BLK)
hist(WP)
hist(GSW)
hist(SO)
hist(CG)
hist(BS)
hist(BHD)
hist(TS)
hist(ERA)

 

위에서 설명한 23개의 변수 모두 연속형이고, 자료의 크기가 충분히 크므로 히스토그램으로 변수들의 분포를 살펴보기로 하였습니다. 전반적으로 특이점은 없으며, 이 개체들 모두를 회귀모형 적합에 사용하기로 합니다. 하지만, 특이한 자료들이 막대한 영향을 미칠 수 잇으므로 선별제외 기준을 두기로 한다.

이닝 IP - 2이닝 이상
투구수 NP - 200개 이상
피안타 H - 20개 이상
삼진 KK - 2개 이상
보크 BLK - 삭제 
선발승 GSW - 1승 이상
완봉 SO - 삭제
완투 CG - 삭제
블론세이브 BS - 삭제
블론홀드 BHD - 삭제
터프세이브 TS - 삭제

 

- 군집분석

위의 23개 변수들을 토대로 군집화 해보기로 하였습니다. 군집화 방법으로는 계층적 군집화와 비계층적 군집화가 있는데 여기서는 계층적 군집화를 수행한 결과들을 가지고 분석하겠습니다. 계층적 군집화에서는 단일연결법, 완전연결법, 평균연결법 3가지 방식의 응집분석을 실시해보았습니다.

 

single=hclust(dist(casspoint_pitcher[,11:29]), method="single")
complete=hclust(dist(casspoint_pitcher[,11:29]), method="complete")
ave=hclust(dist(casspoint_pitcher[,11:29]), method="average")
diana=diana(casspoint_pitcher[,11:29])
plclust(single)
plclust(complete)
plclust(ave)
plclust(diana)
ir.single=cutree(single, 4)
ir.complete=cutree(complete, 4)
ir.ave=cutree(ave, 4)
ir.diana=cutree(diana, 4)

위의 결과를 토대로 투수들의 보직대로 군집을 4개로 나누어 구분해 본 것입니다.

table(casspoint_pitcher[,5], ir.single)

        ir.single
          1  2  3  4
  마무리  7  0  0  0
  선발    1 23  5  0
  셋업    5  0  0  0
  중계    7  0  1  1

 

 

 

 

위의 결과를 토대로 투수들의 보직대로 군집을 4개로 나누어 구분해 본 것입니다.

table(casspoint_pitcher[,5], ir.complete)
ir.complete
1 2 3 4
마무리 6 1 0 0
선발 0 6 6 17
셋업 0 5 0 0
중계 6 3 0 0

 

 

 

 

위의 결과를 토대로 투수들의 보직대로 군집을 4개로 나누어 구분해 본 것입니다.

table(casspoint_pitcher[,5], ir.ave)
        ir.ave
          1  2  3  4
  마무리  7  0  0  0
  선발    1 14  9  5
  셋업    5  0  0  0
  중계    8  0  0  1

 

 

아래는 분할 분석인 DIANA 방식으로 수행한 결과입니다. 이 방식의 경우 수행 할 때마다 분할하여 수행하므로 수행 결과가 좋지 못합니다.

 

 

 

 

위의 결과를 토대로 투수들의 보직대로 군집을 4개로 나누어 구분해 본 것입니다.

table(casspoint_pitcher[,5], ir.diana)
        ir.diana
          1  2  3  4
  마무리  7  0  0  0
  선발    0  6 12 11
  셋업    5  0  0  0
  중계    7  2  0  0

 

맺음말

방향 자체가 철저한 분석보다는 상담분석서의 양식과 내용을 만들어 내는 것에 있다고 보고 시간과 지식의 한계에 부딪혀 심도 깊은 분석이 이루어지지 못하였습니다. 기초통계량을 통해서 구하고자 했던 것은, 자료의 특징들을 조사하고, 회귀모형 적합을 구하는데 불필요한 변수들을 모아 선별제외 기준을 만드는 것이었습니다. 또한, 그렇게 추린 데이터를 토대로 투수들을 평가하는 중요 지표중의 하나인 방어율을 이루는 설명변수들의 회귀모형식을을 구하는 것이 목적이었습니다. 하지만, 기초통계량을 분석하는데 그쳤습니다. 회귀 모형을 구하는데 너무 많은 변수를 가지고 설명하려 했던 것이 무리가 아닐까 생각됩니다.

그 다음 군집분석을 통해서는 각기 투수의 성적에 따른 군집화 할 수 있는 변수들을 찾아내고 각 군집에 대한 특징과 의미를 찾아내려 했습니다만, 가진 모든 변수를 가지고 그룹을 나누는 것에 그쳤습니다. 선발, 중계, 셋업, 마무리 이렇게 투수들의 4개의 보직을 군집화하는 것이 목적이었지만, 너무 많은 변수들을 동원하는 바람에 쉽게 변수들을 설명해내지 못했던 것 같습니다.