r 9

오픈소스 통계 패키지 2012 R User Conferenced 강연 자료와 논문 모음

정보는 공유되어야 가치가 나는 법이죠. 작년에 공부 할 때 모았던 통계패키지 R을 이용한 강연 자료와 논문 모음집입니다. 게임 업게 종사하시는 분들은 NCSOFT 이은조님(http://agbird.egloos.com/)의 "R을 이용한 게임 데이터 분석" 한번 보세요. 재 작년에 따로 만나서 게임과 데이터 분석에 대해 이야기도 나눠본 적 있는데 상당히 흥미로운 분석을 합니다.어뷰징, 작업장 유저들을 차단하는 법과 탐지 모델에 대해서 이야기 나눠본 적 있는데요. 만만치 않은 작업이라고 생각됩니다. 유저의 outlier 행동들을 파악하고 분석해야 하는데, 이 부분은 빅 데이터 분석이니까 가능한 부분들이 분명 존재합니다. 정제하는 과정에서 작업장 유저들의 이상 행동 모델들을 만들어 내고, 최종 판단은 로지스틱..

오픈 소스 통계 분석툴인 R을 이용한 빅데이터 분석 활용 자료들

스타입니다.빅데이터 분석과 오픈소스 통계패키지 R을 연동해서 분석하는 프로세스를 공부했을 때 봤던 세미나 자료들입니다. 어짜피 지식은 공유되고 널리 알려져야 더 의미가 있다고 생각합니다. 오픈소스 통계 패키지 R은 발전 가능성이 무궁무진합니다. 빅데이터 분석과 궁합이 꽤 잘맞는다고 보는데요. 문제가 하나 있어요. 사용자 중심적이지가 못해요. 불편하다는 말입니다. 중간에 응용 프로그래머들이나 훨씬 쉽게만 기획자들 아니, 통계 분석가들 원하는 스타일로 개발만 해준다면, 충분히 사용 가능하다는 거죠. 다 좋은데, 여기서 비용이 문제에요. 일단, R 잘쓰는 사람만 해도 구하기 어려울 뿐더러, 통계에 대해서 아 이런 자료가 필요할 때 이런 통계적 분석을 해야지 하는 것도 판단하기 어렵고, 거기다가 대용량 처리 시..

R을 이용한 통계 분석 - 단순회귀분석

단순회귀모형은 이 모형을 회귀계수로 볼 때도 선형이고, 독립변수로 볼 때도 선형이며, 독립변수가 단 하나뿐이므로 단순회귀 모형이라고 합니다. 이번에는 R을 이용해서 간단히 회귀 분석을 해보도록 하겠습니다. 이번에 사용할 데이터 입니다. 광고료에 따른 효과에 관한 데이터 파일입니다. #데이터를 market이라는 변수에 넣기> market market.out summary(market.out) 이를 입력하면 다음과 같은 출력 결과물들을 얻게 됩니다. 하나씩 분석해 보겠습니다. 회귀모형 잔차의 다섯수치요약입니다. 최소, 1사분위수, 중앙값, 3사분위수, 최대값을 보여줍니다. 추정값은 적합된 회귀계수를 나타냅니다. 표준 오차는 회귀계수의 표준 오차를, t값은 회귀곗가 0인지를 검정하기 위한 t-통계량이고, Pr..

R을 이용한 통계 분석 - 나무모형

나무모형은 규칙의 형태로 자료를 나눌 수 있는 노드를 구성하고, 그 노드 내에 속하는 훈련자료의 구성비 등을 이용해 예측 모형을 구성하는 것입니다. 나무모형은 다른 모형에 비해 설명력이 높으나 불안정성으로 가지치기 등의 작업을 통해 최적의 모형을 도출해 내야합니다. R을 이용해 나무모형을 구하기 위해서는 먼저 R 패키지의 tree를 설치해야 합니다.그리고 분석할 데이터는 R에 자체적으로 기록되어 있는 피셔의 붓꽃자료를 이용하겠습니다. R의 Data Manager에 검색해 보면 iris 라는 데이터가 존재합니다. #tree라는 패키지를 설치 합니다. > install.packages("tree") > library(tree)# iris를 바로 입력하면 데이터가 출력됩니다. 붓꽃 자료를 나무모형으로 만듭니다..

R을 이용한 통계 분석 - 연관규칙

흔히 장바구니 분석이라고 하죠. 마트나 쇼핑몰 판매자들이 궁금해 할 수 있는 정보들입니다. 1. 고객들은 어떤 상품들을 동시에 구매하는가?2. 라면을 구매한 고객은 주로 다른 어떤 상품을 구매하는가? 위와 같은 질문에 대한 분석을 토대로 고객들에게 SMS를 보낸다든가, 판촉용 전화를 한다든가 묶음 판매를 기획 하고 그러겠죠. 이와 같은 질문에 대한 답은 연관규칙을 이용하여 구할 수 있습니다. 연관규칙은 상업 데이터베이스에서 가장 흔히 쓰이는 도구로, 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미합니다. 연관규칙의 평가 측도는 다음과 같은 것들이 있습니다.1. 지지율지지율을 A를 사고 나서 B가 얼마나 발새하는지 나타낸다. 자주 발생하지 않는 규칙을 제거하는데 주로 이용한다...

R을 이용한 통계 분석 - 히스토그램, 밀도그림

히스토그램 - 연속형 자료에서 도수분포표를 기초로 하여 각 계급에 대해 범주형 자료에서 막대그래프와 같은 모양의 그림을 히스토그램이라 합니다. 히스토그램은 양적 자료의 분포를 살펴 볼 때 사용 되는 것으로 많은 양의 자료를 살펴 볼 때 적합합니다. 다음은 A대학의 통계학과 졸업 대상자 40명의 졸업 전공 시험이다. 위의 데이터로 히스토그램을 그려보자.# 데이터 입력finaltestscore = c(190,119,114,176,135,178,158,160,147,194,126,145,162,174,178,131,162,154,106,157,182,152,136,165,161,95,115,184,166,115,145,174,144,138,171,98,143,133,167,137) # 히스토그램을 그리게 됩니..

R을 이용한 통계 분석 - 상자그림, 이상치(Outlier) 의 파악

이번에는 상자그림을 그리고, 이상치(Outlier)를 파악하는 패키지를 설치 해보도록 하겠습니다. 아래는 69개국의 출생률과 사망률을 조사한 데이터입니다. # rates로 자료를 읽어들입니다.> rates = read.table("~/Downloads/datamine_data/chap2/birth.txt", header=T) # 오브젝트의 변수를 접근할 수 있도록 합니다.> attach(rates) #출생률과 사망률 상자그림 생성> boxplot(birth, death, names=c("Birth", "Death"))> title("Birth and Death Boxplot") 위의 코드를 수행하니 다음과 같은 결과를 얻게 되었습니다. 분석을 해보면, 전반적으로 출생률이 사망률보다 앞서고 있고, 분산의 ..

R을 이용한 통계 분석 - 기술통계량 구하기

수집된 자료의 대표값이나 변동의 크기 등을 요약하여 특정한 수치로 나타낸 것을 기술 통계량이라고 한다. 통계를 배우기 시작하면 가장 먼저 배우는 내용들중에 하나이다. 기술 통계량은 다음과 같은 것들을 구하게 된다.- 중심위치의 측도평균(mean) - 중심위치의 측도 중에서 가장 많이 사용 하는 방법. 모든 관측값의 합계를 자료의 개수로 나누어 구한다.중앙값(median) - 전체 자료값을 가장 작은 값에서 크기순으로 배열하여 가운데에 위치하는 값.사분위수 - 자료의 크기 순으로 정리하여 4등분 하는 값들. - 산포의 측도분산과 표준편차 - 자료가 얼마나 흩어져있는가를 구함. 자료값과 평균의 떨어진 거리를 편차라고 한다. 편차의 제곱을 분산이라 부른다. 분산의 단위를 원래자료와 같은 단위로 측정하기 위해 ..

통계 패키지 R에 대한 소개

통계 패키지란 복잡한 통계적인 절차와 연산을 대신 해주는 자료분석 프로그램입니다. 이런 통계 패키지는 참 많습니다. SAS, SPSS, MINITAB, EXCEL, QUATTRO, R 등등...... 저마다 적합한 형태로 발전하여 다양한 곳에서 이용되고 있습니다.우리가 제일 많이 사용하는 마이크로소프트사의 엑셀은 매우 훌륭한 통계 패키지라고 할 수 있습니다. 한정지어서 설명하기는 매우 위험하긴 하지만, 산업분야에 대해서 자주 사용하는 통계패키지가 존재합니다. SAS는 행동과학 분야, SPSS는 사회과학과 마케팅, BMDP와 SAS는 경영학 등에서 주로 사용됩니다. 하지만, 이런 특수한 영역에서의 프로그램은 최근 줄어드는 추세이고, 범용적이고 다양한 자료 분석에 대응 할 수 있도록 진화해가고 있습니다. 어..