스타의 도서관/통계학 25

오픈소스 통계 패키지 2012 R User Conferenced 강연 자료와 논문 모음

정보는 공유되어야 가치가 나는 법이죠. 작년에 공부 할 때 모았던 통계패키지 R을 이용한 강연 자료와 논문 모음집입니다. 게임 업게 종사하시는 분들은 NCSOFT 이은조님(http://agbird.egloos.com/)의 "R을 이용한 게임 데이터 분석" 한번 보세요. 재 작년에 따로 만나서 게임과 데이터 분석에 대해 이야기도 나눠본 적 있는데 상당히 흥미로운 분석을 합니다.어뷰징, 작업장 유저들을 차단하는 법과 탐지 모델에 대해서 이야기 나눠본 적 있는데요. 만만치 않은 작업이라고 생각됩니다. 유저의 outlier 행동들을 파악하고 분석해야 하는데, 이 부분은 빅 데이터 분석이니까 가능한 부분들이 분명 존재합니다. 정제하는 과정에서 작업장 유저들의 이상 행동 모델들을 만들어 내고, 최종 판단은 로지스틱..

오픈 소스 통계 분석툴인 R을 이용한 빅데이터 분석 활용 자료들

스타입니다.빅데이터 분석과 오픈소스 통계패키지 R을 연동해서 분석하는 프로세스를 공부했을 때 봤던 세미나 자료들입니다. 어짜피 지식은 공유되고 널리 알려져야 더 의미가 있다고 생각합니다. 오픈소스 통계 패키지 R은 발전 가능성이 무궁무진합니다. 빅데이터 분석과 궁합이 꽤 잘맞는다고 보는데요. 문제가 하나 있어요. 사용자 중심적이지가 못해요. 불편하다는 말입니다. 중간에 응용 프로그래머들이나 훨씬 쉽게만 기획자들 아니, 통계 분석가들 원하는 스타일로 개발만 해준다면, 충분히 사용 가능하다는 거죠. 다 좋은데, 여기서 비용이 문제에요. 일단, R 잘쓰는 사람만 해도 구하기 어려울 뿐더러, 통계에 대해서 아 이런 자료가 필요할 때 이런 통계적 분석을 해야지 하는 것도 판단하기 어렵고, 거기다가 대용량 처리 시..

빅데이터에 대한 소개 문서들.

스타입니다.제가 가지고 있던 빅데이터에 관한 소개 문서들 공유해 드립니다. 사실, 제가 가지고 있는 문서들만 읽어보시더라도, 대략 빅데이터에 대한 개념은 잡히실 것이고, 기업이나 환경에 어떻게 적용해야 할지 기대하는 바가 무엇인지 대략적인 파악을 하실 수 있을 것입니다. 대부분 자료출처는, 예전 포럼이나 협회에서 세미나 다니면서 기업체들 홍보 및 전략 자료들이구요. 괜찮은 자료들은 추후에 집중적으로 분석하고 리뷰해드리도록 하겠습니다.

구글 애널리틱스를 통한 분석. 편식 블로거에 대한 위험성. - 블로그 유입 경로 분석

블로그 유입률이 꾸준히 상승세를 그리다가 최근 갑자기 도드라지게 하향세를 타고 있다. 여러가지 다각도로 분석을 해봐도 애매하기가 그지 없었다. 왜냐면, 포스팅 횟수도 평균 이상이고, 주제들도 나름 전략적으로 접근했다고 생각했기 때문이다. - 블로그 유입 경로에 대한 분석아래 스샷은 최근 내 블로그에 유입해온 유입로그를 분석해온 것인데, 정말이지 최근에 들어온 키워드 들은 도대체가 두서가 없다. 이 블로그가 주인장 생각으로는 스타트업/리더쉽/이미지메이킹을 표방하는 블로그이긴 한데 정작 유입은 엉뚱한 곳에서 일어나고 있다. 이 부분이 매우 나에게 고민을 안겨다 주었다. - 구글 애널리틱스이 자료를 조금 더 뒷받침 할 수 있는 다음 자료를 한번 들여다 보자. 아래는 구글 애널리틱스에서 이 사이트에 대한 유입률..

Google Analytics 계정 생성 및 티스토리 블로그에 추적정보 넣기

안녕하세요. 스타입니다. 오늘은 구글 애널리틱 본격적으로 사이트에 심어 보도록 하겠습니다. 구글 애널리틱스 홈페이지에 들어갑니다.http://www.google.com/analytics/ 여기에서 말하는 계정은 구글 애널리틱스 계정을 말합니다.우리는 오늘 처음 구글 애널리틱스 기능을 홈페이지에 심어 놓는 거기 때문에 [계정 만들기]를 하면 되겠죠?그럼 다음과 같은 화면이 나옵니다. 구글 애널리틱스은 다음과 같이 웹사이트와 앱에서 상호작용들을 추적할 수 있습니다.그리고, 아직 기능 구현중이지만, 범용 웹로그 분석 서비스를 이용합니다. 다음 화면으로는 웹 속성에 대해서 설정하는 화면입니다.간단하게 내가 구분 할 수 있도록 웹사이트 이름과 URL을 적어 주시면 됩니다.저는 제 블로그를 분석할 예정이기 때문에 ..

구글 애널리틱스(Google Analytics)란 무엇인가?

안녕하세요. 스타입니다. 어제 친구와 이야기 하던 도중. 구글 애널리틱스에 관한 내용을 처음 들었었죠. 정보통계학과인 저 같은 경우에는 상당히 흥미가 가는 내용입니다. 일단, 이 서비스가 뭐냐면, 내 웹페이지에 들어오는 트래픽에 Log Data를 남겨서 방문객들에 대한 분석을 할 수 있는 서비스입니다. 이걸 분석하면, 현재 내 홈페이지에 어떤 키워드로 들어오는지, 어떤 컨텐츠가 인기 있는지, 방문자들은 어떤 사이트로 Exit 하는지 흐름을 알 수 있겠죠. 구글 애널리스틱 사이트 http://www.google.com/intl/ko_ALL/analytics/ 다양한 정보와 그 분석을 통해 의사 결정에 대한 도움을 줄 수 있겠죠. 제 전공 분야이기도 하고요. 앞으로 구글 애널리스틱에 대해 기능을 하나씩 살펴..

R을 이용한 통계 분석 - 특이점 진단

회귀 분석에서 중요한 가정 중에 하나는 자료에 포함된 관측값에 대해 사용된 모형이 적절해야 한다는 것입니다. 그러나 실제 자료에서는 1~2개의 자료들이 모형을 따르지 않는 경우가 있는데요. 이러한 관측값을 특이점 또는 이상점이라고 부릅니다. 다음은 R을 통해 관측값을 분석해 보도록 하겠습니다. 포브스의 1857년 논문에서 발췌한 것으로 물 끓는 온도는 화씨를, 대기 압력의 각각 단위로 기록된 측정치입니다. 포브스는 물 끓는 온도와 대기 압력에 로그를 취한 값 사이에는 선형관계가 존재한다고 하였습니다. 대기 압력에 로그를 취한 값에 단위를 맞추기 위해 100을 곱한 값을 반응 변수로 하여 분석해 보겠습니다. 데이터를 일단 불러 옵니다.> forbes attach(forbes) # plot으로 온도와 대기압..

데이터 사이언티스트

작년 겨울에 나의 진로와 방향을 생각하는 시간을 가지면서 수 많은 사람들을 만나보았다. 그러던 과정 중에 N모사의 응용기술과학분야의 한 팀장님과 저녁식사를 할 기회를 가졌는데, 빅데이터 분석에 대한 전망 또는 현재 안고 있는 문제와 현안에 대해 심도깊은 이야기를 나눌 수 있었다.한창 이야기를 나누다가 자연 스럽게 '데이터 사이언티스트'에 대한 이야기를 들을 수 있었다. [알아봅시다] 빅데이터시대 인재, 데이터 사이언티스트http://www.dt.co.kr/contents.html?article_no=2012090702011860746002 결론부터 말하자면, 아직 시장에서도 명확히 정의를 내리기가 힘든 분야이고, 한창 개척하는 분야임에는 틀림없다. 데이터 마이너에서 사이언티스트로 바뀐 과정에는 아마도, ..

R을 이용한 통계 분석 - 단순회귀분석

단순회귀모형은 이 모형을 회귀계수로 볼 때도 선형이고, 독립변수로 볼 때도 선형이며, 독립변수가 단 하나뿐이므로 단순회귀 모형이라고 합니다. 이번에는 R을 이용해서 간단히 회귀 분석을 해보도록 하겠습니다. 이번에 사용할 데이터 입니다. 광고료에 따른 효과에 관한 데이터 파일입니다. #데이터를 market이라는 변수에 넣기> market market.out summary(market.out) 이를 입력하면 다음과 같은 출력 결과물들을 얻게 됩니다. 하나씩 분석해 보겠습니다. 회귀모형 잔차의 다섯수치요약입니다. 최소, 1사분위수, 중앙값, 3사분위수, 최대값을 보여줍니다. 추정값은 적합된 회귀계수를 나타냅니다. 표준 오차는 회귀계수의 표준 오차를, t값은 회귀곗가 0인지를 검정하기 위한 t-통계량이고, Pr..

통계상담의뢰서

통계상담의뢰서 1. 인적사항 이름 김인권 연락처 010-0000-0000 2. 상담일시 상담의뢰일 2012년 11월 26일 상담완료일 2012년 11월 27일 3. 보고 상담료 일억원 보고서파일명 - casspoint_분석.pages 4. 상담내용 - 프로야구의 CassPoint 상위 50인명의 투수들의 성적에 대한 정보들을 알고 싶다. - 높은 방어율을 가진 투수들의 조건이 무엇인지 알고 싶다. - 좋은 투수들을 고르는 조건은 무엇인가? - 각 투수들의 보직별에 따른 차이가 무엇이 있을까? - 과연 이러한 성적을 가진 투수들의 보직에는 어떤 것이 어울릴까? 5. 학술 자료공개 상담내용공개

통계상담결과보고서

요약보고서 2012년도 프로야구 선수들 중 MBC에서 제공하는 CassPoint의 상위 50위의 투수들을 가지고 기초통계량분석과 군집분석을 수행해본 결과입니다. - 기초통계량분석 및 회귀분석 총 상위 50명의 투수들의 각 변수들의 특징에서 주목할 만한 변수들을 살펴보았습니다. 세이브 투수의 품귀라고 할 수 있는데요. 50명의 투수 중에서 대부분이 10세이브도 거둘 수 없다는 것을 알 수 있습니다. 각 팀마다 한 명정도에 불과한 세이브 투수의 존재는 매우 희귀하지만, 그만큼 중요하다고 할 수 있겠습니다. 또한, 홀드역시 마찬가지인데요. 세이브까지는 아니지만 상당히 적은 수치를 기록하고 있습니다. 소화한 이닝에 관한 것은 매우 재미있는 결과과 나오는데요. 쌍봉으로 나뉘어져 있기 때문에 선발형과 마무리+중계형..

R을 이용한 통계 분석 - 나무모형

나무모형은 규칙의 형태로 자료를 나눌 수 있는 노드를 구성하고, 그 노드 내에 속하는 훈련자료의 구성비 등을 이용해 예측 모형을 구성하는 것입니다. 나무모형은 다른 모형에 비해 설명력이 높으나 불안정성으로 가지치기 등의 작업을 통해 최적의 모형을 도출해 내야합니다. R을 이용해 나무모형을 구하기 위해서는 먼저 R 패키지의 tree를 설치해야 합니다.그리고 분석할 데이터는 R에 자체적으로 기록되어 있는 피셔의 붓꽃자료를 이용하겠습니다. R의 Data Manager에 검색해 보면 iris 라는 데이터가 존재합니다. #tree라는 패키지를 설치 합니다. > install.packages("tree") > library(tree)# iris를 바로 입력하면 데이터가 출력됩니다. 붓꽃 자료를 나무모형으로 만듭니다..

R을 이용한 통계 분석 - 연관규칙

흔히 장바구니 분석이라고 하죠. 마트나 쇼핑몰 판매자들이 궁금해 할 수 있는 정보들입니다. 1. 고객들은 어떤 상품들을 동시에 구매하는가?2. 라면을 구매한 고객은 주로 다른 어떤 상품을 구매하는가? 위와 같은 질문에 대한 분석을 토대로 고객들에게 SMS를 보낸다든가, 판촉용 전화를 한다든가 묶음 판매를 기획 하고 그러겠죠. 이와 같은 질문에 대한 답은 연관규칙을 이용하여 구할 수 있습니다. 연관규칙은 상업 데이터베이스에서 가장 흔히 쓰이는 도구로, 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미합니다. 연관규칙의 평가 측도는 다음과 같은 것들이 있습니다.1. 지지율지지율을 A를 사고 나서 B가 얼마나 발새하는지 나타낸다. 자주 발생하지 않는 규칙을 제거하는데 주로 이용한다...

R을 이용한 통계 분석 - 히스토그램, 밀도그림

히스토그램 - 연속형 자료에서 도수분포표를 기초로 하여 각 계급에 대해 범주형 자료에서 막대그래프와 같은 모양의 그림을 히스토그램이라 합니다. 히스토그램은 양적 자료의 분포를 살펴 볼 때 사용 되는 것으로 많은 양의 자료를 살펴 볼 때 적합합니다. 다음은 A대학의 통계학과 졸업 대상자 40명의 졸업 전공 시험이다. 위의 데이터로 히스토그램을 그려보자.# 데이터 입력finaltestscore = c(190,119,114,176,135,178,158,160,147,194,126,145,162,174,178,131,162,154,106,157,182,152,136,165,161,95,115,184,166,115,145,174,144,138,171,98,143,133,167,137) # 히스토그램을 그리게 됩니..

R을 이용한 통계 분석 - 상자그림, 이상치(Outlier) 의 파악

이번에는 상자그림을 그리고, 이상치(Outlier)를 파악하는 패키지를 설치 해보도록 하겠습니다. 아래는 69개국의 출생률과 사망률을 조사한 데이터입니다. # rates로 자료를 읽어들입니다.> rates = read.table("~/Downloads/datamine_data/chap2/birth.txt", header=T) # 오브젝트의 변수를 접근할 수 있도록 합니다.> attach(rates) #출생률과 사망률 상자그림 생성> boxplot(birth, death, names=c("Birth", "Death"))> title("Birth and Death Boxplot") 위의 코드를 수행하니 다음과 같은 결과를 얻게 되었습니다. 분석을 해보면, 전반적으로 출생률이 사망률보다 앞서고 있고, 분산의 ..

R을 이용한 통계 분석 - 기술통계량 구하기

수집된 자료의 대표값이나 변동의 크기 등을 요약하여 특정한 수치로 나타낸 것을 기술 통계량이라고 한다. 통계를 배우기 시작하면 가장 먼저 배우는 내용들중에 하나이다. 기술 통계량은 다음과 같은 것들을 구하게 된다.- 중심위치의 측도평균(mean) - 중심위치의 측도 중에서 가장 많이 사용 하는 방법. 모든 관측값의 합계를 자료의 개수로 나누어 구한다.중앙값(median) - 전체 자료값을 가장 작은 값에서 크기순으로 배열하여 가운데에 위치하는 값.사분위수 - 자료의 크기 순으로 정리하여 4등분 하는 값들. - 산포의 측도분산과 표준편차 - 자료가 얼마나 흩어져있는가를 구함. 자료값과 평균의 떨어진 거리를 편차라고 한다. 편차의 제곱을 분산이라 부른다. 분산의 단위를 원래자료와 같은 단위로 측정하기 위해 ..

물가지수 구하기(라스파이레스 산식, 파셰 산식)

소비자가 구입하는 품목의 가격과 수량이 다음과 같습니다. 2005년 1월을 기준시점으로 하여 2007년 1월의 물가지수를 라스파이레스 산식 및 파세 산식을 이용하여 구해보겠습니다. 물가지수를 구하려면, 기준 연도의 물가와 비교연도의 물가를 비교해야 합니다. 물가를 가르는 상품이 여러 종류일 때는 서로의 생산 가격과 생산 수량을 감안하여야 합니다. 이 때, 기준 시 가격을 적용한 것을 라스파이레스 산식이라고 하고, 비교 시 가격을 적용한 것을 파셰 산식이라고 합니다. 라스파이레스 산식의 공식은 다음과 같습니다. (2007년 가격*2005년 수량)합계/(2005년 가격*2005년 수량)합계 * 100 위의 도표의 수치들을 적용해서 계산해 보면. = (14940*2.5 + 5140*3 + 828*150)/(1..

연도별 명목임금상승률과 실질임금상승률

- 소비자물가상승률과 실질임금상승률을 비교 명목임금을 기준으로 먼저 소비자 물가지수를 나누어서 소비자 물가 상승률을 계산해 보면 위와 같이 꾸준히 상승하는 것처럼 보입니다. 하지만, 아래와 같은 그래프를 보게 되면 조금 다르게 생각해볼 필요가 있습니다. 예를 들어 1996년의 명목임금은 1,367,501에서 1,463,300으로 7%에 가까운 상승을 하였다고 이야기 하고 있습니다. 하지만, 물가가 4.5%나 상승하였기 때문에 실질임금 상승률은 2.4%에 그치고 있습니다. 만약 위와 같은 상황을 마주치는 것이 직장인의 경우 매년 연봉협상이 될 것입니다. 실제로 제시받은 연봉에서 몇%의 상승 폭을 제시 받았는지에 정확하게 알고 싶다면, 소비자 물가상승률을 감안하여 따져 실질적인 연봉인상 금액을 알 수 있게 ..

경제활동 인구조사(실업률과 고용율의 차이)

최근 경제활동인구조사 결과를 공표할 때 실업률과 고용률을 함께 공표하고 있습니다.(1) 실업률과 고용률의 정의 및 차이점, 고용률이 필요한 이유 실업률이란 경제 활동 인구(취업자+실업자)에서 실업자가 차지하는 비율을 말합니다. 실업률을 구하는 계산식은 = 실업자수/경제활동 인구 * 100 위와 같은 공식을 가집니다. 고용률이란 생산가능한 인구(만 15세 이상의 인구)에서 일자리를 가지고 있는 사람의 비율을 말합니다. 고용률을 구하는 공식은 = 취업자 수/15세 이상 인구 * 100 위와 같은 공식을 가지게 됩니다. 여기서 실업자에 대한 정의는 조사대상 주간에 수입이 발생하는 일에 전혀 종사하지 못하고, 적극적으로 구직활동을 했으며, 일자리가 생기면 즉시 일을 시작할 수 있는 사람을 말합니다. 자발적인 실..

생산자 물가지수와 소비자 물가지수의 비교 설명

- 생산자물가지수와 소비자물가지수의 조사목적, 시기, 조사항목, 조사방법 등 차이점을 정리- 두 조사의 2009년 1월 조사부터 2011년 12월 조사까지의 월별 지수 변화의 동향을 비교하여 설명 생산자 물가지수는 국내에서 생산하여 국내 시장에 출하되는 모든 재화와 서비스 요금의 변동을 측정하기 위해 작성하는 지수입니다. 매월 국내 시장에서 출하되는 재화와 서비스요금의 공장도가격의 변동을 측정하여 생산자의 부담 등 측정에 활용합니다. 조사하는 항목은 상품 부분 801개, 서비스 부문 83개 등 총 884개의 품목입니다. 소비자 물가지수는 도시가계가 일상생활을 영위하기 위해 구입하는 재화와 서비스 요금의 변동을 종합적으로 측정하기 위해 작성하는 지수입니다. 매월 상품가격과 서비스 요금의 변동을 측정하고 물..

R을 이용한 통계 분석 - 두 모평균 비교

두 모평균의 검정을 위해서는 두 모집단의 분산이 같은 경우와 다른 경우에 따라 검정 통계량의 차이가 있기 때문에, 두 모분산의 검정결과를 먼저 보여주고, 두 모평균을 검정하게 됩니다. 금년도 대졸 사원의 초임의 표본자료로부터 남녀별로 초임이 같다고 볼 수 있는지 유의수준 5%로 가설 검정하라. H0 : u1-u2 = 0, H1 : u1-u2 ≠0 위와같은 데이터를 다시 한번 로드하겠습니다. ex

R을 이용한 통계 분석 - 모평균의 t검정

작년도 대기업의 대졸 신입 사원 월임금은 평균 160만원 이었다. 금년도 대졸자의 초임을 알아보기 위하여 15명을 단순확률 추출하여 성별과 월임금을 조사하니 다음과 같다. ex salary 1 163 1 162 2 157 1 172 1 161 2 165 1 162 2 165 1 158 1 159 2 160 2 161 2 165 1 168 1 170 이 자료를 통해 대졸 신입 초임이 작년보다 인상되었는지 유의수준 5%로 가설 검정하라. 우선 이 가설은 H0 : u = 160만원 - 귀무가설 H1 : u > 160만원 - 대립가설이다. 위와 같은 텍스트 파일을 만들고, 테이블을 로드해 오겠습니다. ex

통계 패키지 R에 대한 소개

통계 패키지란 복잡한 통계적인 절차와 연산을 대신 해주는 자료분석 프로그램입니다. 이런 통계 패키지는 참 많습니다. SAS, SPSS, MINITAB, EXCEL, QUATTRO, R 등등...... 저마다 적합한 형태로 발전하여 다양한 곳에서 이용되고 있습니다.우리가 제일 많이 사용하는 마이크로소프트사의 엑셀은 매우 훌륭한 통계 패키지라고 할 수 있습니다. 한정지어서 설명하기는 매우 위험하긴 하지만, 산업분야에 대해서 자주 사용하는 통계패키지가 존재합니다. SAS는 행동과학 분야, SPSS는 사회과학과 마케팅, BMDP와 SAS는 경영학 등에서 주로 사용됩니다. 하지만, 이런 특수한 영역에서의 프로그램은 최근 줄어드는 추세이고, 범용적이고 다양한 자료 분석에 대응 할 수 있도록 진화해가고 있습니다. 어..