데이터마이닝 7

Google Analytics 계정 생성 및 티스토리 블로그에 추적정보 넣기

안녕하세요. 스타입니다. 오늘은 구글 애널리틱 본격적으로 사이트에 심어 보도록 하겠습니다. 구글 애널리틱스 홈페이지에 들어갑니다.http://www.google.com/analytics/ 여기에서 말하는 계정은 구글 애널리틱스 계정을 말합니다.우리는 오늘 처음 구글 애널리틱스 기능을 홈페이지에 심어 놓는 거기 때문에 [계정 만들기]를 하면 되겠죠?그럼 다음과 같은 화면이 나옵니다. 구글 애널리틱스은 다음과 같이 웹사이트와 앱에서 상호작용들을 추적할 수 있습니다.그리고, 아직 기능 구현중이지만, 범용 웹로그 분석 서비스를 이용합니다. 다음 화면으로는 웹 속성에 대해서 설정하는 화면입니다.간단하게 내가 구분 할 수 있도록 웹사이트 이름과 URL을 적어 주시면 됩니다.저는 제 블로그를 분석할 예정이기 때문에 ..

구글 애널리틱스(Google Analytics)란 무엇인가?

안녕하세요. 스타입니다. 어제 친구와 이야기 하던 도중. 구글 애널리틱스에 관한 내용을 처음 들었었죠. 정보통계학과인 저 같은 경우에는 상당히 흥미가 가는 내용입니다. 일단, 이 서비스가 뭐냐면, 내 웹페이지에 들어오는 트래픽에 Log Data를 남겨서 방문객들에 대한 분석을 할 수 있는 서비스입니다. 이걸 분석하면, 현재 내 홈페이지에 어떤 키워드로 들어오는지, 어떤 컨텐츠가 인기 있는지, 방문자들은 어떤 사이트로 Exit 하는지 흐름을 알 수 있겠죠. 구글 애널리스틱 사이트 http://www.google.com/intl/ko_ALL/analytics/ 다양한 정보와 그 분석을 통해 의사 결정에 대한 도움을 줄 수 있겠죠. 제 전공 분야이기도 하고요. 앞으로 구글 애널리스틱에 대해 기능을 하나씩 살펴..

통계상담결과보고서

요약보고서 2012년도 프로야구 선수들 중 MBC에서 제공하는 CassPoint의 상위 50위의 투수들을 가지고 기초통계량분석과 군집분석을 수행해본 결과입니다. - 기초통계량분석 및 회귀분석 총 상위 50명의 투수들의 각 변수들의 특징에서 주목할 만한 변수들을 살펴보았습니다. 세이브 투수의 품귀라고 할 수 있는데요. 50명의 투수 중에서 대부분이 10세이브도 거둘 수 없다는 것을 알 수 있습니다. 각 팀마다 한 명정도에 불과한 세이브 투수의 존재는 매우 희귀하지만, 그만큼 중요하다고 할 수 있겠습니다. 또한, 홀드역시 마찬가지인데요. 세이브까지는 아니지만 상당히 적은 수치를 기록하고 있습니다. 소화한 이닝에 관한 것은 매우 재미있는 결과과 나오는데요. 쌍봉으로 나뉘어져 있기 때문에 선발형과 마무리+중계형..

R을 이용한 통계 분석 - 나무모형

나무모형은 규칙의 형태로 자료를 나눌 수 있는 노드를 구성하고, 그 노드 내에 속하는 훈련자료의 구성비 등을 이용해 예측 모형을 구성하는 것입니다. 나무모형은 다른 모형에 비해 설명력이 높으나 불안정성으로 가지치기 등의 작업을 통해 최적의 모형을 도출해 내야합니다. R을 이용해 나무모형을 구하기 위해서는 먼저 R 패키지의 tree를 설치해야 합니다.그리고 분석할 데이터는 R에 자체적으로 기록되어 있는 피셔의 붓꽃자료를 이용하겠습니다. R의 Data Manager에 검색해 보면 iris 라는 데이터가 존재합니다. #tree라는 패키지를 설치 합니다. > install.packages("tree") > library(tree)# iris를 바로 입력하면 데이터가 출력됩니다. 붓꽃 자료를 나무모형으로 만듭니다..

R을 이용한 통계 분석 - 연관규칙

흔히 장바구니 분석이라고 하죠. 마트나 쇼핑몰 판매자들이 궁금해 할 수 있는 정보들입니다. 1. 고객들은 어떤 상품들을 동시에 구매하는가?2. 라면을 구매한 고객은 주로 다른 어떤 상품을 구매하는가? 위와 같은 질문에 대한 분석을 토대로 고객들에게 SMS를 보낸다든가, 판촉용 전화를 한다든가 묶음 판매를 기획 하고 그러겠죠. 이와 같은 질문에 대한 답은 연관규칙을 이용하여 구할 수 있습니다. 연관규칙은 상업 데이터베이스에서 가장 흔히 쓰이는 도구로, 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미합니다. 연관규칙의 평가 측도는 다음과 같은 것들이 있습니다.1. 지지율지지율을 A를 사고 나서 B가 얼마나 발새하는지 나타낸다. 자주 발생하지 않는 규칙을 제거하는데 주로 이용한다...

R을 이용한 통계 분석 - 상자그림, 이상치(Outlier) 의 파악

이번에는 상자그림을 그리고, 이상치(Outlier)를 파악하는 패키지를 설치 해보도록 하겠습니다. 아래는 69개국의 출생률과 사망률을 조사한 데이터입니다. # rates로 자료를 읽어들입니다.> rates = read.table("~/Downloads/datamine_data/chap2/birth.txt", header=T) # 오브젝트의 변수를 접근할 수 있도록 합니다.> attach(rates) #출생률과 사망률 상자그림 생성> boxplot(birth, death, names=c("Birth", "Death"))> title("Birth and Death Boxplot") 위의 코드를 수행하니 다음과 같은 결과를 얻게 되었습니다. 분석을 해보면, 전반적으로 출생률이 사망률보다 앞서고 있고, 분산의 ..