728x90

데이터 분석 7

9-2: 지도 시각화

11 지도 시각화 11-1 미국 주별 강력 범죄율 단계 구분도 만들기 #미국 주별 강력 범죄율 단계 구분도 만들기 1. 패키지 준비하기 2. 미국 주별 범죄 데이터 준비하기 3. 행이름을 변경하기 4. 미국 주 지도 데이터 준비하기 5. 단계 구분도 만들기 6. 인터랙티브 단계 구분도 만들기 11-2 대한민국 시도별 인구, 결핵 환자 수 단계 구분도 만들기 #대한민국 시도별 인구 단계 구분도 만들기 1. 패키지 준비하기 2. 대한민국 시도별 인구 데이터 준비하기 3. 변수명을 영문자로 바꾸기 4. 대한민국 시도 지도 데이터 준비하기 5. 단계 구분도 만들기 출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 280-287쪽

9-1 강: 텍스트 마이닝

10 텍스트 마이닝 10-1 힙합가사 텍스트 마이닝 * 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법 가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사 #텍스트 마이닝 준비하기 1. 패키지 준비하기 - 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기 -자바가 설치되어 있어야 함 2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함 -설치 후 로드 4. 사전 설정하기 5. 데이터 준비하기 6. 특수 문자 제거하기 # 가장 많이 사용된 단어 알아보기 1. 명사 추출하기 2. 데이터 프레임으로 변환, 변수명을 수정 3. 자주 사용된 단어 빈도표 만들기 df_word =2) 4. 빈도 순으로 정렬, 상위 2..

8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석

09-6 직업별 월급 차이-"어떤 직업이 월급을 가장 많이 받을까?" #직업 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리 3. left_join() 으로 job 변수를 welfare에 결합 # 직업별 월급 차이 분석하기 1. 직업별 월급 평균표 만들기 2. 내림차순으로 정렬 3. 그래프 만들기 -coord_flip() 가 표를 세로로 세워준다. 금속 재료 공학 전문가 및 시험원이 평균 845 만원으로 가장 많은 월급을 받고, 그 다음으로는 의료진료 전문가, 의회의원 고위공무원 및 공공단체 임원, 보험 및 금융관리자 순이다. 4. 하위 추출 가사 및 육아 도우미의 월급이 평균 80만원으로 가장 적다 그 뒤로는 임업관련 종사자, 기타서비스관련 단순 종사원, 청소원 및 환경 미화원 순이다. 상 ,..

7-1 강 : 데이터 분석 프로젝트- 성별에 따른 월급차이

09 데이터 분석 프로젝트- '한국인의 삶을 파악하라!' 09-1 '한국 복지 패널 데이터' 분석 준비하기 #데이터 분석 준비하기 1. 데이터 준비하기 1) 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드 2)프로젝트 폴더에 삽입하기 *해당파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고 있음 2. 패키지 설치 및 로드하기 3. 데이터 불러오기 4. 데이터 검토하기 head(welfare) tail(welfare) View(welfare) ... 보단 코딩북 보기 5. 변수명 바꾸기 데이터 분석 절차 1단계. 변수 검토 및 전처리 2단계. 변수 간 관계 분석 09-2 성별에 따른 월급 차이 - "성별에 ..

6강: R 그래프 만들기

08 그래프 만들기 08-1 R로 만들 수 있는 그래프 살펴보기 -> 2차원 그래프, 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트, 마우스 조작에 반응하는 인터랙티브 그래프 등 -> 산점도, 막대 그래프, 선 그래프, 상자 그림 등 08-2 산점도- 변수 간 관계 표현하기 *연속형, 연속형일때 사용 0. ggplot2 패키지 업로드 하기 library(ggplot2) 1. 배경 설정하기 2. 그래프 추가하기 3. 축 범위를 조정하는 설정 추가하기 08-3 막대그래프- 집단 간 차이 표현하기 #평균 막대 그래프 만들기 1. 집단별 평균표 만들기 2. 그래프 생성하기 3. 크기 순으로 정렬하기 #빈도 그래프 만들기 08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 ..

4강: R데이터 분석: 자유자재로 데이터 가공하기

06 자유자재로 데이터 가공하기 dplyr 함수 기능 filter() 행 추출 select() 열(변수)추출 arrange() 정렬 mutate() 변수추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 bind_rows() 데이터 합치기 06-2 조건에 맞는 데이터만 추출하기 *dplyr 패키지의 filter() 이용하여 데이터 추출하기 #조건에 맞는 데이터만 추출하기 1. dplyr 패키지를 로드한 후 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력하기 2. dplyr 패키지의 filter()로 1반 학생들의 데이터만 추출하기 3.같은 형식으로 2반 학생만 추출하여 보기 4. 변수가 '특정 값이 아닌 경우'에 해당하는 데이터 추출..

728x90