9-2: 지도 시각화
·
수업후기/확률과 통계
11 지도 시각화 11-1 미국 주별 강력 범죄율 단계 구분도 만들기 #미국 주별 강력 범죄율 단계 구분도 만들기 1. 패키지 준비하기 2. 미국 주별 범죄 데이터 준비하기 3. 행이름을 변경하기 4. 미국 주 지도 데이터 준비하기 5. 단계 구분도 만들기 6. 인터랙티브 단계 구분도 만들기 11-2 대한민국 시도별 인구, 결핵 환자 수 단계 구분도 만들기 #대한민국 시도별 인구 단계 구분도 만들기 1. 패키지 준비하기 2. 대한민국 시도별 인구 데이터 준비하기 3. 변수명을 영문자로 바꾸기 4. 대한민국 시도 지도 데이터 준비하기 5. 단계 구분도 만들기 출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 280-287쪽
9-1 강: 텍스트 마이닝
·
수업후기/확률과 통계
10 텍스트 마이닝 10-1 힙합가사 텍스트 마이닝 * 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법 가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사 #텍스트 마이닝 준비하기 1. 패키지 준비하기 - 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기 -자바가 설치되어 있어야 함 2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함 -설치 후 로드 4. 사전 설정하기 5. 데이터 준비하기 6. 특수 문자 제거하기 # 가장 많이 사용된 단어 알아보기 1. 명사 추출하기 2. 데이터 프레임으로 변환, 변수명을 수정 3. 자주 사용된 단어 빈도표 만들기 df_word =2) 4. 빈도 순으로 정렬, 상위 2..
8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석
·
수업후기/확률과 통계
09-6 직업별 월급 차이-"어떤 직업이 월급을 가장 많이 받을까?" #직업 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리 3. left_join() 으로 job 변수를 welfare에 결합 # 직업별 월급 차이 분석하기 1. 직업별 월급 평균표 만들기 2. 내림차순으로 정렬 3. 그래프 만들기 -coord_flip() 가 표를 세로로 세워준다. 금속 재료 공학 전문가 및 시험원이 평균 845 만원으로 가장 많은 월급을 받고, 그 다음으로는 의료진료 전문가, 의회의원 고위공무원 및 공공단체 임원, 보험 및 금융관리자 순이다. 4. 하위 추출 가사 및 육아 도우미의 월급이 평균 80만원으로 가장 적다 그 뒤로는 임업관련 종사자, 기타서비스관련 단순 종사원, 청소원 및 환경 미화원 순이다. 상 ,..
7-1 강 : 데이터 분석 프로젝트- 성별에 따른 월급차이
·
수업후기/확률과 통계
09 데이터 분석 프로젝트- '한국인의 삶을 파악하라!' 09-1 '한국 복지 패널 데이터' 분석 준비하기 #데이터 분석 준비하기 1. 데이터 준비하기 1) 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드 2)프로젝트 폴더에 삽입하기 *해당파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고 있음 2. 패키지 설치 및 로드하기 3. 데이터 불러오기 4. 데이터 검토하기 head(welfare) tail(welfare) View(welfare) ... 보단 코딩북 보기 5. 변수명 바꾸기 데이터 분석 절차 1단계. 변수 검토 및 전처리 2단계. 변수 간 관계 분석 09-2 성별에 따른 월급 차이 - "성별에 ..
6강: R 그래프 만들기
·
수업후기/확률과 통계
08 그래프 만들기 08-1 R로 만들 수 있는 그래프 살펴보기 -> 2차원 그래프, 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트, 마우스 조작에 반응하는 인터랙티브 그래프 등 -> 산점도, 막대 그래프, 선 그래프, 상자 그림 등 08-2 산점도- 변수 간 관계 표현하기 *연속형, 연속형일때 사용 0. ggplot2 패키지 업로드 하기 library(ggplot2) 1. 배경 설정하기 2. 그래프 추가하기 3. 축 범위를 조정하는 설정 추가하기 08-3 막대그래프- 집단 간 차이 표현하기 #평균 막대 그래프 만들기 1. 집단별 평균표 만들기 2. 그래프 생성하기 3. 크기 순으로 정렬하기 #빈도 그래프 만들기 08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 ..
4강: R데이터 분석: 자유자재로 데이터 가공하기
·
수업후기/확률과 통계
06 자유자재로 데이터 가공하기 dplyr 함수 기능 filter() 행 추출 select() 열(변수)추출 arrange() 정렬 mutate() 변수추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 bind_rows() 데이터 합치기 06-2 조건에 맞는 데이터만 추출하기 *dplyr 패키지의 filter() 이용하여 데이터 추출하기 #조건에 맞는 데이터만 추출하기 1. dplyr 패키지를 로드한 후 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력하기 2. dplyr 패키지의 filter()로 1반 학생들의 데이터만 추출하기 3.같은 형식으로 2반 학생만 추출하여 보기 4. 변수가 '특정 값이 아닌 경우'에 해당하는 데이터 추출..
R데이터 분석도전! -1탄
·
수업후기/데이터 분석 도전! 문제풀이
문제: ggplot2 패키지에 있는 midwest 데이터를 이용하여 데이터 분석하기 1. 데이터를 불러오기 (1) ggplot2 패키지를 설치하기 install.packages("ggplot2") (2) ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러오기 midwest