728x90

수업후기 23

9-1 강: 텍스트 마이닝

10 텍스트 마이닝 10-1 힙합가사 텍스트 마이닝 * 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법 가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사 #텍스트 마이닝 준비하기 1. 패키지 준비하기 - 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기 -자바가 설치되어 있어야 함 2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함 -설치 후 로드 4. 사전 설정하기 5. 데이터 준비하기 6. 특수 문자 제거하기 # 가장 많이 사용된 단어 알아보기 1. 명사 추출하기 2. 데이터 프레임으로 변환, 변수명을 수정 3. 자주 사용된 단어 빈도표 만들기 df_word =2) 4. 빈도 순으로 정렬, 상위 2..

8-2강 : 데이터 분석 프로젝트! - 종교 이혼율, 노년층 지역

09-8 종교 유무에 따른 이혼율-"종교가 있는 사람들은 이혼을 덜 할까?" #종교 변수 검토 및 전처리 하기 1. 변수검토하기 2. 전처리 #혼인 상태 변수 검토 및 전처리하기 1. 변수검토하기 2. 파생변수 만들기- 이혼 여부 값 내용 0 비해당(18세 미만) 1 유배우 2 사별 3 이혼 4 별거 5 미혼(18세 이상, 미혼모 포함) 6 기타(사망 등) #종교 유무에 따른 이혼율 분석하기 1. 종교 유무에 따른 이혼율 표 만들기 2. 이혼에 해당하는 값만 추출, 이혼율 표 만들기 3. 그래프 만들기 이혼율은 종교가 있는 경우 7.2% 종교가 없는 경우 8.3%로 나타났습니다. 따라서 종교가 없는 사람들이 이혼을 더 한다고 볼 수 있습니다. #연령대 및 종교 유무에 따른 이혼율 분석하기 1. 연령대별 ..

8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석

09-6 직업별 월급 차이-"어떤 직업이 월급을 가장 많이 받을까?" #직업 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리 3. left_join() 으로 job 변수를 welfare에 결합 # 직업별 월급 차이 분석하기 1. 직업별 월급 평균표 만들기 2. 내림차순으로 정렬 3. 그래프 만들기 -coord_flip() 가 표를 세로로 세워준다. 금속 재료 공학 전문가 및 시험원이 평균 845 만원으로 가장 많은 월급을 받고, 그 다음으로는 의료진료 전문가, 의회의원 고위공무원 및 공공단체 임원, 보험 및 금융관리자 순이다. 4. 하위 추출 가사 및 육아 도우미의 월급이 평균 80만원으로 가장 적다 그 뒤로는 임업관련 종사자, 기타서비스관련 단순 종사원, 청소원 및 환경 미화원 순이다. 상 ,..

7-2 강: 데이터 분석 프로젝트- 나이,연령대,연령대 및 성별에 따른 월급차이

09-3 나이와 월급의 관계 - "몇살 때 월급을 가장 많이 받을까?" #나이변수 검토 및 전처리 1. 변수 검토하기 2. 전처리 범위 모름/무응답 1900~2014 9999 3. 파생변수 만들기- 나이 #나이와 월급의 관계 분석 1. 나이에 따른 월급 평균표 만들기 2. 그래프 만들기 20대 초반에 100만원 가량의 월급을 받고, 이후 지속적으로 증가하는 추세를 보인다. 50대 무렵 300만원 초반대로 가장 많은 월급을 받고, 그 이후로 지속적으로 감소 70세 이후 20대보다 낮은 월급을 받는다. 09-4 연령대에 따른 월급차이-"어떤 연령대에서의 월급이 가장 많을까?" #연령대 변수 검토 및 전처리하기 -파생변수 만들기 - 연령대 qplot(welfare$ageg) #연령대에 따른 월급 차이 분석하기..

7-1 강 : 데이터 분석 프로젝트- 성별에 따른 월급차이

09 데이터 분석 프로젝트- '한국인의 삶을 파악하라!' 09-1 '한국 복지 패널 데이터' 분석 준비하기 #데이터 분석 준비하기 1. 데이터 준비하기 1) 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드 2)프로젝트 폴더에 삽입하기 *해당파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고 있음 2. 패키지 설치 및 로드하기 3. 데이터 불러오기 4. 데이터 검토하기 head(welfare) tail(welfare) View(welfare) ... 보단 코딩북 보기 5. 변수명 바꾸기 데이터 분석 절차 1단계. 변수 검토 및 전처리 2단계. 변수 간 관계 분석 09-2 성별에 따른 월급 차이 - "성별에 ..

6강: R 그래프 만들기

08 그래프 만들기 08-1 R로 만들 수 있는 그래프 살펴보기 -> 2차원 그래프, 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트, 마우스 조작에 반응하는 인터랙티브 그래프 등 -> 산점도, 막대 그래프, 선 그래프, 상자 그림 등 08-2 산점도- 변수 간 관계 표현하기 *연속형, 연속형일때 사용 0. ggplot2 패키지 업로드 하기 library(ggplot2) 1. 배경 설정하기 2. 그래프 추가하기 3. 축 범위를 조정하는 설정 추가하기 08-3 막대그래프- 집단 간 차이 표현하기 #평균 막대 그래프 만들기 1. 집단별 평균표 만들기 2. 그래프 생성하기 3. 크기 순으로 정렬하기 #빈도 그래프 만들기 08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 ..

5강: 데이터 정제

07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 07-1 빠진 데이터를 찾아라! -결측치 정제하기 #결측치 찾기 1. 결측지 가진 데이터 프레임 만들기 2. is.na() 사용하여 결측치 확인하기 3. is.na() 를 table()에 적용하면 데이터에 결측지가 몇 개 있는지 출력 4. 어떤 변수에 결측지가 있는지 알아야 결측지를 제거할 수 있다. 5. 결측지가 포함된 데이터를 함수에 적용하면 NA가 출력 #결측지 제거하기 1. 결측지 있는 행 제거하기 is.na() 를 filter()에 적용하면 결측지가 있는 행을 제거할 수 있다. 2. !is.na() 는 NA 가 아닌 값 3. 데이터 프레임로 만들면 결측지가 없는 데이터가 된다. 4. 여러 변수 동시에 결측치 없는 데이터 추출하기 5. 결..

R데이터 분석도전! -2탄

문제: 미국 동부중부 437개 지역의 인구통계 정보를 담고 있는 midwest 데이터를 사용해 데이터 분석문제를 해결하여 보자. midwest 는 ggplot2 패키지에 들어 있다. 문제1: popadults는 해당지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요. #데이터 불러오기 midwest %를 사용하기 위해 library(dplyr) 꼭 해주기 midwest % mutate(ratio_child=(poptotal-popadults)/poptotal*100) 문제2: 미성년 인구 백분율이 가장 높은 상위 5개 country의 미성년 인구백분율을 출력하세요. 문제3: 분류표의 각 기준에 따라 미성년 비율 등..

4강: R데이터 분석: 자유자재로 데이터 가공하기

06 자유자재로 데이터 가공하기 dplyr 함수 기능 filter() 행 추출 select() 열(변수)추출 arrange() 정렬 mutate() 변수추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 bind_rows() 데이터 합치기 06-2 조건에 맞는 데이터만 추출하기 *dplyr 패키지의 filter() 이용하여 데이터 추출하기 #조건에 맞는 데이터만 추출하기 1. dplyr 패키지를 로드한 후 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력하기 2. dplyr 패키지의 filter()로 1반 학생들의 데이터만 추출하기 3.같은 형식으로 2반 학생만 추출하여 보기 4. 변수가 '특정 값이 아닌 경우'에 해당하는 데이터 추출..

3강: R데이터 분석 기초, 변수타입

15-2 변수타입 1. 연속 변수- Numeric 타입 키, 몸무게, 소득처럼 연속적이고 크기를 의미하는 값, 평균과 같은 값을 구할 수 있음. 2. 범주 변수- Factor 타입 값이 대상을 분류하는 의미를 지는 변수, 예를들어 남자는 1 여자는 2, 평균과 같은 산술이 불가함. #변수 타입 간 차이 알아 보기 1. factor() 이용해 factor타입 변수 만들기 var1

728x90