728x90
09 데이터 분석 프로젝트- '한국인의 삶을 파악하라!'
09-1 '한국 복지 패널 데이터' 분석 준비하기
#데이터 분석 준비하기
728x90
1. 데이터 준비하기
1) 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드
2)프로젝트 폴더에 삽입하기
*해당파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고 있음
2. 패키지 설치 및 로드하기
3. 데이터 불러오기
4. 데이터 검토하기
head(welfare)
tail(welfare)
View(welfare)
...
보단 코딩북 보기
5. 변수명 바꾸기
데이터 분석 절차
1단계. 변수 검토 및 전처리
2단계. 변수 간 관계 분석
09-2 성별에 따른 월급 차이 - "성별에 따라 월급이 다를까?"
#성별 변수 검토 및 전처리
1. 변수 검토하기
2. 전처리
<코딩북>
값 | 내용 |
1 | 남 |
2 | 여 |
9 | 모름/무응답 |
table 했을 때 9의 값이 없었으므로 이상치를 결측치로 바꾸고 제거할 필요가 없다.
변수의 값 1를 male 로 2를 female 로 바꾸자
# 월급 변수 검토 및 전처리
1. 변수 검토하기
income 은 0~2400만원 사이의 값을 지니며 대다수를 차지하는 0~1000 까지의 값이 잘 나오지 않아 x 값의 범위를 설정해 주었다.
2. 전처리
<코드북>
범위 | 모름/무응답 |
1~9998 | 9999 |
#이상치 확인
1~9998 이어야 하데 최소가 0으로 되어있다.
#성별에 따른 월급 차이 분석하기
1. 성별 월급 평균표 만들기
2. 그래프 만들기
<결과>
남성의 월급이 여성의 두 배 가까이 될 정도로 많다는 것을 알 수 있습니다.
출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 209-219쪽
728x90
'수업후기 > 확률과 통계' 카테고리의 다른 글
8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석 (0) | 2019.05.16 |
---|---|
7-2 강: 데이터 분석 프로젝트- 나이,연령대,연령대 및 성별에 따른 월급차이 (0) | 2019.05.15 |
6강: R 그래프 만들기 (0) | 2019.04.18 |
5강: 데이터 정제 (0) | 2019.04.14 |
4강: R데이터 분석: 자유자재로 데이터 가공하기 (0) | 2019.04.11 |