728x90

수업후기/확률과 통계 18

7-2 강: 데이터 분석 프로젝트- 나이,연령대,연령대 및 성별에 따른 월급차이

09-3 나이와 월급의 관계 - "몇살 때 월급을 가장 많이 받을까?" #나이변수 검토 및 전처리 1. 변수 검토하기 2. 전처리 범위 모름/무응답 1900~2014 9999 3. 파생변수 만들기- 나이 #나이와 월급의 관계 분석 1. 나이에 따른 월급 평균표 만들기 2. 그래프 만들기 20대 초반에 100만원 가량의 월급을 받고, 이후 지속적으로 증가하는 추세를 보인다. 50대 무렵 300만원 초반대로 가장 많은 월급을 받고, 그 이후로 지속적으로 감소 70세 이후 20대보다 낮은 월급을 받는다. 09-4 연령대에 따른 월급차이-"어떤 연령대에서의 월급이 가장 많을까?" #연령대 변수 검토 및 전처리하기 -파생변수 만들기 - 연령대 qplot(welfare$ageg) #연령대에 따른 월급 차이 분석하기..

7-1 강 : 데이터 분석 프로젝트- 성별에 따른 월급차이

09 데이터 분석 프로젝트- '한국인의 삶을 파악하라!' 09-1 '한국 복지 패널 데이터' 분석 준비하기 #데이터 분석 준비하기 1. 데이터 준비하기 1) 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드 2)프로젝트 폴더에 삽입하기 *해당파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고 있음 2. 패키지 설치 및 로드하기 3. 데이터 불러오기 4. 데이터 검토하기 head(welfare) tail(welfare) View(welfare) ... 보단 코딩북 보기 5. 변수명 바꾸기 데이터 분석 절차 1단계. 변수 검토 및 전처리 2단계. 변수 간 관계 분석 09-2 성별에 따른 월급 차이 - "성별에 ..

6강: R 그래프 만들기

08 그래프 만들기 08-1 R로 만들 수 있는 그래프 살펴보기 -> 2차원 그래프, 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트, 마우스 조작에 반응하는 인터랙티브 그래프 등 -> 산점도, 막대 그래프, 선 그래프, 상자 그림 등 08-2 산점도- 변수 간 관계 표현하기 *연속형, 연속형일때 사용 0. ggplot2 패키지 업로드 하기 library(ggplot2) 1. 배경 설정하기 2. 그래프 추가하기 3. 축 범위를 조정하는 설정 추가하기 08-3 막대그래프- 집단 간 차이 표현하기 #평균 막대 그래프 만들기 1. 집단별 평균표 만들기 2. 그래프 생성하기 3. 크기 순으로 정렬하기 #빈도 그래프 만들기 08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 ..

5강: 데이터 정제

07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 07-1 빠진 데이터를 찾아라! -결측치 정제하기 #결측치 찾기 1. 결측지 가진 데이터 프레임 만들기 2. is.na() 사용하여 결측치 확인하기 3. is.na() 를 table()에 적용하면 데이터에 결측지가 몇 개 있는지 출력 4. 어떤 변수에 결측지가 있는지 알아야 결측지를 제거할 수 있다. 5. 결측지가 포함된 데이터를 함수에 적용하면 NA가 출력 #결측지 제거하기 1. 결측지 있는 행 제거하기 is.na() 를 filter()에 적용하면 결측지가 있는 행을 제거할 수 있다. 2. !is.na() 는 NA 가 아닌 값 3. 데이터 프레임로 만들면 결측지가 없는 데이터가 된다. 4. 여러 변수 동시에 결측치 없는 데이터 추출하기 5. 결..

4강: R데이터 분석: 자유자재로 데이터 가공하기

06 자유자재로 데이터 가공하기 dplyr 함수 기능 filter() 행 추출 select() 열(변수)추출 arrange() 정렬 mutate() 변수추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 bind_rows() 데이터 합치기 06-2 조건에 맞는 데이터만 추출하기 *dplyr 패키지의 filter() 이용하여 데이터 추출하기 #조건에 맞는 데이터만 추출하기 1. dplyr 패키지를 로드한 후 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력하기 2. dplyr 패키지의 filter()로 1반 학생들의 데이터만 추출하기 3.같은 형식으로 2반 학생만 추출하여 보기 4. 변수가 '특정 값이 아닌 경우'에 해당하는 데이터 추출..

3강: R데이터 분석 기초, 변수타입

15-2 변수타입 1. 연속 변수- Numeric 타입 키, 몸무게, 소득처럼 연속적이고 크기를 의미하는 값, 평균과 같은 값을 구할 수 있음. 2. 범주 변수- Factor 타입 값이 대상을 분류하는 의미를 지는 변수, 예를들어 남자는 1 여자는 2, 평균과 같은 산술이 불가함. #변수 타입 간 차이 알아 보기 1. factor() 이용해 factor타입 변수 만들기 var1

2강 : R데이터분석을 위한 도구, 데이터프레임

3. 데이터 분석을 위한 연장 챙기기 03-1 변하는 수, '변수' 이해하기 |변수는 '변하는 수'다. 소득 성별 학점 국적 1000만원 남자 3.8 대한민국 2000만원 남자 4.2 대한민국 3000만원 여자 2.6 대한민국 4000만원 여자 4.5 대한민국 이 표에서 소득, 성별, 학점은 변수이고 국적은 상수이다. 변수는 데이터 분석 대상이고 상수는 아니다. 1. a (1+2+3)/n -> 2 1. x 함수 사용하기 * 패키지 로드하는 작업은 R 스튜디오를 새로 시작할 때 마다 반복해야 한다. 1. ggplot 패키지 설치하기 install.packages("ggplot2") 2. ggplot 패키지 로드하기 library(ggplot2) 3. 함수 사용하기 x

1강: 타이타닉호의 비극, 빅데이터 분석도구 R이란?, 빅데이터 분석 IDE R Studio

*타이타닉호에 승선했던 실제 인명 자료를 통하여 객실등급(class), 성별 그리고 나이에 따른 생존율 분석 -1등급 객실과 Coach 객실 승객 생존율을 분석하기 위 결과를 보면 Coach 승격 1,876 명중에 27%가 생존했으며 1등급 승객은 62%가 생존함 -성별에 따른 분석하기 여성은 73%, 남성은 21%가 생존하였음 -나이에 따라 분석하기 Adult 는 18세 이상으로 분류하였음. 성인은 31%, 아이는 52%가 생존하였음. 출처: https://m.blog.naver.com/jiehyunkim/205591243 01 안녕, R? 01-1 R이 뭔가요?- R 이해하기 *R: 데이터를 분석하는 데 사용되는 소프트웨어 *R이 쓰이는 곳: 통계분석, 머신러닝 모델링, 텍스트 마이닝, 소셜 네트워크..

728x90