15-2 변수타입
<변수의 종류>
1. 연속 변수- Numeric 타입
키, 몸무게, 소득처럼 연속적이고 크기를 의미하는 값, 평균과 같은 값을 구할 수 있음.
2. 범주 변수- Factor 타입
값이 대상을 분류하는 의미를 지는 변수, 예를들어 남자는 1 여자는 2, 평균과 같은 산술이 불가함.
#변수 타입 간 차이 알아 보기
1. factor() 이용해 factor타입 변수 만들기
var1 <- c(1,2,3,1,2)
var2 <- factor(c(1,2,3,1,2))
2. 생성한 두 변수를 출력해 어떤 차이 있는지 확인
: factor 타입 변수는 범주형이다.
3. factor변수는 연산이 안된다.
4. class()를 사용하여 변수 타입 확인하기
5. levels()를 이용하여 factor 변수의 구성 범주 확인 하기
6. 문자로 구성된 factor 변수
7. 함수마다 적용 가능한 변수 타입이 다름
#변수 타입 바꾸기
1. as.numeric() 이용해 바꾸기
2. class(), factor(), levels()에 적용해보기
5. 데이터 분석 기초!
-데이터 파악하기, 다루기 쉽게 수정하기
5-1 데이터 파악하기
<데이터를 파악할 때 사용하는 함수들>
head()
tail()
View()
dim()
str()
summary()
#exam 데이터 파악하기(csv 파일)
pre) exam <- read.csv("csv_exam.csv")
1. head() -데이터 앞부분 확인하기
2. tail()- 데이터 뒷부분 확인하기
3. View()- 뷰어창에서 데이터 확인하기
4. dim()-데이터가 몇 행, 몇 열로 구성되어있는지 확인
5. str()- 속성 파악하기
-> 20개의 관측지, 5개의 변수, dataframe 속성을 지님.
6. summary()- 요약통계량 산출하기
출력값 | 통계량 | 설명 |
Min | 최솟값 | 가장 작은 값 |
1st Qu | 1사분위수 | 하위25%지점에 위치하는 값 |
Median | 중앙값 | 중앙에 위치하는 값 |
Mean | 평균 | 모든값을 더해 값의 개수로 나눈 값 |
3rd Qu | 3사분위수 | 하위75%지점에 위치하는 값 |
Max | 최댓값 | 가장 큰 값 |
#mpg데이터 파악하기
1. ggplot2 패키지 설치
2.ggplot2 패키지의 mpg 데이터를 불러와 데이터 프레임 만들기
mpg <- as.data.frame(ggplot2::mpg)
3. head(), tail(), View(), dim(), str(), summary()를 이용해 데이터 모양 확인
cf) ?mpg 를 하면 데이터에 대한 설명이 나온다(변수에 대해서도 알 수 있다.)
05-2 변수명 바꾸기
#변수명 바꾸기
1. 2개의 변수로 구성된 데이터 프레임 만들기
2. rename() 을 이용하기
3. 데이터 프레임 복사본 만들기
4. 변수명 바꾸기
05-3 파생변수 만들기
: 기존의 변수를 변형해 만든 변수
#변수 조합해 파생변수 만들기
1. 2개의 변수로 된 데이터 프레임 구성하기
2. var1 과 var2 변수의 값을 더한 var_sum 파생변수 만들어 df 에 추가하기
3. var1 과 var2 를 더한 후 2로 나눠 var_mean 파생변수 만들기
# mpg 통합 연비 변수 만들기
pre) mpg 데이터에는 hwy(고속도로 연비), cty(도시 연비) 두 종류의 연비변수가 있다.
1. cty, hwy 두 변수를 더해 2로 나눠 도로유형을 통합한 연비변수 만들기
2. 평균 구해보기
#조건문을 활용해 파생변수 만들기
1. 기준값 정하기
(1) summary()로 total의 평균과 중앙값을 확인
(2) hist() 로 히스토그램 보기
*(1),(2)를 통해 알수 있는 사실
-total연비의 평균과 중앙값은 20
-total연비가 20~25 사이에 해당하는 자동차 모델이 제일 많음
-대부분 25이하, 25 넘기는 자동차는 많지않다
2. 합격 판정 변수 만들기
-조건문 함수: 조건에 따라 서로 다른 값을 반환하는 함수
-> ifelse()
*여기서는 total 이 20 이상이면 "pass"를 부여, 아니면 "fail"를 부여
3. 빈도표로 합격 판정 자동차 수 살펴보기
4. 막대그래프로 빈도 표현하기
# 중첩 조건문 활용하기
* total 이 30 이상이면 A, 20~29는 B, 20미만이면 C등급
1. ifelse() 안에 ifelse() 가 들어있는 구조
2. 빈도표, 막대그래프로 연비 등급 살펴보기
출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 100~121쪽
'수업후기 > 확률과 통계' 카테고리의 다른 글
6강: R 그래프 만들기 (0) | 2019.04.18 |
---|---|
5강: 데이터 정제 (0) | 2019.04.14 |
4강: R데이터 분석: 자유자재로 데이터 가공하기 (0) | 2019.04.11 |
2강 : R데이터분석을 위한 도구, 데이터프레임 (0) | 2019.03.25 |
1강: 타이타닉호의 비극, 빅데이터 분석도구 R이란?, 빅데이터 분석 IDE R Studio (0) | 2019.03.20 |