728x90

전체 글 174

6강: R 그래프 만들기

08 그래프 만들기 08-1 R로 만들 수 있는 그래프 살펴보기 -> 2차원 그래프, 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트, 마우스 조작에 반응하는 인터랙티브 그래프 등 -> 산점도, 막대 그래프, 선 그래프, 상자 그림 등 08-2 산점도- 변수 간 관계 표현하기 *연속형, 연속형일때 사용 0. ggplot2 패키지 업로드 하기 library(ggplot2) 1. 배경 설정하기 2. 그래프 추가하기 3. 축 범위를 조정하는 설정 추가하기 08-3 막대그래프- 집단 간 차이 표현하기 #평균 막대 그래프 만들기 1. 집단별 평균표 만들기 2. 그래프 생성하기 3. 크기 순으로 정렬하기 #빈도 그래프 만들기 08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 ..

5강: 데이터 정제

07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 07-1 빠진 데이터를 찾아라! -결측치 정제하기 #결측치 찾기 1. 결측지 가진 데이터 프레임 만들기 2. is.na() 사용하여 결측치 확인하기 3. is.na() 를 table()에 적용하면 데이터에 결측지가 몇 개 있는지 출력 4. 어떤 변수에 결측지가 있는지 알아야 결측지를 제거할 수 있다. 5. 결측지가 포함된 데이터를 함수에 적용하면 NA가 출력 #결측지 제거하기 1. 결측지 있는 행 제거하기 is.na() 를 filter()에 적용하면 결측지가 있는 행을 제거할 수 있다. 2. !is.na() 는 NA 가 아닌 값 3. 데이터 프레임로 만들면 결측지가 없는 데이터가 된다. 4. 여러 변수 동시에 결측치 없는 데이터 추출하기 5. 결..

깃허브 사용법, 나의 깃허브 주소

나의 깃허브 주소: https://github.com/heeyeon9578 heeyeon9578 - Overview GitHub is where heeyeon9578 builds software. github.com 1. 깃이란? 깃: 프로젝트의 어떤 부분도 겹쳐쓰지 않게 프로젝트의 변경을 관리하는 버전관리 소프트웨어 1) 깃을 사용하는 이유? 두 사람이 같은 웹사이트에서 페이지를 업데이트 하고 있다고 하자. 한 사람이 무언가를 변경하고 저장한 후 웹사이트에 업로드 한다. 다른 사람이 동시에 같은 페이지에서 작업한다면 겹쳐쓰여지고 지워질 것이다. 깃은 그것을 방지한다 두 사람이 같은 페이지에 각자의 수정사항을 업로드 할 수 있고, 깃은 두개의 복사본을 저장한다. 두 사람의 작업을 병합하여 사용할 수 있다..

기타/깃허브 2019.04.13

R데이터 분석도전! -2탄

문제: 미국 동부중부 437개 지역의 인구통계 정보를 담고 있는 midwest 데이터를 사용해 데이터 분석문제를 해결하여 보자. midwest 는 ggplot2 패키지에 들어 있다. 문제1: popadults는 해당지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요. #데이터 불러오기 midwest %를 사용하기 위해 library(dplyr) 꼭 해주기 midwest % mutate(ratio_child=(poptotal-popadults)/poptotal*100) 문제2: 미성년 인구 백분율이 가장 높은 상위 5개 country의 미성년 인구백분율을 출력하세요. 문제3: 분류표의 각 기준에 따라 미성년 비율 등..

4강: R데이터 분석: 자유자재로 데이터 가공하기

06 자유자재로 데이터 가공하기 dplyr 함수 기능 filter() 행 추출 select() 열(변수)추출 arrange() 정렬 mutate() 변수추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 bind_rows() 데이터 합치기 06-2 조건에 맞는 데이터만 추출하기 *dplyr 패키지의 filter() 이용하여 데이터 추출하기 #조건에 맞는 데이터만 추출하기 1. dplyr 패키지를 로드한 후 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력하기 2. dplyr 패키지의 filter()로 1반 학생들의 데이터만 추출하기 3.같은 형식으로 2반 학생만 추출하여 보기 4. 변수가 '특정 값이 아닌 경우'에 해당하는 데이터 추출..

3강: R데이터 분석 기초, 변수타입

15-2 변수타입 1. 연속 변수- Numeric 타입 키, 몸무게, 소득처럼 연속적이고 크기를 의미하는 값, 평균과 같은 값을 구할 수 있음. 2. 범주 변수- Factor 타입 값이 대상을 분류하는 의미를 지는 변수, 예를들어 남자는 1 여자는 2, 평균과 같은 산술이 불가함. #변수 타입 간 차이 알아 보기 1. factor() 이용해 factor타입 변수 만들기 var1

풀스택 개발자, 데브옵스 엔지니어

1. 프론트엔드 사용자의 눈에 보여지는 모든 것을 다룸 ex) Naver 홈페이지 2. 백엔드 홈페이지 내부적으로 서버를 관리 및 구축하며 DB를 관리하는, 눈으로 직접 자세히 볼 수 없는 것들을 다룸 프론트엔드 + 백엔드 기술을 모두 가지고 업무를 할 수 있는 사람 출처: http://naver.me/54MGvfBa 개발(애플리케이션을 만드는 이들)과 운영(이 애플리케이션이 정상적으로 작동하도록 하는 이들)을 하나의 팀으로 통합하고자 하는 문화이자 철학 지속적 통합과 지속적 전달, 테스트를 사용해서 기존 코드베이스를 자주, 증분적으로 개선해 프로덕션으로 배포한다. 데브옵스의 팀에서 활동하기 위해 필요한 기술을 갖춘 사람 "코딩 방법을 아는 시스템 관리자로 보는 시각도 있고 시스템 관리자 스킬을 갖춘 개..

빅데이터/정보 2019.03.25

2강 : R데이터분석을 위한 도구, 데이터프레임

3. 데이터 분석을 위한 연장 챙기기 03-1 변하는 수, '변수' 이해하기 |변수는 '변하는 수'다. 소득 성별 학점 국적 1000만원 남자 3.8 대한민국 2000만원 남자 4.2 대한민국 3000만원 여자 2.6 대한민국 4000만원 여자 4.5 대한민국 이 표에서 소득, 성별, 학점은 변수이고 국적은 상수이다. 변수는 데이터 분석 대상이고 상수는 아니다. 1. a (1+2+3)/n -> 2 1. x 함수 사용하기 * 패키지 로드하는 작업은 R 스튜디오를 새로 시작할 때 마다 반복해야 한다. 1. ggplot 패키지 설치하기 install.packages("ggplot2") 2. ggplot 패키지 로드하기 library(ggplot2) 3. 함수 사용하기 x

빅데이터 분석 기술

빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미 빅데이터의 특징으로는 크기(Volume), 속도(Velocity), 다양성(Variety)을 들 수 있다. 크기는 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미한다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미한다. 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다. [네이버 지식백과] 빅데이터란? (국립중앙과학관 - 빅..

빅데이터/정보 2019.03.20
728x90