728x90

수업후기 23

11강: 통계 분석 기법을 이용한 가설 검정

13 통계 분석 기법을 이용한 가설 검정 13-1 통계적 가설 검정이란? #기술 통계와 추론 통계 기술통계: 데이터를 요약해 설명하는 통계기법 ex) 사람들이 받는 월급을 집계해 전체 월급 평균을 구하는 것. 추론통계: 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법 ex) 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런차이가 우연히 발생할 확률을 계산. 이러한 차이가 우연히 나타날 확률이 적다면 성별에 따른 월급차이가 통계적으로 유의하다고 결론. 반대로 이러한 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급차이가 통계적으로 유의하지 않다고 결론. 통계적 가설 검정 유의 확률을 이용해 가설을 검정하는 방법을 '통계적 가설 검정'이라고 한다...

MarkDown VS MarkUp

마크업 언어란? 마크업 언어는 "마크"로 둘러싸인 언어이다. "태그"로 둘러싸였다고도 한다. HTML, XML 등의 마크업 언더들은 문서의 구조를 정의한다. 문서의 골격에 해당하는 부분을 작성하는데 사용한다. 마크 다운 언어란? 마크다운 언어는 마크업 언어의 일종으로, 존 그루버와 아론 스워츠가 만들었다. 읽기도 쓰기도 쉽다는 장점이 있다. 그루버는 작성한 마크다운 언어 문서를 HTML 파일로 변환해주는 펄 스크립트도 만들었다. 페이스북의 태그 기능도 마크 다운 언어이다. '@' 가 붙은 문자열을 자동으로 태그로 인식하는 것이다. 텀블러 레딧 GitHub [4] Stack Overflow 도쿠위키 : 플러그인을 사용하여 마크다운 문법을 사용할 수 있다. 모니위키 : 버전 1.1.3부터 마크다운 프로세서 ..

통계적 가설 검정 이론

1. 분석 방법 선정 2. 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정 3. 분석도구 검정통계량 실행 및 확인 4. 유의 수준 결정 : 0.1, 0.05, 0.01 5. 유의 확률 확인 6. 유의확률과 유의수준 비교 7. 귀무가설과 대립가설 선택 8. 분석 결론 1. 가설의 종류 -영가설 or 귀무가설(H0) ex) 외계인은 존재하지 않는다. -대립가설(H1) ex) 외계인은 존재한다. 2. 가설검정 = 증거를 수집하는 과정 ex)외계인은 존재하는가? H0 : 외계인=0, 외계인은 0명이다 H1: 외계인=1, 외계인은 1명이다 3. 유의수준 ex) 외계인이 존재한다는 증거는 얼마나 필요할까? -> 95 % (신뢰구간) H0 H1 H0 선택 옳은 결정 제 2종 오류 H1 선택 제 1종 오류 옳은 ..

10-2 강: R Markdown 으로 데이터 분석 보고서 만들기

14 R Markdown 으로 데이터 분석 보고서 만들기 14-1 신뢰할 수 있는 데이터 분석 보고서 만들기 R 마크다운을 활용하면 데이터 분석의 전 과정을 담은 보고서를 쉽게 만들 수 있습니다. 데이터 분석 보고서를 신뢰할 수 있으려면 동일한 분석 과정을 거쳤을 때 동일한 분석 결과가 반복해서 나오는 재현성을 갖춰야 합니다. 14-2 R 마크다운 문서 만들기 # R 마크다운으로 데이터 분석 보고서 만들기 1. [File -> New File -> R Markdown]을 클릭하면 마크다운 문서 생성 창이 열립니다. HTML, PDF, Word 중에서 저장할 문서 포맷을 정하고 [OK]를 클릭하면 마크다운 문서로 작성된 예제 문서가 만들어집니다. HTML 로 설정된 상태에서 [OK]를 눌러 다음 단계로 진..

10-1강 : 인터랙티브 그래프

12 인터랙티브 그래프 12-1 plotly 패키지로 인터랙티브 그래프 만들기 인터랙티브 그래프란? 인터랙티브 그래프란, 마우스 움직임에 반응하며 실시간으로 형태가 변하는 그래프를 말한다. 인터랙티브 그래프를 만들면 그래프를 자유롭게 조작하면서 관심있는 부분을 자세히 살펴볼 수 있다. 그래프를 HTML 포맷으로 저장하면, 일반 사용자들도 웹 브라우저를 이용해 그래프를 조작할 수 있다. #인터랙티브 그래프 만들기 plotly 패키지로 인터랙티브 그래프를 만드는 방법을 알아보자. 1. 패키지 준비하기 2. ggplot2 로 그래프 만들기 3. 인터랙티브 그래프 만들기 ggplotly(p) 4. HTML 로 저장하기 뷰어 창에서 [Export -> save as web page]를 클릭하면 R사용을 하지 않는..

혼자 해보기: 충청북도 보은군_감염병 발생 정보_2015기준

각 질병별로 얼마나 발생하였을까?(충청북도 보은군, 2015년) 1. 데이터 불러오기 https://www.data.go.kr/dataset/3071216/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr 에서 데이터를 다운 받기 2. 복사본 만들기 3. head() 로 앞부분 보기 4. 감염병명 변수 검토하기 5. 계 변수 검토하기 6. 평균표 만들기 7. 그래프 만들기 2015년에 충청북도 보은군은 쯔쯔가무시증이 제일 많았고 다음이 수두 다음이 산모B..

혼자 해보기: 범죄종류에 따른 혼인관계

1. 데이터 불러오기 *데이터는 https://www.data.go.kr/dataset/3074470/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr 에서 다운 받기 2. dplyr 불러오기 (전처리하는 데에 필요함) 3. 데이터 복사본 만들기 #복사본 만들기 crime '범죄대분류'라는 변수가 범주형 변수라는 것을 알 수 있다. 5. 그래프 그려보기 library(ggplot2) qplot(crime$범죄대분류) 6. 혼인관계: 유배우자 변수의 타입 ..

혼자 해보기: 차량 사고 유형별 교통사고 통계

1. 데이터 불러오기 데이터 출처: data.go.kr 2. 전처리 3. 복사본 만들기 4. '사고유형대분류' 변수 검토하기 -> 이상치가 없음 5. 모양 보기 qplot(acc$사고유형대분류) 6. '합계' 변수 검토하기 7. 교통사고 유형별 합계 평균표 만들기 8. 그래프 만들기 차대차가 제일 높은 비율로 사고가 일어나며 건널목 사고가 제일 적게 일어난다는 것을 알 수 있습니다.

9-2: 지도 시각화

11 지도 시각화 11-1 미국 주별 강력 범죄율 단계 구분도 만들기 #미국 주별 강력 범죄율 단계 구분도 만들기 1. 패키지 준비하기 2. 미국 주별 범죄 데이터 준비하기 3. 행이름을 변경하기 4. 미국 주 지도 데이터 준비하기 5. 단계 구분도 만들기 6. 인터랙티브 단계 구분도 만들기 11-2 대한민국 시도별 인구, 결핵 환자 수 단계 구분도 만들기 #대한민국 시도별 인구 단계 구분도 만들기 1. 패키지 준비하기 2. 대한민국 시도별 인구 데이터 준비하기 3. 변수명을 영문자로 바꾸기 4. 대한민국 시도 지도 데이터 준비하기 5. 단계 구분도 만들기 출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 280-287쪽

728x90