728x90

수업후기/확률과 통계 18

11강: 통계 분석 기법을 이용한 가설 검정

13 통계 분석 기법을 이용한 가설 검정 13-1 통계적 가설 검정이란? #기술 통계와 추론 통계 기술통계: 데이터를 요약해 설명하는 통계기법 ex) 사람들이 받는 월급을 집계해 전체 월급 평균을 구하는 것. 추론통계: 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법 ex) 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런차이가 우연히 발생할 확률을 계산. 이러한 차이가 우연히 나타날 확률이 적다면 성별에 따른 월급차이가 통계적으로 유의하다고 결론. 반대로 이러한 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급차이가 통계적으로 유의하지 않다고 결론. 통계적 가설 검정 유의 확률을 이용해 가설을 검정하는 방법을 '통계적 가설 검정'이라고 한다...

MarkDown VS MarkUp

마크업 언어란? 마크업 언어는 "마크"로 둘러싸인 언어이다. "태그"로 둘러싸였다고도 한다. HTML, XML 등의 마크업 언더들은 문서의 구조를 정의한다. 문서의 골격에 해당하는 부분을 작성하는데 사용한다. 마크 다운 언어란? 마크다운 언어는 마크업 언어의 일종으로, 존 그루버와 아론 스워츠가 만들었다. 읽기도 쓰기도 쉽다는 장점이 있다. 그루버는 작성한 마크다운 언어 문서를 HTML 파일로 변환해주는 펄 스크립트도 만들었다. 페이스북의 태그 기능도 마크 다운 언어이다. '@' 가 붙은 문자열을 자동으로 태그로 인식하는 것이다. 텀블러 레딧 GitHub [4] Stack Overflow 도쿠위키 : 플러그인을 사용하여 마크다운 문법을 사용할 수 있다. 모니위키 : 버전 1.1.3부터 마크다운 프로세서 ..

통계적 가설 검정 이론

1. 분석 방법 선정 2. 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정 3. 분석도구 검정통계량 실행 및 확인 4. 유의 수준 결정 : 0.1, 0.05, 0.01 5. 유의 확률 확인 6. 유의확률과 유의수준 비교 7. 귀무가설과 대립가설 선택 8. 분석 결론 1. 가설의 종류 -영가설 or 귀무가설(H0) ex) 외계인은 존재하지 않는다. -대립가설(H1) ex) 외계인은 존재한다. 2. 가설검정 = 증거를 수집하는 과정 ex)외계인은 존재하는가? H0 : 외계인=0, 외계인은 0명이다 H1: 외계인=1, 외계인은 1명이다 3. 유의수준 ex) 외계인이 존재한다는 증거는 얼마나 필요할까? -> 95 % (신뢰구간) H0 H1 H0 선택 옳은 결정 제 2종 오류 H1 선택 제 1종 오류 옳은 ..

10-2 강: R Markdown 으로 데이터 분석 보고서 만들기

14 R Markdown 으로 데이터 분석 보고서 만들기 14-1 신뢰할 수 있는 데이터 분석 보고서 만들기 R 마크다운을 활용하면 데이터 분석의 전 과정을 담은 보고서를 쉽게 만들 수 있습니다. 데이터 분석 보고서를 신뢰할 수 있으려면 동일한 분석 과정을 거쳤을 때 동일한 분석 결과가 반복해서 나오는 재현성을 갖춰야 합니다. 14-2 R 마크다운 문서 만들기 # R 마크다운으로 데이터 분석 보고서 만들기 1. [File -> New File -> R Markdown]을 클릭하면 마크다운 문서 생성 창이 열립니다. HTML, PDF, Word 중에서 저장할 문서 포맷을 정하고 [OK]를 클릭하면 마크다운 문서로 작성된 예제 문서가 만들어집니다. HTML 로 설정된 상태에서 [OK]를 눌러 다음 단계로 진..

10-1강 : 인터랙티브 그래프

12 인터랙티브 그래프 12-1 plotly 패키지로 인터랙티브 그래프 만들기 인터랙티브 그래프란? 인터랙티브 그래프란, 마우스 움직임에 반응하며 실시간으로 형태가 변하는 그래프를 말한다. 인터랙티브 그래프를 만들면 그래프를 자유롭게 조작하면서 관심있는 부분을 자세히 살펴볼 수 있다. 그래프를 HTML 포맷으로 저장하면, 일반 사용자들도 웹 브라우저를 이용해 그래프를 조작할 수 있다. #인터랙티브 그래프 만들기 plotly 패키지로 인터랙티브 그래프를 만드는 방법을 알아보자. 1. 패키지 준비하기 2. ggplot2 로 그래프 만들기 3. 인터랙티브 그래프 만들기 ggplotly(p) 4. HTML 로 저장하기 뷰어 창에서 [Export -> save as web page]를 클릭하면 R사용을 하지 않는..

9-2: 지도 시각화

11 지도 시각화 11-1 미국 주별 강력 범죄율 단계 구분도 만들기 #미국 주별 강력 범죄율 단계 구분도 만들기 1. 패키지 준비하기 2. 미국 주별 범죄 데이터 준비하기 3. 행이름을 변경하기 4. 미국 주 지도 데이터 준비하기 5. 단계 구분도 만들기 6. 인터랙티브 단계 구분도 만들기 11-2 대한민국 시도별 인구, 결핵 환자 수 단계 구분도 만들기 #대한민국 시도별 인구 단계 구분도 만들기 1. 패키지 준비하기 2. 대한민국 시도별 인구 데이터 준비하기 3. 변수명을 영문자로 바꾸기 4. 대한민국 시도 지도 데이터 준비하기 5. 단계 구분도 만들기 출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 280-287쪽

9-1 강: 텍스트 마이닝

10 텍스트 마이닝 10-1 힙합가사 텍스트 마이닝 * 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법 가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사 #텍스트 마이닝 준비하기 1. 패키지 준비하기 - 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기 -자바가 설치되어 있어야 함 2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함 -설치 후 로드 4. 사전 설정하기 5. 데이터 준비하기 6. 특수 문자 제거하기 # 가장 많이 사용된 단어 알아보기 1. 명사 추출하기 2. 데이터 프레임으로 변환, 변수명을 수정 3. 자주 사용된 단어 빈도표 만들기 df_word =2) 4. 빈도 순으로 정렬, 상위 2..

8-2강 : 데이터 분석 프로젝트! - 종교 이혼율, 노년층 지역

09-8 종교 유무에 따른 이혼율-"종교가 있는 사람들은 이혼을 덜 할까?" #종교 변수 검토 및 전처리 하기 1. 변수검토하기 2. 전처리 #혼인 상태 변수 검토 및 전처리하기 1. 변수검토하기 2. 파생변수 만들기- 이혼 여부 값 내용 0 비해당(18세 미만) 1 유배우 2 사별 3 이혼 4 별거 5 미혼(18세 이상, 미혼모 포함) 6 기타(사망 등) #종교 유무에 따른 이혼율 분석하기 1. 종교 유무에 따른 이혼율 표 만들기 2. 이혼에 해당하는 값만 추출, 이혼율 표 만들기 3. 그래프 만들기 이혼율은 종교가 있는 경우 7.2% 종교가 없는 경우 8.3%로 나타났습니다. 따라서 종교가 없는 사람들이 이혼을 더 한다고 볼 수 있습니다. #연령대 및 종교 유무에 따른 이혼율 분석하기 1. 연령대별 ..

8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석

09-6 직업별 월급 차이-"어떤 직업이 월급을 가장 많이 받을까?" #직업 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리 3. left_join() 으로 job 변수를 welfare에 결합 # 직업별 월급 차이 분석하기 1. 직업별 월급 평균표 만들기 2. 내림차순으로 정렬 3. 그래프 만들기 -coord_flip() 가 표를 세로로 세워준다. 금속 재료 공학 전문가 및 시험원이 평균 845 만원으로 가장 많은 월급을 받고, 그 다음으로는 의료진료 전문가, 의회의원 고위공무원 및 공공단체 임원, 보험 및 금융관리자 순이다. 4. 하위 추출 가사 및 육아 도우미의 월급이 평균 80만원으로 가장 적다 그 뒤로는 임업관련 종사자, 기타서비스관련 단순 종사원, 청소원 및 환경 미화원 순이다. 상 ,..

728x90