9-1 강: 텍스트 마이닝

수업후기/확률과 통계

9-1 강: 텍스트 마이닝

Heeyeon Choi 2019. 5. 19. 17:47

728x90

10 텍스트 마이닝

10-1 힙합가사 텍스트 마이닝

* 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법

가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사

#텍스트 마이닝 준비하기

1. 패키지 준비하기

- 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기

-자바가 설치되어 있어야 함

2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함

-설치 후 로드

4. 사전 설정하기

5. 데이터 준비하기

6. 특수 문자 제거하기

728x90

# 가장 많이 사용된 단어 알아보기

1. 명사 추출하기

2. 데이터 프레임으로 변환, 변수명을 수정

3. 자주 사용된 단어 빈도표 만들기

df_word <- filter(df_word, nchar(word) >=2)

4. 빈도 순으로 정렬, 상위 20개 출력

# 워드 클라우드 만들기

1. 패키지 준비하기

2. 단어 색상 목록 만들기

pal <- brewer.pal(8, "Dark2")

3. 난수 고정하기

set.seed(1234)

4. 워드 클라우드 만들기

wordcloud(words = df_word$word,
freq = df_word$freq,
min.freq = 2,
max.words =200,
random.order= F,
rot.per = .1,
scale = c(4,0.3),
colors =pal)

5. 단어 색상 바꾸기

출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 265-272쪽

728x90

저작자표시 비영리 변경금지

'수업후기 > 확률과 통계' 카테고리의 다른 글

WordCloud2 (0)	2019.05.23
9-2: 지도 시각화 (0)	2019.05.19
8-2강 : 데이터 분석 프로젝트! - 종교 이혼율, 노년층 지역 (0)	2019.05.16
8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석 (0)	2019.05.16
7-2 강: 데이터 분석 프로젝트- 나이,연령대,연령대 및 성별에 따른 월급차이 (0)	2019.05.15

현재글9-1 강: 텍스트 마이닝

CHY'S IT