수업후기/확률과 통계

9-1 강: 텍스트 마이닝

Heeyeon Choi 2019. 5. 19. 17:47
728x90

10 텍스트 마이닝

10-1 힙합가사 텍스트 마이닝

 

* 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법

가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사

 

#텍스트 마이닝 준비하기

 

1. 패키지 준비하기

- 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기

-자바가 설치되어 있어야 함

 

2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함

-설치 후 로드

 

4. 사전 설정하기

5. 데이터 준비하기

 

 

6. 특수 문자 제거하기

 

 

728x90

# 가장 많이 사용된 단어 알아보기

1. 명사 추출하기

 

2.  데이터 프레임으로 변환, 변수명을 수정

 

 

3. 자주 사용된 단어 빈도표 만들기

 

df_word <- filter(df_word, nchar(word) >=2)

 

4. 빈도 순으로 정렬, 상위 20개 출력

 

# 워드 클라우드 만들기

1. 패키지 준비하기

 

2. 단어 색상 목록 만들기

pal <- brewer.pal(8, "Dark2")

 

3. 난수 고정하기

set.seed(1234)

 

4. 워드 클라우드 만들기

 

wordcloud(words = df_word$word,
freq = df_word$freq,
min.freq = 2,
max.words =200,
random.order= F,
rot.per = .1,
scale = c(4,0.3),
colors =pal)

5. 단어 색상 바꾸기

 

 

 

 

출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 265-272쪽

728x90