수업후기/확률과 통계
9-1 강: 텍스트 마이닝
Heeyeon Choi
2019. 5. 19. 17:47
728x90
10 텍스트 마이닝
10-1 힙합가사 텍스트 마이닝
* 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법
가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사
#텍스트 마이닝 준비하기
1. 패키지 준비하기
- 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기
-자바가 설치되어 있어야 함
2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함
-설치 후 로드
4. 사전 설정하기
5. 데이터 준비하기
6. 특수 문자 제거하기
728x90
# 가장 많이 사용된 단어 알아보기
1. 명사 추출하기
2. 데이터 프레임으로 변환, 변수명을 수정
3. 자주 사용된 단어 빈도표 만들기
df_word <- filter(df_word, nchar(word) >=2)
4. 빈도 순으로 정렬, 상위 20개 출력
# 워드 클라우드 만들기
1. 패키지 준비하기
2. 단어 색상 목록 만들기
pal <- brewer.pal(8, "Dark2")
3. 난수 고정하기
set.seed(1234)
4. 워드 클라우드 만들기
wordcloud(words = df_word$word,
freq = df_word$freq,
min.freq = 2,
max.words =200,
random.order= F,
rot.per = .1,
scale = c(4,0.3),
colors =pal)
5. 단어 색상 바꾸기
출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 265-272쪽
728x90