728x90
10 텍스트 마이닝
10-1 힙합가사 텍스트 마이닝
* 텍스트 마이닝: 문자로 된 데이터에서 가치있는 정보를 얻어 내는 분석 기법
가장 먼저 하는 부분: 형태소 분석, 단어의 빈도 검사
#텍스트 마이닝 준비하기
1. 패키지 준비하기
- 한글 자연어 분석 패키지인 KoNLP 를 이용하여 한글 데이터로 형태소 분석하기
-자바가 설치되어 있어야 함
2 & 3. KoNLP 를 사용하려면 rJava, memoise 패키지가 설치되어 있어야 함
-설치 후 로드
4. 사전 설정하기
5. 데이터 준비하기
6. 특수 문자 제거하기
728x90
# 가장 많이 사용된 단어 알아보기
1. 명사 추출하기
2. 데이터 프레임으로 변환, 변수명을 수정
3. 자주 사용된 단어 빈도표 만들기
df_word <- filter(df_word, nchar(word) >=2)
4. 빈도 순으로 정렬, 상위 20개 출력
# 워드 클라우드 만들기
1. 패키지 준비하기
2. 단어 색상 목록 만들기
pal <- brewer.pal(8, "Dark2")
3. 난수 고정하기
set.seed(1234)
4. 워드 클라우드 만들기
wordcloud(words = df_word$word,
freq = df_word$freq,
min.freq = 2,
max.words =200,
random.order= F,
rot.per = .1,
scale = c(4,0.3),
colors =pal)
5. 단어 색상 바꾸기
출처: 김영우, "쉽게 배우는 R 데이터 분석", 이지스퍼블리싱, 2017년, 265-272쪽
728x90
'수업후기 > 확률과 통계' 카테고리의 다른 글
WordCloud2 (0) | 2019.05.23 |
---|---|
9-2: 지도 시각화 (0) | 2019.05.19 |
8-2강 : 데이터 분석 프로젝트! - 종교 이혼율, 노년층 지역 (0) | 2019.05.16 |
8 -1강 : 데이터 분석 프로젝트-직업별 월급, 성별 직업분석 (0) | 2019.05.16 |
7-2 강: 데이터 분석 프로젝트- 나이,연령대,연령대 및 성별에 따른 월급차이 (0) | 2019.05.15 |