R:KoNLP(한글 텍스트마이닝), wordcloud2(워드클라우드) 편집하기

<br />{{R}}

== 개요 ==
KoNLP(Korean Natural Language Processing). 자바로 구성되어 있어서 자바를 먼저 설치해주어야 한다.


벡터에 문장을 넣는다. v = "어쩌구 저쩌구"
{| class="wikitable"
!이름
!기원
!기능
!사용법f
|-
|extractNoun()
|
|문장에서 명사를 추출한다.
조사를 빼고 명사를 추출한다.

'한나눔 분석기'를 사용하기 때문에 정확한 처리를 위해선 전처리가 필요하다.

이름이나 신조어에 대한 등록은 따로 해주어야 한다.
|extractNoun(명사를담은벡터)
extractNoun("어쩌구저쩌구문장")
|}

=== 전처리방법 ===
엑셀에 메모장의 모든 텍스트를 옮긴다. <code>데이터>텍스트나누기</code>에서 상황에 따라 나눈다. 하여, 바라는 것을 추출한 후에 새로운 메모장에 텍스트를 담는다. 단, 저장할 때, ANSI로 저장.

==== 단어추가 ====
useNIADic() #단어사전을 가져온다.

mergeUserDic(data.frame(c("단어") c("ncn"))) #단어를 추가한다. 한 단어에 한 줄씩 번거롭게 해주어야 할듯;; 하핫; 에러는 무시해도 된다.

text1 = readLines("경로.목표파일.txt") #한줄한줄 읽어 벡터로 가져온다.

text2 = extractNoun(text1) #리스트 형태로 명사를 추출한다.
<br />

== 워드클라우드 ==
text3 = unlist(text2) #리스트를 풀어 벡터로 변환한다.

==== 불용어처리 ====
text4 = gsub("안쓸단어", "바꿔줄단어", text3) #불용어를 전처리한다. 이것도 한 단어에 하나씩 번거롭게 해주어야 할듯. 안쓸단어라면 바꿔줄단어에 아무것도 안넣고 ""로 마무리하면 된다.

text5 = text4[nchar(text4)<5] #텍스트길이가 5개 미만인 것만 담는다.

text5 = text5[nchar(text5)>1] #텍스트길이가 1개 초과인 것만 담는다.

text6 = sort(table(text5), decreasing = T) #table로 빈도수를 찾고, 내림차순으로 정렬한다.

text7 = head(text6, 300) #상위 300개를 가져온다.

=== 패키지 사용 ===
install.packages("wordcloud2")

library(wordcloud2)

wordcloud2(text7, size=1) #사이즈 숫자를 바꾸어 크기를 조절할 수 있다.
<br />