R:분류분석

학교의 모든 지식. SMwiki
Sam (토론 | 기여)님의 2020년 8월 24일 (월) 20:58 판 (새 문서: {{R}} == 개요 == 수집된 데이터를 갖고 자동으로 분류할 수 없을까? 머신러닝의 원리. 학습을 통해 분류분석 모델을 만들어 분류기준으로...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
둘러보기로 이동 검색으로 이동

R언어 공부를 위한 틀 틀:R

  1. R:개요
    1. R:코딩팁
    2. R:연산자
  2. R:객체
    1. R:자료형
    2. R:자료구조
  3. R:함수
    1. R:자주사용하는 함수
      1. R:aplly계열(반복문, 중복작업)
  4. R:제어문
    1. R:조건문
    2. R:반복문
  5. R:자료조작
    1. R:데이터프레임
    2. R:행렬
  6. R:데이터 저장과 불러오기
    1. R:데이터베이스
    2. R:특정조건 추출하기
  7. R:패키지
    1. R:magrittr(파이프연산자)
    2. R:dplyr(데이터프레임 조작)
    3. R:ggplot2(그래프그리기)
    4. R:KoNLP(한글 텍스트마이닝), wordcloud2(워드클라우드)
    5. R:ddply(데이터 집계, 조작)
    6. R:tidyverse(데이터를 정제하는 패키지들의 집합)
    7. R:jsonlite(JSON 파일 다루기)
    8. R:pbapply(apply계열에 진행바를 보여준다.)
  8. R:활용
    1. R:데이터 접근
    2. R:연관성분석
    3. R:분류분석
  9. R:팁
    1. R:연구용 팁

개요[편집 | 원본 편집]

수집된 데이터를 갖고 자동으로 분류할 수 없을까? 머신러닝의 원리.

학습을 통해 분류분석 모델을 만들어 분류기준으로 활용한다.

의사분석 트리[편집 | 원본 편집]


모델 정확도[편집 | 원본 편집]

Kappa계수 = (정확도 - 우연히일치할가능성) / (1-우연히일치할가능성)

0.8~1 라면 완벽.

0.5 즈음부터 적당하다 보면 된다.

모델 나누기[편집 | 원본 편집]

훈련데이터와 검증데이터로 구분해야 한다. 데이터셋1$model 안에 분류값이 들어가 있다.

벡터 <- createDataPartition(데이터셋1$model, p=0.8, list=F) #훈련데이터로 사용할 인덱스를 얻을 수 있다. 이건 패키지 caret을 이용하는듯?

훈련데이터 <- 데이터셋[벡터, ]

검증데이터 <- 데이터셋[-벡터, ]

#패키지 rpart를 설치, 불러온다.

분류모델 <- rpart(model~., data=훈련데이터, contro=rpart.control(minsplit=노드에포함되는데이터겟수) #.은 모든 요인이라는 의미. 대략 2??

데이터 해석(시각화)[편집 | 원본 편집]

rpart.plot 패키지 설치, 이용한다.

rpart.plot(분류모델) #분류알고리즘을 시각화하여 보여준다. 1행은 예상분류. 2행의 숫자는 각 사과별로 확률, 3행의 퍼센트는 해당 거름망에 도달한 데이터 비율을 나타낸다. 왼쪽이 yes, 우측이 no를 의미하는 길이다.

테스트[편집 | 원본 편집]

예측객체 = predick(분류모델, 검증데이터, type="class")

actual <- 검증데이터$모델

confusionMatrix(actual, 예측객체, mode="everything") #행렬로 정확도를 예측한다.