R:dplyr(데이터프레임 조작)

학교의 모든 지식. SMwiki
Sam (토론 | 기여)님의 2020년 8월 12일 (수) 15:37 판 (새 문서: {{R}}<br /> == 개요 == {| class="wikitable" |+ ! ! ! !주요기여자 |- !전신 |plyr | |하들리 위컴, 로메인 프랑소와 |- !목적 | | | |} ==dplyr== 구성이 복잡...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
둘러보기로 이동 검색으로 이동

R언어 공부를 위한 틀 틀:R

  1. R:개요
    1. R:코딩팁
    2. R:연산자
  2. R:객체
    1. R:자료형
    2. R:자료구조
  3. R:함수
    1. R:자주사용하는 함수
      1. R:aplly계열(반복문, 중복작업)
  4. R:제어문
    1. R:조건문
    2. R:반복문
  5. R:자료조작
    1. R:데이터프레임
    2. R:행렬
  6. R:데이터 저장과 불러오기
    1. R:데이터베이스
    2. R:특정조건 추출하기
  7. R:패키지
    1. R:magrittr(파이프연산자)
    2. R:dplyr(데이터프레임 조작)
    3. R:ggplot2(그래프그리기)
    4. R:KoNLP(한글 텍스트마이닝), wordcloud2(워드클라우드)
    5. R:ddply(데이터 집계, 조작)
    6. R:tidyverse(데이터를 정제하는 패키지들의 집합)
    7. R:jsonlite(JSON 파일 다루기)
    8. R:pbapply(apply계열에 진행바를 보여준다.)
  8. R:활용
    1. R:데이터 접근
    2. R:연관성분석
    3. R:분류분석
  9. R:팁
    1. R:연구용 팁

개요

주요기여자
전신 plyr 하들리 위컴, 로메인 프랑소와
목적

dplyr

구성이 복잡한 경우, %>%를 활용하여 연산을 펴서 입력하기 위한 도구이다.

데이터셋[범위] %>% #범위를 설정하고

rowMeans() %>% #연산할 함수를 설정한다.

head() #이어서 연산할 것들을 덧붙인다.

한 줄로 쓸 수 있지만, 그렇게 하면 읽기 복잡해진다. 이를 직관적으로 보기 위한 기능.


또한 %>% 로 다른 명령어와 연계할 수 있어, 굉장히 편하게 사용할 수 있다.

집계데이터 만들기

이름 기원 기능 사용법
group_by() 집계기준 조합을 정해준다.

집계된 그룹을 따라 연산해 열을 만들 수 있다.

집계데이터 = 데이터셋 %>%

group_by(열이름1, 열이름2) %>%

summarise(열이름3 = 연산, 열이름4 = 연산, ....)

ungroup() 다시 사용할 땐 에러방지를 위해 ungroup 해주기. 데이터형 = 기존데이터형 %>%

ungroup()

count() 그룹화 이후에 사용하면 해당 그룹에 속한 데이터 갯수를 세어준다. 집계데이터 = 데이터셋 %>%

group_by(열이름1, 열이름2) %>%

count()