R:팁 편집하기

{{R}}
 
==데이터 다루기 전략==

데이터를 다룰 땐 절대 raw 데이터를 건드리지 않는다. 항상 복사해 두고 진행하는 게 나중을 위해 좋다.

사소한 차이에서 오류가 발생하는 경우가 많다. 분석을 시작할 땐 as.data.frame 등을 꼭 적용해 시작하는 습관을 들이자.
===관련함수===

{| class="wikitable"

!이름

!기원

!기능

!사용법

|-

|sample()

|sample

|데이터가 너무 방대해 계산이 오래걸리는 경우.

무작위 추출로 연산을 줄인다.

|sample(추출범위, 추출갯수, 복원추출여부)

sample(2:30, 4, replace=False)

 

False인 경우, 비복원추출을 하겠다는 것.

|-

|seed()

|

|무작위 결과값을 고정시켜야 할 때.

|set.seed(아무숫자)

숫자에 무작위 결과값이 저장된다.

|}

==GUI로 보기==

===data editor. 자료편집기.===
스프레드시트 형태의 데이터 편집기다.

R concole에서 편집>데이터 편집기를 선택하거나 fix(데이터셋), edit(데이터셋)을 명령으로 실행하면 된다.

====입력방법====
데이터셋 <- edit(data.frame()) 을 명령한 후 자료입력하고 저장하면 데이터셋에 자료가 입력된다.


==이상치(outlier) 다루기==

전체 데이터를 요란시키는 괴상한 데이터. 일반적으로 1분위수와 3분위수 차이의 1.5배만큼 커다랗게 벗어난 값을 이상치라 부른다.

{| class="wikitable"

|+이상치를 구하는 과정

!

!

|-

|분위수 구하기

|1분위수, Q1=quntile(데이터, probs=c(0.25), na.rm=True)

3분위수, Q3=quntile(데이터, probs=c(0.75), na.rm=True)

|-

|울타리 구하기

|LC=Q1 - 1.5*(Q3-Q1)

UC=Q3 + 1.5*(Q3-Q1)

|-

|울타리를 넘으면 이상치

이상치를 모은 부분집합

|데이서텟 = subset(데이터셋, 데이터>LC & 데이터<UC)

|}
 

==결측치 다루기==

다양한 연산들에서 결측치를 생략하고 계산하고자 한다면 뒤에 <code>na.rm=True</code>를 붙여주면 된다. ex) <code>sum(데이터셋[범위], na.rm=True)</code>

 

결측치가 포함된 연산은 결과를 NA로 내버리곤 한다; 이런 경우 위의 na.rm=True를 포함하여 계산함수를직접 만들어주어 오류를 피해가야 한다.

{| class="wikitable"

!의도

!방법

!

|-

|열별 결측치 카운팅

|colSums(is.na(데이터셋))

|

|-

|결측치가 들어간 행 지우기

|데이터셋 = na.omit(데이터셋)

|그러나, 결측치 비율이 상당할 경우 위험한 작업이다.

|-

|특정 데이터에 결측치가 들어간 경우 삭제

|<code>데이터셋 = 데이터셋[complete.cases(데이터셋[범위]), ]</code>

|

|-

|결측치에 일정 값 부여

|데이터[is.na(데이터)] = 일정값

|일반적으로 연속형변수의 경우, 평균으로 대체하고,

이산현병순의 경우, 최빈값으로 대체한다.

|}

==중복값 제거하기==
중복데이터를 제거해야 한다. 하나하나 지우기는 너무 어려우니까..
{| class="wikitable"

!이름

!기원

!기능

!사용법

|-

|unique()

|unique

|1차원 벡터의 경우 사용한다.

|unique(벡터)
|-
| rowspan="3" |duplicate()
| rowspan="3" |
|2차원 이상일 때. 기본적으로 맨 위의 값을 살려두고 다음에 등장하는 것부터 지운다.
하나라도 같은 항목이 있으면 지운다.(비추천)
|<code>새로운데이터셋 = 데이터셋[-which(duplicated(데이터셋)), ]</code>
|-
|해당 열 안에서 중복되면 지운다.
|<code>새로운데이터셋 = 데이터셋[-which(duplicated(데이터셋$열이름1)), ]</code>
|-
|고려해야 하는 변수가 여러개일 때.
열이름 대신 열 번호를 사용해도 된다.
|<code>새로운데이터셋 = 데이터셋[!(duplicated(데이터셋[ , c('열이름1', '열이름2', ...)]), ]</code>
|}

==워킹 디렉터리 바꾸기==
setwd("C:/주소/") 로 변경한다.