R:팁

R언어 공부를 위한 틀 틀:R

데이터 다루기 전략

데이터를 다룰 땐 절대 raw 데이터를 건드리지 않는다. 항상 복사해 두고 진행하는 게 나중을 위해 좋다.

전체 데이터를 요란시키는 괴상한 데이터. 일반적으로 1분위수와 3분위수 차이의 1.5배만큼 커다랗게 벗어난 값을 이상치라 부른다.

이상치를 구하는 과정

분위수 구하기	1분위수, Q1=quntile(데이터, probs=c(0.25), na.rm=True) 3분위수, Q3=quntile(데이터, probs=c(0.75), na.rm=True)
울타리 구하기	LC=Q1 - 1.5(Q3-Q1) UC=Q3 + 1.5(Q3-Q1)
울타리를 넘으면 이상치 이상치를 모은 부분집합	데이서텟 = subset(데이터셋, 데이터>LC & 데이터<UC)

다양한 연산들에서 결측치를 생략하고 계산하고자 한다면 뒤에 na.rm=True를 붙여주면 된다. ex) sum(데이터셋[범위], na.rm=True)

결측치가 포함된 연산은 결과를 NA로 내버리곤 한다; 이런 경우 위의 na.rm=True를 포함하여 계산함수를직접 만들어주어 오류를 피해가야 한다.

의도	방법
열별 결측치 카운팅	colSums(is.na(데이터셋))
결측치가 들어간 행 지우기	데이터셋 = na.omit(데이터셋)	그러나, 결측치 비율이 상당할 경우 위험한 작업이다.
특정 데이터에 결측치가 들어간 경우 삭제	`데이터셋 = 데이터셋[complete.cases(데이터셋[범위]), ]`
결측치에 일정 값 부여	데이터[is.na(데이터)] = 일정값	일반적으로 연속형변수의 경우, 평균으로 대체하고, 이산현병순의 경우, 최빈값으로 대체한다.

이름	기원	기능	사용법
sample()	sample	데이터가 너무 방대해 계산이 오래걸리는 경우. 무작위 추출로 연산을 줄인다.	sample(추출범위, 추출갯수, 복원추출여부) sample(2:30, 4, replace=False) False인 경우, 비복원추출을 하겠다는 것.
seed()		무작위 결과값을 고정시켜야 할 때.	set.seed(아무숫자) 숫자에 무작위 결과값이 저장된다.