R:팁: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
잔글편집 요약 없음 |
편집 요약 없음 |
||
5번째 줄: | 5번째 줄: | ||
데이터를 다룰 땐 절대 raw 데이터를 건드리지 않는다. 항상 복사해 두고 진행하는 게 나중을 위해 좋다. | 데이터를 다룰 땐 절대 raw 데이터를 건드리지 않는다. 항상 복사해 두고 진행하는 게 나중을 위해 좋다. | ||
=== 관련함수 === | ===관련함수=== | ||
{| class="wikitable" | {| class="wikitable" | ||
!이름 | !이름 | ||
27번째 줄: | 27번째 줄: | ||
숫자에 무작위 결과값이 저장된다. | 숫자에 무작위 결과값이 저장된다. | ||
|}<br /> | |}<br /> | ||
== 이상치(outlier) 다루기 == | |||
전체 데이터를 요란시키는 괴상한 데이터. 일반적으로 1분위수와 3분위수 차이의 1.5배만큼 커다랗게 벗어난 값을 이상치라 부른다. | |||
{| class="wikitable" | |||
|+이상치를 구하는 과정 | |||
! | |||
! | |||
|- | |||
|분위수 구하기 | |||
|1분위수, Q1=quntile(데이터, probs=c(0.25), na.rm=True) | |||
3분위수, Q3=quntile(데이터, probs=c(0.75), na.rm=True) | |||
|- | |||
|울타리 구하기 | |||
|LC=Q1 - 1.5*(Q3-Q1) | |||
UC=Q3 + 1.5*(Q3-Q1) | |||
|- | |||
|울타리를 넘으면 이상치 | |||
이상치를 모은 부분집합 | |||
|데이서텟 = subset(데이터셋, 데이터>LC & 데이터<UC) | |||
|} | |||
<br /> |
2020년 8월 4일 (화) 11:42 판
R언어 공부를 위한 틀 틀:R
데이터 다루기 전략
데이터를 다룰 땐 절대 raw 데이터를 건드리지 않는다. 항상 복사해 두고 진행하는 게 나중을 위해 좋다.
관련함수
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
sample() | sample | 데이터가 너무 방대해 계산이 오래걸리는 경우.
무작위 추출로 연산을 줄인다. |
sample(추출범위, 추출갯수, 복원추출여부)
sample(2:30, 4, replace=False) False인 경우, 비복원추출을 하겠다는 것. |
seed() | 무작위 결과값을 고정시켜야 할 때. | set.seed(아무숫자)
숫자에 무작위 결과값이 저장된다. |
이상치(outlier) 다루기
전체 데이터를 요란시키는 괴상한 데이터. 일반적으로 1분위수와 3분위수 차이의 1.5배만큼 커다랗게 벗어난 값을 이상치라 부른다.
분위수 구하기 | 1분위수, Q1=quntile(데이터, probs=c(0.25), na.rm=True)
3분위수, Q3=quntile(데이터, probs=c(0.75), na.rm=True) |
울타리 구하기 | LC=Q1 - 1.5*(Q3-Q1)
UC=Q3 + 1.5*(Q3-Q1) |
울타리를 넘으면 이상치
이상치를 모은 부분집합 |
데이서텟 = subset(데이터셋, 데이터>LC & 데이터<UC) |