R:자료구조: 두 판 사이의 차이

2020년 8월 11일 (화) 07:37 판

R언어 공부를 위한 틀 틀:R

이름 벡터 행렬

설명 Combind. 하나의 열을 의미한다. Matrix. dataframe.

생성

c(데이터)

matrix(

data=데이터,

nrow=행수

ncol=열수

byrow=기준)

data.frame(

변수명=벡터값,

)

필요한 벡터만큼 넣는다.

데이터 접근

일반 언어에서 처음 인덱스가 0인 것과 달리,

R은 1부터 시작한다.

여러 방법을 조합해

구조명[2:3, -2] 등의 형태로 사용 가능

이름	기원	기능	사용법
head()	head	지정한 행만큼 출력한다.	head(데이터셋, 지정숫자)
str()		데이터를 확인한다.	str(데이터셋)
as()	as	데이터형을 변환한다.	열 전체의 변수형을 변환하려면 다음과 같이 한다. 데이터셋$열이름 = as.변수형(데이터셋$열이름)

직관적인 사용을 위해 %>%를 사용하는데, 이는 dplyr의 기능이다.

이름	기원	기능	사용법
dim()		데이터프레임이나 행렬에서 데이터 크기 파악 행과 열 숫자를 순서대로 제공한다.	dim(데이터셋)

이름	기능	사용법
mutate()	하나의 변수를 추가한다.	데이터셋 = 데이터셋 %>% mutate(추가할열이름 = 연산식)
mutate_if()	조건에 해당하면 실행한다. mutate_if(판별문, 실행문)	데이터셋 = 데이터셋 %>% mutate_if(is.integer, as.numeric)
mutate_at()	지정한 변수들에 대해 계산 적용. 열이름에 '-'를 넣으면 그 변수는 빼고 계산한다.	데이터셋 = 데이터셋 %>% mutate_at(vars(열이름1, 열이름2, ...,), 연산식)

이름	기능	사용법
slice()	index를 설정하여 원하는 행을 추출한다.	데이터셋 = 데이터셋 %>% slice(1:10)
select()	index를 설정하여 원하는 열을 추출한다. column명을 쓸 수 있다.	데이터셋 = 데이터셋 %>% select(1:10, 열이름1, 열이름2, ...)
filter() subset()	원하는 조건에 해당하는 데이터 추출.	데이터셋 = 데이터셋 %>% filter(열이름1 = "해당내용")
select_if()	뽑는 조건을 설정할 수 있다. ex) 데이터타입에 따라 뽑는다든가.	데이터셋 = 데이터셋 %>% select_if(is.integer)
arrange()	데이터 정렬. 기본적으로 오름차순인데, 변수에 '-'를 붙여주면 내림차순이 된다.	데이터셋 = 데이터셋 %>% arrange(-열이름)
top_n()	가장 값이 높은 값들을 추출. top_n(숫자, 열이름)	top_n(5, Year)
distinct()	중복데이터 제거. 해당 열이름에서 하나라도 중복되면 지운다.	데이터셋 = 데이터셋 %>% distinct(열이름1, 열이름2, 열이름3, ...)