R:자료구조: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
잔글 (→데이터 추출) |
|
(차이 없음)
|
2020년 8월 11일 (화) 16:37 판
R언어 공부를 위한 틀 틀:R
이름 | 벡터 | 행렬 | |||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
설명 | Combind. 하나의 열을 의미한다. | Matrix. | dataframe. | ||||||||||||||||||||||||
생성 | c(데이터) | matrix(
data=데이터, nrow=행수 ncol=열수 byrow=기준) |
data.frame(
변수명=벡터값, ) 필요한 벡터만큼 넣는다. | ||||||||||||||||||||||||
데이터 접근 | 일반 언어에서 처음 인덱스가 0인 것과 달리,
R은 1부터 시작한다.
|
여러 방법을 조합해
| |||||||||||||||||||||||||
데이터형 관련 함수
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
head() | head | 지정한 행만큼 출력한다. | head(데이터셋, 지정숫자) |
str() | 데이터를 확인한다. | str(데이터셋) | |
as() | as | 데이터형을 변환한다. | 열 전체의 변수형을 변환하려면 다음과 같이 한다.
데이터셋$열이름 = as.변수형(데이터셋$열이름) |
벡터 관련 함수
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
seq() | sequence | 순차적 데이터 생성 | seq(from=시작숫자, to=마지막숫자, by=증가범위) |
rep() | repeat | 반복 데이터 생성 | rep(반복할값, 반복횟수) |
length() | length | 데이터 크기 파악 | length(벡터) |
2차원 데이터 관련 함수
직관적인 사용을 위해 %>%를 사용하는데, 이는 dplyr의 기능이다.
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
dim() | 데이터프레임이나 행렬에서 데이터 크기 파악
행과 열 숫자를 순서대로 제공한다. |
dim(데이터셋) | |
데이터 추가하기, 연산하기
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
mutate() | 하나의 변수를 추가한다. | 데이터셋 = 데이터셋 %>%
mutate(추가할열이름 = 연산식) | |
mutate_if() | 조건에 해당하면 실행한다.
mutate_if(판별문, 실행문) |
데이터셋 = 데이터셋 %>%
mutate_if(is.integer, as.numeric) | |
mutate_at() | 지정한 변수들에 대해 계산 적용.
열이름에 '-'를 넣으면 그 변수는 빼고 계산한다. |
데이터셋 = 데이터셋 %>%
mutate_at(vars(열이름1, 열이름2, ...,), 연산식) |
데이터 추출
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
slice() | index를 설정하여 원하는 행을 추출한다. | 데이터셋 = 데이터셋 %>%
slice(1:10) | |
select() | index를 설정하여 원하는 열을 추출한다.
column명을 쓸 수 있다. |
데이터셋 = 데이터셋 %>%
select(1:10, 열이름1, 열이름2, ...) | |
filter()
subset() |
원하는 조건에 해당하는 데이터 추출. | 데이터셋 = 데이터셋 %>%
filter(열이름1 = "해당내용") | |
select_if() | 뽑는 조건을 설정할 수 있다.
ex) 데이터타입에 따라 뽑는다든가. |
데이터셋 = 데이터셋 %>%
select_if(is.integer) | |
arrange() | 데이터 정렬.
기본적으로 오름차순인데, 변수에 '-'를 붙여주면 내림차순이 된다. |
데이터셋 = 데이터셋 %>%
arrange(-열이름) | |
top_n() | 가장 값이 높은 값들을 추출.
top_n(숫자, 열이름) |
top_n(5, Year) | |
distinct() | 중복데이터 제거.
해당 열이름에서 하나라도 중복되면 지운다. |
데이터셋 = 데이터셋 %>%
distinct(열이름1, 열이름2, 열이름3, ...) |