R:자료형: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
편집 요약 없음 |
잔글 (→관련함수) |
||
52번째 줄: | 52번째 줄: | ||
|} | |} | ||
==관련함수== | ==데이터 파악 관련함수== | ||
{| class="wikitable" | {| class="wikitable" | ||
!이름 | !이름 | ||
81번째 줄: | 81번째 줄: | ||
|해당 데이터의 요약정보를 본다. | |해당 데이터의 요약정보를 본다. | ||
변수타입과 관련 정보들을 보여준다. | 변수타입과 관련 정보들을 보여준다. | ||
{| class="wikitable" | |||
|+ | |||
!데이터형 | |||
!결과 | |||
|- | |||
|Factor | |||
|Low, Mid, High에 해당하는 집계를 보여준다. | |||
|- | |||
|Numeric | |||
|최솟값, 최대값, 평균, 각 분위수 | |||
1분위수는 하위 25%에 해당하는 값. | |||
2분위수는 Median으로 나타나고, | |||
3분위수는 상위 25%에 해당하는 값. | |||
|- | |||
| | |||
| | |||
|} | |||
|summary(데이터) | |summary(데이터) | ||
|} | |||
== 데이터 조작 관련함수 == | |||
{| class="wikitable" | |||
!이름 | |||
!기원 | |||
!기능 | |||
!사용법 | |||
|- | |- | ||
|quantile() | |||
|qunatile | |||
|각 분위수에 해당하는 값을 꺼낸다. | |||
|quantile(데이터셋$열이름, probs = c(0.1, 0.3, 0.5, 0.7, 0.9) | |||
10, 30, 50, 70, 90%에 해당하는 값들을 보여준다. | |||
[이걸 변수에 저장하거나 하진 못하나?] | |||
|- | |||
|sum() | |||
|sum | |||
|합. | |||
|sum(데이터셋$열이름) | |||
|- | |||
|rowSums() | |||
| | | | ||
|행별 합. | |||
|rowSums(데이터셋[범위]) | |||
rowSums(데이터셋[2:8]) | |||
|- | |||
|mean() | |||
|mean | |||
|평균. | |||
|mean(데이터셋$열이름) | |||
|- | |||
|rowMeans() | |||
| | | | ||
|행별 평균. | |||
|rowMeans(데이터셋[범위]) | |||
|- | |||
|sd() | |||
| | | | ||
|표준편차 | |||
|sd(데이터셋$열이름) | |||
|- | |||
|table() | |||
|table | |||
|빈도 테이블 작성. | |||
열 안에 속한 요소가 몇 번씩 등장하는지 세어 테이블로 만든다. | |||
|테이블명 = as.data.frame(table(데이터셋$열이름)) | |||
|- | |||
|xtabs() | |||
| | | | ||
|} | |2차원 테이블 작성. | ||
열이름1과 열이름2 안에 나타나는 조합의 수별로 몇 번씩 등장하는지 센다. | |||
== 시간변수 다루기 == | |테이블명 = as.data.frame(xtabs(~ 데이터셋$열이름1 + 데이터셋$열이름2)) | ||
|} | |||
==시간변수 다루기== | |||
3가지 방법이 있다. | 3가지 방법이 있다. | ||
{| class="wikitable" | {| class="wikitable" | ||
111번째 줄: | 178번째 줄: | ||
|} | |} | ||
=== 날짜형식 === | ===날짜형식=== | ||
2020년 1월 22일 23시 24분 25초 월요일 이라고 할 때의 데이터 표시를 알아보자. | 2020년 1월 22일 23시 24분 25초 월요일 이라고 할 때의 데이터 표시를 알아보자. | ||
{| class="wikitable" | {| class="wikitable" | ||
188번째 줄: | 255번째 줄: | ||
<br /> | <br /> | ||
=== 시간변수 관련함수 === | ===시간변수 관련함수=== | ||
{| class="wikitable" | {| class="wikitable" | ||
!이름 | !이름 |
2020년 8월 3일 (월) 23:22 판
R언어 공부를 위한 틀 틀:R
변수형
변수타입 | 기원 | 설명 |
---|---|---|
chr | character | 문자열 |
int | integer | 정수 |
num | numeric | 자연수 |
Factor | 명목형 변수 | |
Posixct | 시간변수(년월일시분초) | |
Tseries | 시계열 변수 |
변수명 | 설명 | 정보량 | 변환 |
---|---|---|---|
명목형변수 | 특성에 따라 명칭을 주어 구분하는 변수 | 아래로 갈수록 정보량이 많아진다. | 아래에서 위로 변환은 가능하지만,
위에서 아래로의 변환은 정보량 부족으로 불가. |
서열형변수 | 명목형변수에서 서열정보 추가 | ||
연속형변수 | 셀 수 없으며, 구간(0~10)으로 정의되는 변수 |
데이터 파악 관련함수
이름 | 기원 | 기능 | 사용법 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
str() | 데이터의 타입 확인 | str(데이터) | |||||||||
is() | is | 데이터의 타입 확인
str이 변수타입을 알려준다면, is는 참과 거짓으로 알려준다. |
is.integer(데이터) | ||||||||
as() | as | 변수타입을 바꾼다. | as.integer(데이터) | ||||||||
summary() | summary | 해당 데이터의 요약정보를 본다.
변수타입과 관련 정보들을 보여준다.
|
summary(데이터) |
데이터 조작 관련함수
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
quantile() | qunatile | 각 분위수에 해당하는 값을 꺼낸다. | quantile(데이터셋$열이름, probs = c(0.1, 0.3, 0.5, 0.7, 0.9)
10, 30, 50, 70, 90%에 해당하는 값들을 보여준다. [이걸 변수에 저장하거나 하진 못하나?] |
sum() | sum | 합. | sum(데이터셋$열이름) |
rowSums() | 행별 합. | rowSums(데이터셋[범위])
rowSums(데이터셋[2:8]) | |
mean() | mean | 평균. | mean(데이터셋$열이름) |
rowMeans() | 행별 평균. | rowMeans(데이터셋[범위]) | |
sd() | 표준편차 | sd(데이터셋$열이름) | |
table() | table | 빈도 테이블 작성.
열 안에 속한 요소가 몇 번씩 등장하는지 세어 테이블로 만든다. |
테이블명 = as.data.frame(table(데이터셋$열이름)) |
xtabs() | 2차원 테이블 작성.
열이름1과 열이름2 안에 나타나는 조합의 수별로 몇 번씩 등장하는지 센다. |
테이블명 = as.data.frame(xtabs(~ 데이터셋$열이름1 + 데이터셋$열이름2)) |
시간변수 다루기
3가지 방법이 있다.
방법 | 사용처 | 사용예시 |
---|---|---|
as.Date() | 년-월-일 형태 | as.Date(변수, formet="날짜형식")
as.Date(2020-08-03, formet="%Y-%m-%d" |
as.POSIXct() | 년-월-일 시:분:초 형태 | |
lubridate패키지 |
날짜형식
2020년 1월 22일 23시 24분 25초 월요일 이라고 할 때의 데이터 표시를 알아보자.
형식 | 예시 | 형식 | 예시 | |
---|---|---|---|---|
세기 | %C | 20세기 | ||
년 | %Y | 2020 | %y | 20 |
월 | %m | 01 | %B | 1월 |
%b | 1 | |||
일 | %d | 22 | ||
시 | %H | 23 | %l | 11 |
%p | PM | |||
분 | %M | 24 | ||
초 | %S | 25 | ||
요일 | %a | 월 | %A | 월요일 |
%u | 1~7
(1:월요일) |
%w | 0~6
(2:월요일) |
시간변수 관련함수
이름 | 기원 | 기능 | 사용법 |
---|---|---|---|
format() | 형식에 해당하는 데이터만 뽑는다. | format(날짜변수, "형식") |