23임규민 2023. 10. 31. 20:07

tidyr 패키지란?

tidyr패키지란 tidy data를 만들기 위한 패키지이다. 

tidy data는 다음과 같은 조건을 만족하는 데이터이다.

* 하나의 열은 하나의 변수여아 한다.

   * 하나의 행은 하나의 케이스여야 한다.

* 하나의 값은 하나의 셀이어야 한다.

tidy data는 데이터를 저장하는 표준 방법이며 tidyverse 패키지 전체에서 사용된다. 

tidy한 데이터는 정제하는 시간이 적게 들며, 이로 인해 더욱 자세한 분석이 가능하다.

 

tidyr 설치&사용

 

tidyr 패키지를 설치하는 코드는 다음과 같다.

install.packages("tidyr")

다음과 같은 결과가 나온다.

설치한 tidyr 패키지는 library를 통해 사용할 수 있다.

library(tidyr)

 

*tidyr이 포함된 모든 tidyrverse 또한 위의 코드를 통해 실행할 수 있다.

 

셀 분리하기

 

앞서 말한 것처럼  "하나의 값은 하나의 셀이어야 한다"는 tidyr의 조건 중 하나이므로, 하나의 셀을 두 개로 분할해야 한다.

 

separate(data,col,into,
sep="[^[alnum:]]+",
remove=TRUE,
convert=FALSE,
extra="warn,
fill="warn",...)

separate(data,col,into,   

data는 내가 읽을 데이터를 의미한다.

col은 split하고 싶은 열을 의미한다.

into는 어떻게 split하고 싶은지를 의미한다.

 

sep="[^[alnum:]]+",

[alnum:]은 알파벳과 숫자, 콜론 문자 중 하나를 찾는 것이다.

'+' 1회 이상의 연속된 문자 패턴을 찾겠다는 의미이다.

 

remove

col을 출력물에서 지울 것인지에 대한 것이다.

 

convert

출력물을 형변환 할 지에 대한 것이다.

 

extra="warn",

출력물이 너무 많을 경우 경고 메시지를 표시한다.

 

fill="warn",

출력물이 너무 적을 경우 경고 메시지를 표시한다. 

 

EXAMPLE

 

 

 

 

purrr 패키지

 

'purrr패키지'란 함수형 프로그래밍 기법을 기반으로 데이터를 다루는 도구와 기능을 제공한다.

'purrr'는 벡터 및 리스트를 반복하고 조작하며

반복 작업을 단순화하고 벡터화된 동작을 수행하는 데 도움을 주는 함수나 연산자를 제공한다.

 

purrr 설치&사용

purrr 패키지를 설치하는 코드는 다음과 같다.

install.packages("purrr")

다음과 같은 결과가 나온다.

 

설치한 purrr 패키지는 library를 통해 사용할 수 있다.

library(purrr)