R의 DataType 이해


  1. 스칼라(SCALAR)
    숫자, 문자등의 단일 값을 저장하는 data type

    숫자 : 정수 및 부동소수 지원

    문자열 :
    문자열 데이터를 저장하는 data type

    진리값(Boolean) : TRUE, FALSE판단 &(AND) , |(OR), !(NOT)사용



    NA(결측치) : 만약 데이터에 값이 존재하지 않는다면 NA로 표시함. is.na() 함수로 NA 확인가능


    요인(Factor) : 범주형(Categorical) 변수를 위한 데이터 타입. 미리 정해진 여러 개의 값 중 하나의 값을 가짐



  2. 벡터(VECTOR)
    - 같은 데이터 타입을 갖는 1차원 배열 구조
    - 여러 개의 데이터를 모아서 함께 저장하는 것을 의미
    - c(), seq(), rep() 함수 사용 가능
    - 벡터는 중첩 불가능( 벡터의 한 요소로 또 다른 벡터를 사용할 수 없음, 하나의 벡터로 통합)


  3. 리스트(LIST)
    리스트는 (key,value)형태로 데이터를 저장하는 일종의 배열 기존의 배열과 차이점은 데이터형을 서로 혼합하여 저장할 수 있다.
    리스트는 list(키=값, 키=값,..)형태로 데이터를 나열해 정의한다.



    이처럼 리스트에는 다양한 값들을 혼합해서 저장할 수 있다. 따라서 리스트안에 리스트 삽입이 가능 하다.



    리스트내 데이터 접근 : 위에서 본 바와 같이 리스트를 출력해보면 "$키" 형태로 각 키들이 나열된다.
    데이터는 '리스트 변수명$키'와 같이 접근한다. 또는 각 요소를 순서대로 '리스트변수[[인덱스]]'와 같이 접근 가능하다.


  4. 매트릭스(MATRIX)
    벡터와 마찬가지로 행렬에는 한가지 유형의 스칼라만 저장할 수 있다. 따라서 모든 요소가 숫자인 행렬은 가능하지만
    '1 열은 숫자, 2열은 문자열' 과 같은 형태는 불가능하다.
    행렬은 matrix()를 사용한다. 
    행렬값을 위쪽 행부터 채우고 싶다면 byrow를 사용



    행렬의 각 요소는 행렬이름[행인덱스,열인덱스'로 접근할 수 있다. 이때, 인덱스는 벡터의 경우와 마찬가지로 1부터 시작
    1,2행의 데이터만 추출한경우
    1행, 3행, 1열, 3열의 값만 추출한 경우


    행과 열에 명칭을 부여하고 싶다면 dimnames()를 사용



  5. 데이터 프레임(DATA FRAME)
    - 각기 다른 데이터 타입을 갖는 컬럼으로 이루어진 2차원 테이블 구조
    - 행렬과 동일한 형태이나 행렬과 달리 다양한 변수, 범주등을 표현 가능
    - 서로 다른 컬럼은 데이터 타입이 다를 수 있음
    - data.frame() 함수를 이용하여 생성하며 각 컬럼, 행의 이름을 지정



  6. 데이터 프레임의 각 열은 $변수명으로 접근할 수 있다. 행이나 열의 인덱스를 사용해서도 접근 가능



    데이터 프레임의 행 이름, 열 이름은 각각 rownames(), colnames()함수로 지정가능




  7. TYPE 판별 및 변환
    is.factor, is.numeric(숫자벡터), is.character(문자열 벡터), is.matrix, is.data.frame등의 "is.*"형태의 함수들을 사용해
    데이터의 타입을 확인할 수 있다.


'Develop > R' 카테고리의 다른 글

R을 활용한 데이터 시각화  (0) 2018.01.09
R을 활용하여 데이터 처리하기  (0) 2018.01.08
R의 DataType이해  (0) 2018.01.08
R의 기본 사용법  (0) 2018.01.08

+ Recent posts