본문 바로가기

전체 글

(2)
R 기초 정리 라이브러리 사용 library(realxl) -> 엑셀 데이터를 처리하기 위한 패키지 library(XML) -> XML 데이터를 사용하기 위한 패키지 library(jsonlite) -> json 데이터를 사용하기 위한 패키지 library(psych) -> 왜도와 첨도를 구하는 패키지 library(descr) -> 빈도분석을 하는 패키지 library(MASS) -> MASS 내장 데이터를 사용하기 위한 패키지 library(rvest) -> 웹 페이지를 스크래핑하기 위한 패키지 library(stringr) -> 문자열을 가공하기 위한 패키지 library(dplyr) -> 데이터 세트의 rename을 사용하기 위한 패키지 Work Directory 설정 setwd("C:/Users/kkeun/R..
빅 데이터 관련 이론 정리 빅데이터 - 현재 시스템으로 처리 가능한 범위를 넘어서는 데이터 - 페타 바이트, 엑사 바이트, 제타 바이트 등 기존의 데이터 관리 단위를 훨씬 넘어서는 방대한 규모의 데이터 양, 기존의 구조화된 데이터는 물론 문서, 사진, 동영상 등과 같은 비구조화된 데이터를 포함하는 다양한 형태의 데이터 - 데이터의 생성과 그 흐름이 아주 급속하게 진행되는 속도 등 3가지 특성을 가진 데이터 빅데이터의 특징 - 데이터 규모 : Volume - 데이터의 생성 속도 : Velocity - 데이터의 다양성 : Variety Volume / 데이터 규모 - 기존 기술로는 관리가 쉽지 않은 데이터 양으로는 현재는 수십 테라바이트에서 페타바이트 정도 - 기술이 진화함에 따라 이 수치는 역사, 제타, 요타바이트 수준으로 증가 V..