본문 바로가기

시험공부

빅 데이터 관련 이론 정리

빅데이터
-
현재 시스템으로 처리 가능한 범위를 넘어서는 데이터
-
페타 바이트, 엑사 바이트, 제타 바이트 등 기존의 데이터 관리 단위를 훨씬 넘어서는 방대한 규모의 데이터 양, 기존의 구조화된 데이터는 물론 문서, 사진, 동영상 등과 같은 비구조화된 데이터를 포함하는 다양한 형태의 데이터
-
데이터의 생성과 그 흐름이 아주 급속하게 진행되는 속도 등 3가지 특성을 가진 데이터

 

빅데이터의 특징
-
데이터 규모 : Volume
-
데이터의 생성 속도 : Velocity
-
데이터의 다양성 : Variety

 

Volume / 데이터 규모
-
기존 기술로는 관리가 쉽지 않은 데이터 양으로는 현재는 수십 테라바이트에서 페타바이트 정도
-
기술이 진화함에 따라 이 수치는 역사, 제타, 요타바이트 수준으로 증가

 

Variety / 데이터의 다양성
-
기존에 기업에서 사용하던 구조화된 데이터(판매 데이터, 재고 데이터 등..)
-
최근 급증하고 있는 인터넷의 텍스트 데이터, 위치정보, 센서 데이터, 동영상 등 다양한 비구조화된 데이터를 분석하여 유용한 지식을 획득

 

Velocity / 데이터의 생성 흐름 속도
-
시시각각 발생하는 데이터에 대한 분석 처리
-
동영상 스트림 데이터 처리 등 새로운 기술이 등장해 분석 처리가 가능해짐

 

빅데이터의 종류
-
빅 데이터의 데이터 종류는 정형화 정도에 따라 정형, 반정형, 비정형 데이터로 구분

 

정형 데이터
-
고정된 필드에 저장된 데이터로 관계형 데이터베이스 및 스프레드 시트 등에서 관리

 

반정형 데이터
-
고정된 필드에 고정되어 있지는 않지만, 메타 데이터나 스키마 등을 포함하여 일정한 정형성을 가지는 데이터로 XML이나 HTML과 같은 웹 문서 등이 있음

 

비정형 데이터
-
고정된 필드에 고정되어 있지 않은 데이터로 텍스트 분석이 가능한 문서, 이미지, 동영상, 음성 데이터 등이 포함

 

빅데이터의 분석 기법 유형

 

기술통계 분석 / 정형 데이터
-
기술통계는 자료의 특성을 쉽게 파악할 수 있도록 묘사하는 것을 목적하며, 수집한 자료의 주요 특성을 분석하는 통계기법
-
주로 자료의 중심경향성을 파악하기 위한 평균값, 중앙값, 최빈수 값 등과 같은 자료의 변동성을 측정하기 위한 최대값, 최소값, 범위, 분산, 표준편차, 변동계수, 왜도와 편도 등의 자료의 주요 특성을 파악하는 통계분석
-
일반적으로 빅데이터 분석을 위하여 빈도분석, 교차분석, 다차원 척도분석 등이 주로 활용

 

추론 통계 분석 / 정형 데이터
-
수집한 데이터에서 표본을 추출하여 특성을 파악한 후 모집단의 특성으로 일반화할 수 있는 지 여부를 판단하여 모집단의 특성인 모수를 추정하는 통계분석
-
표본을 기초로 전체나 미래를 예측하는 것에 초점을 맞추고 있음. 따라서 전체를 대상으로 하는 빅데이터 분석에는 별로 사용되지 않음
-
일반적으로 사용되는 추론 통계 분석은 평균 차이 분석, 비율 차이 분석, 분산 분석, 상관관계 분석, 회귀 분석 등이 있음

 

데이터 마이닝 / 정형 데이터
-
대용량의 데이터로부터 기존에 알려지지 않은 실행 가능한 정보를 추출하는 지식 발견 과정
-
다면적이고 복합적인 성격을 지닌 대용량 데이터로부터 사전에 파악되지 않은 유용한 정보를 산출하는 지식 발견 방법으로써, 구체적으로 정확한 의사결정을 위해 데이터에서 필요한 정보(내재한 규칙, 연관성 등..)를 탐색하여 정보의 패턴을 분석하는 일련의 작업 과정
-
주요 기법은 분류 분석, 예측 분석, 군집 분석, 연관 분석 등이 있으며, 이를 위해 인공신경망의 의사결정 나무와 같은 기계학습 알고리즘 활용

 

텍스트 마이닝 / 비정형 데이터
-
비정형 텍스트 데이터에서 자연어 처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술
-
방대한 텍스트 뭉치에서 의미 있는 정보를 추출, 다른 정보와의 연계성을 파악, 텍스트가 가진 카테고리를 찾아내는 등, 단순한 정보 검색 그 이상의 결과를 얻어냄
-
컴퓨터가 인간이 사용하는 언어(자연어)를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 자원과 통계적, 규칙적 알고리즘 사용
-
주요 기법은 주제어 분석, 단어 간 연관성 분석, 토픽 모델링, 오피니언 마이닝 등이 있음.

 

오피니언 마이닝 / 비정형 데이터
-
혹은 감성 분석
-
소셜 미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술로 문서에 나타난 의견의 극성을 분석하는 감성 분석이 가장 핵심적
-
특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석 등에 활용
-
정확한 오피니언 마이닝을 위해서는 전문가에 의한 선호도를 나타내는 표현/단어 자원의 축적이 필요하고 이를 감성 사전이라 부름

 

소셜 네트워크 분석 / 비정형 데이터
-
수학의 그래프 이론에 근간하여 소셜 네트워크 연결 구조 및 연결 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브 역할을 하는 사용자를 찾는데 주로 활용
-
소셜 네트워크 상에서 영향력이 있는 사용자를 인플루언서라고 불리며, 인플루언서의 모니터링 및 관리는 고객 마케팅 관점에서 중요

 

데이터 시각화
-
데이터 분석 결과를 누구나 직관적으로 이해할 수 있도록 일목요연하게 표현하는 기술 및 비법

 

정보 시각화
-
보통 대규모 데이터를 도표, 색상, 그래프 등을 활용해 요약적으로 표현하는 시각화 기술, 정보 시각화는 시각화 기술에 따라 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화로 구분

 

과학적 시각화
-
실험 결과나 시뮬레이션 데이터 등 복잡한 데이터를 쉽게 탐색할 수 있도록 3차원 그래픽 기술 등을 활용하여 시각화하는 기술

 

인포그래픽
-
인포메이션과 그래픽의 합성어로, 복잡한 수치나 글로 표현되어 있는 대량의 정보를 표, 그래프, 지도, 다이어그램, 로고, 일러스트레이션 등을 활용하여 한 눈에 파악할 수 있도록 하는 디자인 기술

'시험공부' 카테고리의 다른 글

R 기초 정리  (0) 2022.04.18