빅데이터
- 빅데이터의 특징
- 기존의 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
- 의료 분야의 환자 데이터, 금융 분야의 거래 데이터, 교통 분야의 대중 교통 데이터 등도 빅데이터에 해당
- 빅데이터의 특징 V3
- Volume (크기): 일반적으로 수십 테라바이트(terabyte), 또는 수십 페타바이트(petabyte) 이상이 빅데이터의 범위
- Variety (다양성)
- structured data (정형 데이터): 고정된 필드에 저장되는 일정한 형식의 데이터 (ex. 엑셀 파일)
- semi-structured data (반정형 데이터): 일정한 구조는 없으나 구조를 파악할 수 있는 데이터 (ex. XML이나 HTML 같은 메타데이터)
- unstructured data (반정형 데이터): 고정된 필드에 저장되지 않는 데이터 (ex. 사진, 동영상, 위치 정보 등)
- Velocity (속도): 빅데이터는 빠른 증가 속도, 소비 속도를 갖음 (ex. 지하철 승하차 정보, SNS 상 메시지)
- 빅데이터 처리의 어려움
- 기술적 한계: 새로운 아키텍처, 알고리즘, 기술들이 필요함
- 인력의 한계: 새로운 기술을 사용할 수 있는 빅데이터를 다룰 수 있는 전문가가 부족함
인공지능
- 인공지능의 역사
- 1956년 최초로 '인공지능'이라는 개념이 정의된 이후 AI 연구는 부침을 거듭함
- 그러나, 2006년 딥러닝 알고리즘이 마련되면서 인공지능은 일대 전환점을 맞이함
- 인간의 신경망을 본뜬 복잡한 네트워크 안에 엄청난 양의 데이터를 반복해서 넣어 훈련시키면 그 안에서 저절로 질서가 생긴다는 사실을 발견함
- 인공지능 개념
- 인간이 하는 지적 활동(인식, 이해, 학습, 추론, 예측, 문제풀기, 창작 등)을 컴퓨터가 하도록 하는 모든 기술
- 인공지능(AI) 기술은 기호주의(Symbolic) 방법론(규칙/지식 기반 등)에서, 데이터 중심의 머신러닝(기계학습), 딥러닝 등의 방법론으로 발전함
- 일반 프로그래밍 vs 머신러닝
- supervised learning / unsupervised learning / reinforcement learning (지도학습 / 비지도학습 / 강화학습)
- supervised learning: 문제와 정답을 모두 알려주고 공부시키는 방법 -> 예측, classification
- unsupervised learning: 답을 가르쳐주지 않고 공부시키는 방법 -> 연관 규칙, clustering
- reinforcement lerning: reward를 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습 -> reward
- 학습 데이터 문제
- 딥러닝 모델은 모델 사이즈(parameter의 수)가 증가함에 따라 정확도가 향상되는데, 이를 위해서는 대용량의 labled data가 필요함
- 하지만 대용량의 데이터에 정답을 labeling하는 것은 매우 어려움
- 이러한 문제에 대한 대안으로 최근 가장 각광받는 분야
- 전이학습 (Transfer Learning)
- 자기지도학습 (Self-Supervised Learning)
- 빅데이터와 인공지능의 관계
- 인공지능을 위해서는 많은 학습 데이터가 필요
- 빅데이터를 통해 인공지능은 더 진화
=> 인공지능 with 빅데이터
관련 연구 소개
- Transfer Learning (전이학습)
- 특정 분야에서 학습된 신경망의 일부 능력을 유사하거나 전혀 새로운 분야에서 사용되는 신경망의 학습에 이용하는 것을 의미
- 데이터가 부족한 분야에도 적용 가능
- 정확도 향상
- 속도 향상
'빅데이터' 카테고리의 다른 글
[빅데이터분석, Python] 연관 분석 (Assocination Analysis) (0) | 2024.04.21 |
---|---|
[빅데이터분석, Python] 전처리(Data-Preprocessing) (0) | 2024.04.21 |
[빅데이터분석] 4강. 연관 분석 (0) | 2024.04.16 |
[빅데이터분석] 3강. 전처리 (0) | 2024.04.15 |
[빅데이터분석] 2강. 데이터(Data) (0) | 2024.04.15 |