본문 바로가기
빅데이터

[빅데이터분석] 1강. 빅데이터 소개

by CuckooBird 2024. 4. 15.

빅데이터

  • 빅데이터의 특징
    • 기존의 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
    • 의료 분야의 환자 데이터, 금융 분야의 거래 데이터, 교통 분야의 대중 교통 데이터 등도 빅데이터에 해당
  • 빅데이터의 특징 V3
    • Volume (크기): 일반적으로 수십 테라바이트(terabyte), 또는 수십 페타바이트(petabyte) 이상이 빅데이터의 범위
    • Variety (다양성)
      • structured data (정형 데이터): 고정된 필드에 저장되는 일정한 형식의 데이터 (ex. 엑셀 파일)
      • semi-structured data (반정형 데이터): 일정한 구조는 없으나 구조를 파악할 수 있는 데이터 (ex. XML이나 HTML 같은 메타데이터)
      • unstructured data (반정형 데이터): 고정된 필드에 저장되지 않는 데이터 (ex. 사진, 동영상, 위치 정보 등)
    • Velocity (속도): 빅데이터는 빠른 증가 속도, 소비 속도를 갖음 (ex. 지하철 승하차 정보, SNS 상 메시지)
  • 빅데이터 처리의 어려움
    • 기술적 한계: 새로운 아키텍처, 알고리즘, 기술들이 필요함
    • 인력의 한계: 새로운 기술을 사용할 수 있는 빅데이터를 다룰 수 있는 전문가가 부족함

인공지능

  • 인공지능의 역사
    • 1956년 최초로 '인공지능'이라는 개념이 정의된 이후 AI 연구는 부침을 거듭함
    • 그러나, 2006년 딥러닝 알고리즘이 마련되면서 인공지능은 일대 전환점을 맞이함
    • 인간의 신경망을 본뜬 복잡한 네트워크 안에 엄청난 양의 데이터를 반복해서 넣어 훈련시키면 그 안에서 저절로 질서가 생긴다는 사실을 발견함
  • 인공지능 개념
    • 인간이 하는 지적 활동(인식, 이해, 학습, 추론, 예측, 문제풀기, 창작 등)을 컴퓨터가 하도록 하는 모든 기술
    • 인공지능(AI) 기술은 기호주의(Symbolic) 방법론(규칙/지식 기반 등)에서, 데이터 중심의 머신러닝(기계학습), 딥러닝 등의 방법론으로 발전함
  • 일반 프로그래밍 vs 머신러닝
  • supervised learning / unsupervised learning / reinforcement learning (지도학습 / 비지도학습 / 강화학습)
    • supervised learning: 문제와 정답을 모두 알려주고 공부시키는 방법 -> 예측, classification
    • unsupervised learning: 답을 가르쳐주지 않고 공부시키는 방법 -> 연관 규칙, clustering
    • reinforcement lerning: reward를 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습 -> reward
  • 학습 데이터 문제
    • 딥러닝 모델은 모델 사이즈(parameter의 수)가 증가함에 따라 정확도가 향상되는데, 이를 위해서는 대용량의 labled data가 필요함
    • 하지만 대용량의 데이터에 정답을 labeling하는 것은 매우 어려움
    • 이러한 문제에 대한 대안으로 최근 가장 각광받는 분야
      • 전이학습 (Transfer Learning)
      • 자기지도학습 (Self-Supervised Learning)
  • 빅데이터와 인공지능의 관계
    • 인공지능을 위해서는 많은 학습 데이터가 필요
    • 빅데이터를 통해 인공지능은 더 진화
      => 인공지능 with 빅데이터

관련 연구 소개

  • Transfer Learning (전이학습)
    • 특정 분야에서 학습된 신경망의 일부 능력을 유사하거나 전혀 새로운 분야에서 사용되는 신경망의 학습에 이용하는 것을 의미
    • 데이터가 부족한 분야에도 적용 가능
    • 정확도 향상
    • 속도 향상