데이터베이스

[데이터베이스론] 1장. 데이터베이스 기본개념

CuckooBird 2024. 4. 10. 18:11

데이터베이스의 필요성

  • 데이터(data): 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값
  • 정보(information): 의사 결정에 유용하게 활용할 수 있도록 데이터를 처리한 결과물
  • 정보 처리(Information Processing): 데이터에서 정보를 추출하는 과정 또는 방법
  • 정보 시스템(information system): 조직 운영에 필요한 데이터를 수집하여 저장해두었다가 필요할 때 유용한 정보를 만들어 주는 수단
  • 데이터베이스: 정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 역할을 담당

데이터베이스의 정의와 특성

  • 데이터베이스(DB; DataBase): 특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장한 운영 데이터의 집합
데이터베이스의 정의 = intergrated data , shared data , stored data , operational data
(통합 데이터, 공유 데이터, 저장 데이터, 운영 데이터)
  • intergrated data (통합 데이터): 최소의 중복과 통제 가능한 중복만 허용하는 데이터
    (** 통제 가능한 중복: 의도적으로 중복을 허용. 데이터의 불일치가 일어날 수 있기에 통제 가능한 데이터에만 중복 허용)
  • shared data (공유 데이터): 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있는 공용 데이터
  • stored data (저장 데이터): 컴퓨터가 접근할 수 있는 매체에 저장된 데이터
  • operational data (운영 데이터): 조직의 주요 기능을 수행하기 위해 지속적으로 꼭 필요한 데이터
    (** 운영 데이터는 한 마디로 말하면 '변화'. 데이터는 수시로 바뀔 수 있다는 게 운영데이터와 밀접한 관련이 있음)
데이터베이스의 특징 = real-time accessibility , continous evolution , content reference , concurrent sharing
(실시간 접근성, 계속 변화, 내용 기반 참조, 동시 공유)
  • real-time accessibility (실시간 접근성): 사용자의 데이터 요구에 실시간으로 응답
    (**ex. 은행)
  • continuous evolution (계속 변화): 데이터의 계속적인 삽입, 삭제, 수정을 통해 현재의 정확한 데이터를 유지
  • content reference (내용 기반 참조): 데이터가 저장된 주소나 위치가 아닌 내용으로 참조
    (**RDBMS)
  • concurrent sharing (동시 공유): 서로 다른 데이터의 동시 사용뿐만 아니라 같은 데이터의 동시 사용도 지원
    (**데이터베이스의 정의와 관련)

데이터와 데이터베이스

  • 구조화된 형태에 따른 데이터 분류
    • 정형 데이터 (Structured Data): 구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터 => 정량적 데이터
      (**ex. 엑셀의 스프레드 시트, 관계 데이터베이스의 테이블)
    • 반정형 데이터 (semi-structured data): 구조에 따라 저장된 데이터이지만 데이터 내용 안에 구조에 대한 설명이 함께 존재함. 구조를 파악하는 파싱(parsing) 과정이 필요. 보통 파일 형태로 저장.
      (** 저장 및 검색이나 분석의 처리 과정이 정형 데이터에 비해 복잡하기 때문에 파싱 과정을 통해 파악한 구조 정보를 바탕으로 정형 데이터로 변환하여 활용하기도 한다)
      (**ex. HTML, XML, JSON문서 등)
    • 비정형 데이터 (unstructured data): 정해진 구조가 없어 저장된 데이터 => 정성적 데이터
      (**ex. 소셜 데이터의 텍스트, 영상, 이미지 등 멀티미디어 데이터)
  • 특성에 따른 데이터 분류
    • categorical data (범주형 데이터): 범주로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터. 크기 비교와 산술적인 연산이 가능하지 않아 질적 데이터라고도 함.
      • nominal data (명목형 데이터): 순서, 즉 서열이 없는 값을 가지는 데이터
        (ex. 성별, 혈액형, 학과명, 거주 지역, 음식 메뉴 등)
      • ordinal data (순서형 데이터): 순서, 즉 서열이 있는 값을 가지는 데이터
        (ex. 학년, 학점, 회원 등급 등)
    • numerical data (수치형 데이터): 양적측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터. 양적 데이터라고도 함.
      • discrete data (이산형 데이터): 개수를 셀 수 있는 띄엄띄엄 단절된 숫자 값을 가지는 데이터
        (ex. 고객 수, 판매량, 합격자 수)
      • continuous data (연속형 데이터): 측정을 통해 얻어지는 연속적으로 이어진 숫자 값을 가지는 데이터
        (ex. 키, 몸무게, 온도, 점수)

 

Q. 옷 사이즈는 어떤 데이터에 해당할까?

A. 표현은 숫자이지만, 산술적인 연산이 필요 없으므로 categorical data. 서열이 없으므로 nominal data.