본문 바로가기
데이터베이스

[데이터베이스론] 4장. 데이터 모델링

by CuckooBird 2024. 4. 11.

데이터 모델링과 데이터 모델의 개념

  • 데이터 모델링 (data modeling): 현실 세계에 존재하는 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 변환 과정. 데이터베이스 설계의 핵심 과정

  • 2단계 데이터 모델링
    • conceptual modeling (개념적 데이터 모델링): 현실 세계의 중요 데이터를 추출하여 개념 세계로 옮기는 작업
    • logical modeling (논리적 데이터 모델링): 개념 세계의 데이터를 데이터베이스에 저장하는 구조로 표현하는 작업
  • 데이터 모델 (data model): 데이터 모델링의 결과물을 표현하는 도구
    • 개념적 데이터 모델: 사람의 머리로 이해할 수 있도록 현실 세계를 개념적으로 모델링하여 개념적 구조로 표현하는 도구 (ex. 개체-관계 모델 ; E-R model)
    • 논리적 데이터 모델: 개념적 구조를 논리적 모델링하여 데이터베이스의 논리적 구조로 표현하는 도구 (ex. 관계 데이터 모델)
데이터 모델 : operation , data structure , constraint (연산, 데이터 구조, 제약조건)


개체-관계 모델

  • E-R model ; Entity-Relationship model (개체-관계 모델)
    • 피터 첸이 제안한 개념적 데이터 모델
    • 개체와 개체 간의 관계를 이용해 현실 세계를 개념적 구조로 표현
    • 핵심 요소: entity type, attribute(column), relationship (개체, 속성, 관계)
      (** relation 과 relationship의 차이를 혼동하지 말 것. relation은 table의 formal한 용어)
  • E-R diagram (개체-관계 다이어그램): 개체-관계 모델을 이용해 현실 세계를 개념적으로 모델링한 결과물을 그림으로 표현한 것
  • entity type (개체)
    (** 책에는 entity라고 나와있으나, 정확한 용어는 entity type)
    • 현실 세계에서 조직을 운영하는 데 꼭 필요한 사람이나 사물과 같이 구별되는 모든 것
    • 저장할 가치가 있는 중요 데이터를 가지고 있는 사람이나 사물, 개념, 사건 등
    • 다른 개체와 구별되는 이름을 가지고 있고, 각 개체만의 고유한 특성이나 상태, 즉 속성을 하나 이상 가지고 있음
    • 파일 구조의 레코드(record)와 대응됨
      (ex. 서점에 필요한 개체: 고객, 책. ex. 학교에 필요한 개체: 학과, 과목)
  • E-R 다이어그램에서 사각형으로 표현하고 사각형 안에 이름을 표기

  • attribute (속성 또는 column)
    • 개체나 관계가 가지고 있는 고유한 특성
    • 의미 있는 데이터의 가장 작은 논리적 단위
    • 파일 구조의 필드(field)와 대응됨
    • E-R 다이어그램에서 타원으로 표현하고 타원 안에 이름을 표기

  • entity type / entity instance / entity set (개체 / 인스턴스 / 개체 집합)

  • 단일 값 속성과 다중 값 속성
    • 단일 값 속성 (single-valued attribute): 값을 하나만 가질 수 있는 속성
      (ex. 고객 개체의 이름, 적립금 속성)
    • 다중 값 속성 (multi-valued attribute): 값을 여러 개 가질 수 있는 속성
      (ex. 고객 개체의 연락처 속성. ex. 책 개체의 저자 속성)
      • E-R 다이어그램에서 이중 타원으로 표현

(** 관계 데이터 모델, 즉 논리 데이터 부터는 다중 값을 허용하지 않음)

  • 단순 속성과 복합 속성
    • 단순 속성 (simple attribute): 의미를 더는 분해할 수 없는 속성
      (ex. 고객 개체의 적립금 속성, 책 개체의 이름, ISBN, 가격 속성
    • 복합 속성 (composite attribute): 의미를 분해할 수 있는 속성
      (** 쪼개도 의미를 갖고 있으면 복합 속성. 논리 데이터에서는 복합 속성을 허용하지 않아서 복합속성이 섞여있으면 제거를 해야 함)
      (ex. 고객 개체의 주소 속성, 고객 개체의 생년월일 속성)

  • 유도 속성 (derived attribute): 기존의 다른 속성의 값에서 유도되어 결정되는 속성. 값이 별도로 저장되지 않음(하지만 그렇지만은 않음. 복잡하다면 원가와 할인율에 따른 판매가격을 넣는 게 편할 수도 있음).
    (ex. 책 개체의 가격과 할인율 속성으로 계산되는 판매가격 속성, 고객 개체의 출생연도 속성으로 계산되는 나이 속성)
    • E-R 다이어그램에서 점선 타원으로 표현

  • 널 속성과 널 값
    • 널 속성 (null attribute): 널 값이 허용되는 속성
      (** 널 값을 가진 속성이 아니라 널 값이 들어와도 되는 속성을 의미함)
    • 널(null) 값: 아직 결정되지 않았거나 모르는 값 또는 존재하지 않는 값. 공백이나 0과는 의미가 다름.
      (ex. 등급 속성이 널 값 -> 등급이 아직 결정되지 않았음을 의미)
  • 키 속성 (key attribute)
    • 각 개체 인스턴스를 "유일하게" 식별하는 데 사용되는 속성
    • 모든 개체 인스턴스의 키 속성 값이 다름
    • 둘 이상의 속성들로 고객아이디 속성
      (ex. 고객 개체의 고객아이디 속성)
    • E-R 다이어그램에서 밑줄로 표현

  • 관계 (relatioship)
    • 개체와 개체가 맺고 있는 의미 있는 연관성
    • 개체 집합들 사이의 대응 관계, 즉 매핑(mapping)을 의미
      (ex. 고객 개체와 책 개체 간의 구매 관계. "고객은 책을 구매한다")
    • E-R 다이어그램에서 마름모로 표현

  • 관계의 유형
    • 관계에 참여하는 개체 타입의 수 기준  
      • 이항 관계: 개체 타입 두 개가 맺는 관계
      • 삼항 관계: 개체 타입 세 개가 맺는 관계
        (삼항까지는 몰라도, 사항부터는 코드가 복잡해지기 때문에 피해야함. 되도록이면 이항 관계까지가 적당)
      • 순환 관계: 개체 타입 하나가 자기 자신과 맺는 관계
    • 매핑 카디널리티 기준
      • 매핑 카디널리티 (mapping cardinality): 관계를 맺는 두 개체 집합에서, 각 개체 인스턴스가 연관성을 맺고 있는 상대 개체 집합의 인스턴스 개수

      • 일대일(1:1) 관계: 개체 A의 각 인스턴스가 개체 B의 인스턴스 하나와 관계를 맺을 수 있고, 개체 B의 각 인스턴스도 개체 A의 인스턴스 하나와 관계를 맺을 수 있음.
      • 일대다(1:n) 관계: 개체 A의 각 인스턴스가 개체 B의 인스턴스 여러 개와 관계를 맺을 수 있지만, 개체 B의 각 개체 인스턴스는 개체 A의 인스턴스 하나와 관계를 맺을 수 있음.
      • 다대다(n:m) 관계: 개체 A의 각 인스턴스가 개체 B의 인스턴스 여러 개와 관계를 맺을 수 있고, 개체 B의 각 인스턴스도 개체 A의 인스턴스 여러 개와 관계를 맺을 수 있음.

        (개체 두 개가 관계를 맺고 있다고 할 때, 학생은 여러 과목을 들을 수 있고, 과목도 학생 여러 명이 있을 수 있으니 n:m 다대다 관계이다. 학과와 학생이라고 한다면, 학과는 n명의 학생을 받을 수 있지만, 학생은 한 학과만 소속이 될 수 있다고 한다면, 1:n의 일대다 관계이다.)

1:1 일대일 관계
1:n 일대다 관계
n:m 다대다 관계

  • 관계의 참여 특성
    • mandatory participation (필수적 참여(전체 참여)): 모든 개체 인스턴스가 관계에 반드시 참여해야 되는 것을 의미
      (ex. 고객 개체가 책 개체와의 구매 관계에 필수적으로 참여. 모든 고객은 책을 반드시 구매해야 함)
      • E-R 다이어그램에서 이중선으로 표현
    • optional participation (선택적 참여(부분 참여)): 개체 인스턴스 중 일부만 관계에 참여해도 되는 것을 의미
      (ex. 책 개체가 고객 개체와의 구매 관계에 참여해도 되는 것을 의미. 고객이 구매하지 않은 책이 존재할 수 있음)

  • 관계의 종속성
    • weak entity (약한 개체): 다른 개체의 존재 여부에 의존적인 개체 (특정 개체가 없으면 존재할 수 없는 개체)
    • strong entity (강한 개체): 다른 개체의 존재 여부를 결정하는 개체
    • 특징
      • 강한 개체와 약한 개체는 일반적으로 일대다의 관계를 가지고, 약한 개체는 강한 개체와의 관계에 필수적으로 참여함
      • 약한 개체는 강한 개체의 키를 포함하여 키를 구성함
    • E-R 다이어그램에서 weak entity는 이중 사각형으로 표현하고, weak entity가 strong entity와 맺는 관계는 이중 마름모로 표현
      (ex. 직원 개체와 부양가족 개체 사이의 부양 관계. 직원 개체는 strong entity, 부양가족 개체는 weak entity) 

 

  • E-R 다이어그램
    • 사각형: entity를 표현 (이중 사각형은 weak entity)
    • 마름모: relationship를 표현 (이중 마름모: weak entity와 strong entity 사이의 relationship)
    • 타원: attribute를 표현 (underline: attribute는 key attribute, 이중 타원: 다중값(multi-valued attribute)
    • 링크(연결선): 각 요소를 연결 (이중선: mandatory participation)


논리적 데이터 모델

  • 논리적 데이터 모델의 개념
    • E-R  다이어그램으로 표현된 conceptual structure를 database에 저장할 형태로 표현한 logical structure
      (** 데이터베이스의 logical 구조 = database schema)
    • 사용자가 생각하는 데이터베이스의 모습 또는 구조
    • relation data model, hierarchical data model, network data model (관계 데이터 모델, 계층 데이터 모델, 네트워크 데이터 모델) 등이 있음
  • relation data model (관계 데이터 모델)
    • 일반적으로 많이 사용되는 논리적 데이터 모델
    • 데이터베이스의 논리적 구조가 2차원 테이블 형태임
  • hierarchical data model (계층 데이터 모델)
    • 데이터베이스의 논리적 구조가 tree 형태임
    • root 역할을 하는 개체가 존재하고 사이클이 존재하지 않음
    • 개체 간에 상하 관계가 성립 (부모/자식 개체. 부모와 자식 개체는 일대다(1:n) 관계만 허용됨
    • 두 개체 사이에 하나의 관계만 정의할 수 있음
    • 다대다(n:m) 관계를 직접 표현할 수 없음
    • 개념적 구조를 모델링하기 어려워 구조가 복잡해질 수 있음
    • 데이터의 삽입/삭제/수정/검색이 쉽지 않음

  • network data model (네트워크 데이터 모델)
    • 데이터베이스의 논리적 구조가 network, 즉 graph 형태임
    • 개체 간에는 일대다 (1:n)관계만 허용됨 (오너/멤버)
    • 두 개체 사이에 여러 관계를 정의할 수 있어 이름으로 구별함
    • 다대다(n:m) 관계를 직접 표현할 수 없음
    • 구조가 복잡하고 데이터의 삽입/삭제/수정/검색이 쉽지 않음