본문 바로가기
인공지능∙모델링/빅데이터 이론

1. 데이터의 저장 - 데이터베이스, 데이터 웨어하우스, 데이터마트

by -옌 2023. 8. 5.

 

1. 데이터베이스(Database)

  •  데이터베이스의 정의

데이터베이스란 컴퓨터 시스템에 저장된 구조화된 정보 또는 데이터의 조직화된 모음이다. 오늘날 운영되고 있는 가장 일반적인 유형의 데이터베이스에서 처리 및 데이터 쿼리를 효율적으로 수행하기 위해 데이터는 행과 열로 모델링된다. 데이터베이스를 통해 데이터에 쉽게 액세스하고 관리, 수정, 업데이트, 제어 및 구성할 수 있다. 대부분의 데이터베이스는 데이터 작성 및 쿼리에 SQL(Structured *Query Language)을 사용한다.

※ 쿼리(query): 찾고싶은 정보를 요청하는 것

 

  • 데이터베이스 관리 시스템(DBMS)의 정의

컴퓨터에 저장되는 데이터베이스를 관리하는 소프트웨어 시스템이다. DBMS는 데이터베이스와 최종 사용자 또는 프로그램 간의 인터페이스 역할을 하여 사용자가 정보의 구성 및 최적화 방법을 검색, 업데이트 및 관리할 수 있게 해준다. 또한 DBMS는 데이터베이스의 감독 및 제어를 용이하게 해 모니터링, 튜닝, 백업, 복구 같은 다양한 관리 작업을 가능케 한다. 뿐만 아니라 데이터의 중복을 제거하고 데이터의 무결성을 제고하는 역할을 한다.

※ 데이터 무결성(data integrity): 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것

 

  • 데이터베이스 관리 시스템(DBMS)의 종류

1. 계층형 DBMS

데이터 상호간의 관계를 계층적으로 나타내어 트리 형태로 구성한 데이터베이스 모델

 

2. 네트워크형 DBMS

서로 연관된 데이터의 관계를 망 형식으로 하여 레코드를 그래프 형태로 표현한 데이터베이스 모델

 

3. 관계형 DBMS

열과 행으로 이루어진 테이블 형식을 이용해 데이터를 정의하고 설명한 모델.

테이블의 각 행을 레코드(record) 혹은 튜플(tuple)로 부른다. 데이터베이스에 표현하는 각 대상을 개체(entity)라고 부르고, 개체는 유형, 무형의 정보로서 몇 개의 속성으로 구성되어 있다. 속성(attribute)은 데이터의 가장 작은 논리적 단위로, 필드(field)라고도 불린다. 키 필드(key field)는 각 레코드를 식별할 수 있게 해주는 고유 키(key)로 이루어진 열을 말한다.

 

 

2. 데이터 웨어하우스(Data Warehouse)

  •  데이터 웨어하우스의 정의

데이터 웨어하우스는 기업 내에 있는 각종 데이터를 추출하고 조합해 사업 목적에 맞는 정보 혹은 지식으로 바꾸어주는 기술이다. 거래처리를 위한 데이터가 아닌 의사결정을 위한 데이터베이스 기술이다. 

 

  •  데이터 웨어하우스의 특징

  1. 주제 지향(subject-orientation)

데이터 웨어하우스는 기업의 의사결정을 위한 주요 주제 및 그와 관련된 데이터들이 중심이 된다. 이와 달리 데이터베이스는 재고관리, 영업관리, 회계관리 등 기업 운영에 필요한 업무 프로세스 처리 지원 위해 설계되고 응용프로그램이 중심이 된다. 

 

2. 통합성(integration)

데이터가 데이터 웨어하우스에 들어갈 때는 일관적인 형태(데이터의 일관된 이름짓기, 일관된 변수 측정, 일관된 코드화 구조 등)로 변환되어 데이터의 통합성이 유지된다.

 

3. 비휘발성(nonvolatilization)

 데이터 웨어하우스는 검색 작업이 수행되는 읽기와  로드만이 가능하며, 새로운 갱신은 발생하지 않는다. 물론 계획된 정책에 따라 정기적인 데이터 변경이 이루어지기는 하지만, 트랜잭션 단위로 변경 작업을 처리하는 일반 데이터베이스와는 다르다. 검색 작업 위주의 데이터 웨어하우스는 삽입·삭제·갱신(수정) 이상이 발생할 염려가 없어, 검색의 효율성을 고려하여 설계하는 경우가 많다.

 

4. 시계열성(time-variance)

데이터 웨어하우스는 올바른 의사 결정을 위해 현재와 과거 데이터를 함께 유지한다. 해당 시점의 데이터를 주기적으로 유지해두는데,  이는 중요한 순간마다 사진을 찍어두는 것과 유사해 데이터 웨어하우스가 저장하고 있는 각 시점의 데이터를 스냅샷(snapshot)이라 한다. 스냅샷은 시간 상의 한 지점과 연결되어 있기 때문에 사용자가 데이터를 시간 축에 따라 비교, 분석할 수 있다. 

 

  •  데이터 웨어하우스의 구성

※ 메타데이터(meta data): 다른 데이터를 설명해주는 데이터를 의미한다. 여기서는 데이터 웨어하우스의 생성과 유지보수에 관한 자료데이터를 의미한다.

※ OLAP(On-Line Analytical Processing): 다차원 데이터 구조를 이용하여 다차원의 복잡한 질의를 고속으로 처리하는 데이터 분석 기술이다.

 

 

3. 데이터 마트(Data Mart)

  •  데이터 마트의 정의

데이터 마트는 데이터 웨어하우스에 저장된 자료 중에서 일정한 주제나 특정 부서의 자료를 별도의 장소에 중복 저장하여 사용자들이 사용하도록 하는 것이다. 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다. 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될 수도 있다.

 

 

 

 

 

<참고 사이트>

https://www.oracle.com/kr/database/what-is-database/

https://www.sap.com/korea/products/technology-platform/datasphere/what-is-a-data-warehouse.html

 

 

 

 

728x90

'인공지능∙모델링 > 빅데이터 이론' 카테고리의 다른 글

2. 데이터 분석 기획  (0) 2023.08.11

댓글