CS/데이터베이스

데이터 베이스 기본 개념 + 데이터 베이스의 정의와 특징 그리고 분류

JWonK 2022. 4. 10. 21:06
728x90
반응형

데이터 베이스를 공부하기 전, 데이터 베이스를 이루고 있는 데이터는 무엇이고 데이터와 정보는 같은 것일까?

 

정보를 데이터와 같은 의미로 사용하는 경우가 많은데, 이 둘은 다른 개념이다.

 

데이터는 현실세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값으로, 자료라고도 한다.

 

정보는 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물이다.

 

위 개념들로 생각해보면 데이터를 Data Lake로, 정보를 Data Warehouse의 비슷한 맥락으로 이해해도 괜찮을 것 같다

 


 

정보 처리

(Information Processing)

 

데이터에서 정보를 추출하는 과정 또는 방법을 정보 처리라 한다. 즉, 정보 처리는 데이터를 상황에 맞게 분석하거나 해석하여 데이터 간의 의미 관계를 파악하는 것.

 

ex) 어느 기업에서 소비자 패턴에 대한 데이터를 수집한 뒤 이를 소비자 패턴 분석에 활용하기 위한 정보로 추출 또는 변환하는 과정이 정보 처리가 되는 것이다.

 

이렇게 유용하게 활용할 수 있는 정보를 정확하게 추출할 수 있도록 데이터를 대신 관리해주는 역할이 데이터 베이스가 담당한다.

 


정보 시스템

(Information System)  

 

- 조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단을 정보 시스템이라고 한다.

 

- 정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 핵심 역할은 데이터 베이스가 담당.

 

정보 시스템의 역할과 구성

정보 시스템은 사용 목적에 따라 저장되는 데이터의 내용도 다르고 부르는 이름도 다르다. 

 

ex) 경영 관리에 필요한 정보 시스템 - 경영 정보 시스템 

     복합적이고 광범위한 의사 결정을 위해 사용되는 정보 시스템 - 의사 결정 지원 시스템

 


데이터 베이스

(DataBase)

 

특정 조직의 여러 사용자가 '공유'하여 사용할 수 있도록 '통합'해서 '저장'한 '운영' 데이터의 집합

데이터 베이스의 정의

  • 공유 데이터
    • 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있는 공유 데이터
  • 통합 데이터
    • 최소의 중복과 통제 가능한 중복만 허용하는 데이터
  • 저장 데이터
    • 컴퓨터가 접근할 수 있는 매체에 저장된 데이터
  • 운영 데이터
    • 조직의 주요 기능을 수행하기 위해 지속적으로 꼭 필요한 데이터

 

데이터 베이스의 특징

  • 실시간 접근
    • 사용자의 데이터 요구에 실시간으로 응답
  • 계속 변화
    • 데이터의 계속적인 삽입, 삭제, 수정을 통해 현재의 정확한 데이터를 유지
  • 동시 공유
    • 서로 다른 데이터의 동시 사용 뿐만 아니라 같은 데이터의 동시 사용도 지원
  • 내용 기반 참조
    • 데이터가 저장된 주소나 위치가 아닌 내용으로 참조

 



1. 형태에 따른 데이터 분류

데이터는 구조화된 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터 분류 가능

 

 

1) 정형 데이터(structured data)

  • 구조화된 데이터, 즉 미리 정해진 구조에 따라 정해진 데이터
    • 미리 정해진 데이터 구조를 스키마schema라 한다.
    • ex) 엑셀의 스프레드시트, 관계 데이터 베이스의 테이블

 

2) 반정형 데이터(semi-structured data)

  • 구조에 따라 저장된 데이터지만 데이터 내용 안에 구조에 대한 설명이 함께 존재
  • 구조를 파악하는 파싱(parsing) 과정 필요
  • 보통 파일 형태로 저장
  • ex) HTML, XML, JSON
    • 내용과 함께 설명된 데이터 구조를 스키마schema라고도 하지만 메타 데이터metadata라고도 한다.

 

3) 비정형 데이터(unstructured data)

  • 정해진 구조가 없이 저장된 데이터
  • ex) 텍스트, 영상, 이미지, pdf 문서
  • 최근에는 스마트 기기의 활성화로 SNS 이용자가 크게 늘면서 많은 양의 비정형 데이터 생산

 

 

 

 

 

2. 특성에 따른 데이터 분류

다양한 특성의 데이터가 어느 정도 구조화된 형태로 모여 있느냐에 따라 정형, 비정형, 반정형으로 분류

일반적으로 데이터를 특성에 따라 범주형 데이터와 수치형 데이터로 분류한다.

 

 

1) 범주형 데이터(categorical data)

  • 범주(category)로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터
  • ex) 남자와 여자로 구분 가능한 성별, 1학년 / 2학년 등으로 구분되는 학년
    • 범주형 데이터는 명목형 데이터순서형 데이터로 다시 세분화 가능

 

1-1) 명목형 데이터(nominal data)

  • 서열이 없는 값을 가지는 데이터
  • ex) 혈액형, 특정 대학의 학과명, 거주 지역, 음식 메뉴

 

1-2) 순서형 데이터(ordinal data)

  • 서열이 있는 값을 가지는 데이터
  • ex) 1학년, 2학년 등으로 구분되는 학년, 학점, 회원 등급 등

 

-> 범주형 데이터는 대부분 문자 타입의 값으로, 양적 측면에서 크기 비교와 산술적인 연산이 가능하지 않기 때문에 

질적 데이터(Qualitative Data)라고도 한다. 

 

 

2) 수치형 데이터(numerical data)

  • 양적 측면에서 크기 비교와 산술 적인 연산이 가능한 숫자 값을 가진 데이터를 의미 -> 양적 데이터라고도 한다.
  • 이산형과 연속형 데이터로 세분화 가능

 

  1. 이산형 데이터 : 단절된 숫자 값을 가지는 데이터
  2. 연속형 데이터 : 연속적으로 이어진 숫자 값을 가지는 데이터

 

728x90
반응형