요약
이 장은 빅데이터 시대에서 데이터베이스의 필요성에 대해 느껴보는 것에 의의를 두었다.
빅데이터 시대
빅데이터 시대의 주요 특징을 3V로 표현하기도 한다. 빠른 속도로(Velocity) 생산되는 다양하고(Variety) 대용량의(Volume) 데이터를 체계적으로 관리 및 분석하는 기술이 중요한 시대가 바로 빅데이터 시대이다.
이러한 빅데이터를 구성하는 3가지 요소에 대해 소개하면 다음과 같다.
- 자원
- 기술
- 인력
여기서 자원은 Big Data를 의미하며, 기술은 빅데이터 플랫폼, 대용량 데이터 관리 + 저장 + 시각화 기술 등을 의미한다. 인력에는 데이터 사이언티스트, 수학 + 공학 능력을 갖춘 인재, 비즈니스 통찰력을 갖춘 인재 등이 해당한다.
데이터 사이언티스트
데이터 과학자는 빅데이터 관련 기술을 이용해, 데이터로부터 중요한 정보와 지식을 발굴해내는 전문가를 말한다.
- 정보(Information): 데이터에 가치를 부여한 것
- 지식(Knowledge): 정보를 조금 더 체계화한 것
이러한 데이터 과학자가 지녀야할 역량은 다음과 같다.
- Data Management: 데이터에 대한 이해를 바탕으로..
- Analytics Modeling: 분석에 대한 이해를 바탕으로..
- Buisness Analysis: 비즈니스에 초점을 맞춰..
데이터마이닝
데이터마이닝이란, 너무 큰 데이터 더미로부터 유용한 정보를 추출하는 지식 발견 방법을 의미한다.
이러한 데이터마이닝의 특성은 다음과 같다.
- 비즈니스 문제에 대한 이해부터 정보기술을 적용하기까지 포괄적인 과정이 필요
- 데이터 관리, 통계, 머신러닝, 딥러닝 등등 다양한 지식 필요
- 데이터베이스에서 지식을 찾아내는 KDD(Knowledge Discovery in Database) 능력 필요
이때, 특이한 점은 단순히 데이터를 추출해내는 능력 뿐 아니라 배경 지식에 해당하는 도메인 지식(Domain Knowledge)에 대한 중요성도 강조하고 있다는 점이다.
이러한 데이터마이닝의 발전 과정과 절차에 대해 알고 싶다면 다음 내용을 참고하길..
데이터마이닝의 발전 과정
- 기업 간 경쟁 심화
- 정보 분석용 데이터 증가
- 컴퓨터 성능 향상
- 자료 저장에 대한 기술 발전(DW: Data Warehousing)
- 데이터마이닝의 요소가 되는 기술의 발전(머신러닝, 딥러닝)
- 마케팅에 대한 새로운 접근 시도
데이터미이닝의 절차
- Select: 방대한 데이터로부터 필요한 Target Data 선별
- Preprocessing: Target Data의 이질성 처리 및 단위 통일
- Transformation: 차원 변화
- Data Mining: 패턴 찾기
- Interpretation / Evaluation: 가치 평가
이러한 데이터마이닝의 문제해결 기법을 다른 기법과 비교하면 다음과 같다.
- 전통 프로그래밍 방식: 알고리즘으로 구현한 규칙과 데이터를 입력하여 해답을 얻는 방식
- 머신러닝 방식: 학습에 쓰이는 데이터와 정답 데이터(GT: Ground Truth)를 입력하여 패턴을 찾는 방식
데이터베이스의 필요성
일상 생활에서 데이터를 관리하는 방식은 다양하다. 대부분의 경우에는 위 사진과 같이 문서를 통해 데이터를 관리한다. 이 또한 탁월한 방식이긴 하지만 정보 불일치와 같은 문제점이 발생할 수 있다. 그래서 현업에서는 발생할 수 있는 오류를 자동으로 제어하는 데이터베이스 시스템을 사용하여 데이터들을 관리한다.
'대학교 공부 > 데이터베이스 (2023)' 카테고리의 다른 글
9주차 - SQL문 기초(테이블 만들기, 테이블 수정하기, 외래 키 설정하기, 속성 수정하기, 테이블 삭제하기) (1) | 2023.12.05 |
---|---|
7주차 - 논리적 설계 단계 (1) | 2023.10.18 |
6주차 - 관계 데이터 모델, 용어, 키의 특성, 무결성 제약조건 (0) | 2023.10.18 |
4주차 - DB 설계자의 역할, 데이터 모델의 종류, 데이터베이스 설계 단계, ER 모델 특징, ER모델 구성 (1) | 2023.10.18 |
3주차 - 데이터베이스 특징, DBMS, 파일 시스템과의 차이, 데이터 모델, 데이터베이스 언어, 데이터베이스 사용자, ANSI/SPARC 아키텍쳐, 데이터 독립성 (1) | 2023.10.18 |