반응형

요약

 이 장은 빅데이터 시대에서 데이터베이스의 필요성에 대해 느껴보는 것에 의의를 두었다.

 

빅데이터 시대

 빅데이터 시대의 주요 특징을 3V로 표현하기도 한다. 빠른 속도로(Velocity) 생산되는 다양하고(Variety) 대용량의(Volume) 데이터를 체계적으로 관리 및 분석하는 기술이 중요한 시대가 바로 빅데이터 시대이다.

 

이러한 빅데이터를 구성하는 3가지 요소에 대해 소개하면 다음과 같다.

  1. 자원
  2. 기술
  3. 인력

여기서 자원은 Big Data를 의미하며, 기술은 빅데이터 플랫폼, 대용량 데이터 관리 + 저장 + 시각화 기술 등을 의미한다. 인력에는 데이터 사이언티스트, 수학 + 공학 능력을 갖춘 인재, 비즈니스 통찰력을 갖춘 인재 등이 해당한다.

 

데이터 사이언티스트

 데이터 과학자는 빅데이터 관련 기술을 이용해, 데이터로부터 중요한 정보지식을 발굴해내는 전문가를 말한다.

  • 정보(Information): 데이터에 가치를 부여한 것
  • 지식(Knowledge): 정보를 조금 더 체계화한 것

 

이러한 데이터 과학자가 지녀야할 역량은 다음과 같다.

  1. Data Management: 데이터에 대한 이해를 바탕으로..
  2. Analytics Modeling: 분석에 대한 이해를 바탕으로..
  3. Buisness Analysis: 비즈니스에 초점을 맞춰..

 

데이터마이닝

 데이터마이닝이란, 너무 큰 데이터 더미로부터 유용한 정보를 추출하는 지식 발견 방법을 의미한다.

이러한 데이터마이닝의 특성은 다음과 같다.

  1. 비즈니스 문제에 대한 이해부터 정보기술을 적용하기까지 포괄적인 과정이 필요
  2. 데이터 관리, 통계, 머신러닝, 딥러닝 등등 다양한 지식 필요
  3. 데이터베이스에서 지식을 찾아내는 KDD(Knowledge Discovery in Database) 능력 필요

이때, 특이한 점은 단순히 데이터를 추출해내는 능력 뿐 아니라 배경 지식에 해당하는 도메인 지식(Domain Knowledge)에 대한 중요성도 강조하고 있다는 점이다.

 

이러한 데이터마이닝의 발전 과정과 절차에 대해 알고 싶다면 다음 내용을 참고하길..

더보기

데이터마이닝의 발전 과정

  1. 기업 간 경쟁 심화
  2. 정보 분석용 데이터 증가
  3. 컴퓨터 성능 향상
  4. 자료 저장에 대한 기술 발전(DW: Data Warehousing)
  5. 데이터마이닝의 요소가 되는 기술의 발전(머신러닝, 딥러닝)
  6. 마케팅에 대한 새로운 접근 시도

 

데이터미이닝의 절차

  1. Select: 방대한 데이터로부터 필요한 Target Data 선별
  2. Preprocessing: Target Data의 이질성 처리 및 단위 통일
  3. Transformation: 차원 변화
  4. Data Mining: 패턴 찾기
  5. Interpretation / Evaluation: 가치 평가

 

이러한 데이터마이닝의 문제해결 기법을 다른 기법과 비교하면 다음과 같다.

  • 전통 프로그래밍 방식: 알고리즘으로 구현한 규칙과 데이터를 입력하여 해답을 얻는 방식
  • 머신러닝 방식: 학습에 쓰이는 데이터와 정답 데이터(GT: Ground Truth)를 입력하여 패턴을 찾는 방식

 

데이터베이스의 필요성

 일상 생활에서 데이터를 관리하는 방식은 다양하다. 대부분의 경우에는 위 사진과 같이 문서를 통해 데이터를 관리한다. 이 또한 탁월한 방식이긴 하지만 정보 불일치와 같은 문제점이 발생할 수 있다. 그래서 현업에서는 발생할 수 있는 오류를 자동으로 제어하는 데이터베이스 시스템을 사용하여 데이터들을 관리한다.

반응형

+ Recent posts