최말짱 블로그

데이터 전처리 본문

데이터청년캠퍼스

데이터 전처리

최말짱 2022. 7. 19. 16:16
728x90

 

데이터 전처리 정의

- 데이터 분석 작업을 하기 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭

 

데이터 전처리가 필요한 이유

- 실무 데이터는 분석 기법을 바로 적용하기 힘든 형태

- 비어있음(missing value), 잡음(noise), 적합하지 않은 데이터 구조 

- 낮은 품질의 데이터로는 좋은 분석결과를 얻기 힘듦

 

데이터 품질 저하의 원인 

- 불완전(incomplete) : 데이터가 비어 있는 경우로 DB 테이블의 속성값이 NULL인 경우

- 잡음(noisy) : 데이터에 오류(error)가 포함된 경우 ex) 나이가 음수인 경우

- 모순된(inconsistent) : 데이터 간의 일관성이 없는 경우. ex) 성별은 남자인데 주민번호 뒷 7자리 중 첫 자리가 2인 경우

 

고품질 데이터라고 하더라도 전처리는 필요하다.

- 실무에서 존재하는 데이터의 구조적 형태가 분석목적이지만, 분석기법에 적합한 경우가 드물기 때문

 

 

데이터 전처리 주요 기법

데이터 정제(Data Cleansing)

- 없는 데이터(missing values)는 채우고, 잡음(noisy data)는 제거하며, 모순된 데이터(inconsistent data)는 정합성이 맞는 데이터로 교정하는 작업

 

데이터 통합(Data Integration)

- 여러 개의 데이터베이스(databases), 데이터큐브(data cubes), 또는 파일(files)을 통합하는 작업

 

데이터 축소(Data Reduction)

- 샘플링(sampling) 등을 통해 데이터 볼륨(volume)을 줄이거나 분석대상 속성(차원)을 줄이는 작업 데이터

 

변환(Data Transformation)

- 데이터 정규화(normalization) 또는 집단화(aggregation) 하는 작업

 

데이터 이산화(Data discretization)

- 데이터 축소(data reduction)의 일종으로 연속적인 수치 데이터에 대한 구간화 작업

- ex, 실제 나이를 10대, 20대, 30대 등으로 변환

 

 

 

결측값(missing value)의 처리

결측값

- 존재하지 않고 비어있는 상태

- DB에서의 NULL 값

 

결측값을 채우는 방법

- 해당 튜플을 무시한다(row-wise deletion)

- 결측값을 수동으로 채워넣는다.

- 전역상수(global constant)를 사용하여 결측값을 채워 넣는다.

- 속성의 평균값을 사용하여 결측값을 채워 넣는다.

- 주어진 튜블과 같은 클래스에 속하는 튜플 들의 속성 평균값을 사용한다.

- 가장 가능성이 높은 값(예측)으로 결측 값을 채워넣는다 -> 회귀분석, 베이시안 기법, 의사결정트리 기법 등등..

'데이터청년캠퍼스' 카테고리의 다른 글

데이터 마이닝 방법론(CRISP-DM, KDD)  (0) 2022.07.18
연관규칙 알고리즘  (0) 2022.07.12
군집분석  (0) 2022.07.12
(1-2)빅데이터를 위한 파이썬  (0) 2022.07.09
연관분석의 지표  (0) 2022.07.08