- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- MySQL
- python
- npm install -g yarn 에러
- 연관분석
- pandas
- inner join
- gpt-api
- 쉽게 배우는 데이터 통신과 컴퓨터 네트워크
- 딥러닝 역사
- 코딩테스트
- 프로그래머스
- 쉽게 배우는 데이터 통신과 컴퓨터 네트워크 답지
- TabNet
- sql
- 부스트캠프
- 딥러닝 개요
- pre-course
- 행렬
- ERROR: install is not COMMAND nor fully qualified CLASSNAME.
- map
- 컴퓨터 통신
- gpt-api에러
- 깃
- 컴퓨터통신
- 프로그래머스 SQL
- yarn 설치 에러
- HackerRank
- 역전파
- NumPy
- 부스트캠프ai
최말짱 블로그
데이터 전처리 본문
데이터 전처리 정의
- 데이터 분석 작업을 하기 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭
데이터 전처리가 필요한 이유
- 실무 데이터는 분석 기법을 바로 적용하기 힘든 형태
- 비어있음(missing value), 잡음(noise), 적합하지 않은 데이터 구조
- 낮은 품질의 데이터로는 좋은 분석결과를 얻기 힘듦
데이터 품질 저하의 원인
- 불완전(incomplete) : 데이터가 비어 있는 경우로 DB 테이블의 속성값이 NULL인 경우
- 잡음(noisy) : 데이터에 오류(error)가 포함된 경우 ex) 나이가 음수인 경우
- 모순된(inconsistent) : 데이터 간의 일관성이 없는 경우. ex) 성별은 남자인데 주민번호 뒷 7자리 중 첫 자리가 2인 경우
고품질 데이터라고 하더라도 전처리는 필요하다.
- 실무에서 존재하는 데이터의 구조적 형태가 분석목적이지만, 분석기법에 적합한 경우가 드물기 때문
데이터 전처리 주요 기법
데이터 정제(Data Cleansing)
- 없는 데이터(missing values)는 채우고, 잡음(noisy data)는 제거하며, 모순된 데이터(inconsistent data)는 정합성이 맞는 데이터로 교정하는 작업
데이터 통합(Data Integration)
- 여러 개의 데이터베이스(databases), 데이터큐브(data cubes), 또는 파일(files)을 통합하는 작업
데이터 축소(Data Reduction)
- 샘플링(sampling) 등을 통해 데이터 볼륨(volume)을 줄이거나 분석대상 속성(차원)을 줄이는 작업 데이터
변환(Data Transformation)
- 데이터 정규화(normalization) 또는 집단화(aggregation) 하는 작업
데이터 이산화(Data discretization)
- 데이터 축소(data reduction)의 일종으로 연속적인 수치 데이터에 대한 구간화 작업
- ex, 실제 나이를 10대, 20대, 30대 등으로 변환
결측값(missing value)의 처리
결측값
- 존재하지 않고 비어있는 상태
- DB에서의 NULL 값
결측값을 채우는 방법
- 해당 튜플을 무시한다(row-wise deletion)
- 결측값을 수동으로 채워넣는다.
- 전역상수(global constant)를 사용하여 결측값을 채워 넣는다.
- 속성의 평균값을 사용하여 결측값을 채워 넣는다.
- 주어진 튜블과 같은 클래스에 속하는 튜플 들의 속성 평균값을 사용한다.
- 가장 가능성이 높은 값(예측)으로 결측 값을 채워넣는다 -> 회귀분석, 베이시안 기법, 의사결정트리 기법 등등..
'데이터청년캠퍼스' 카테고리의 다른 글
데이터 마이닝 방법론(CRISP-DM, KDD) (0) | 2022.07.18 |
---|---|
연관규칙 알고리즘 (0) | 2022.07.12 |
군집분석 (0) | 2022.07.12 |
(1-2)빅데이터를 위한 파이썬 (0) | 2022.07.09 |
연관분석의 지표 (0) | 2022.07.08 |