728x90
반응형
SMALL
1. 데이터 처리 절차 개요
일반적인 빅데이터 분석 절차
- 문제 정의
- 데이터 수집
- 데이터 전처리
- 탐색적 데이터 분석(EDA)
- 분석 결과 도출
- 결과 적용 및 피드백
AI 모델 구축 절차
- 문제 정의
- 데이터 수집
- 데이터 전처리
- EDA
- 특성(Feature) 추출 및 선택
- AI 모델 생성
- 모델 적용 및 운영
데이터 전처리는 전체 분석 및 모델링의 품질을 결정하는 중요한 단계입니다.
2. 데이터 전처리의 개념
- **데이터 전처리(Data Preprocessing)**는 분석 목적에 맞게 데이터 품질을 향상시키기 위한 모든 작업을 포함
- 주요 대상:
- 결측치(Missing Value)
- 중복값(Duplicated Data)
- 이상치(Outlier)
- 자료형 문제
- 단위 불일치
- 변수 유형별 처리 (연속형, 범주형 등)
전처리는 고정된 순서 없이 반복적이고 유연하게 수행
3. 주요 전처리 항목
1. 결측치 처리 (Missing Value)
목적 | 사용 함수 / 메서드 |
결측치 확인 | isnull(), value_counts(dropna=False) |
결측치 삭제 | dropna() |
결측치 대체 | fillna() + 평균, 중앙값 등 |
시계열 결측치 보정 | fillna(method='ffill'), 'bfill' 등 |
결측치 처리 시 전체 데이터 수 감소 가능성 주의
2. 중복 데이터 처리
목적 | 사용 함수 / 메서드 |
중복 여부 확인 | duplicated() |
중복 제거 | drop_duplicates() + subset= 옵션으로 기준 열 설정 |
중복 처리는 데이터셋 특성 및 도메인 규칙에 따라 판단
3. 이상치 처리 (Outlier)
- 정의: 평균이나 분포에서 지나치게 벗어난 값
- 판단 기준: IQR(사분위수 범위) 기반
이상치 범위:
Q1 - 1.5 * IQR 보다 작거나
Q3 + 1.5 * IQR 보다 큰 값
이상치 처리 방법
처리 방식 | 설명 |
삭제 | 이상치를 NaN 처리 후 dropna() |
대체 | IQR 범위 내 값으로 조정 |
유지 | 분석 목적에 따라 유지 가능 |
도메인 모델링 | 이상치 탐지 모델 학습에 활용 가능 |
이상치는 시각화 도구(Box Plot 등)로 탐색 시 효과적
4. 단위 표준화
- 변수마다 단위가 다를 경우 표준화(Standardization) 또는 정규화(Normalization) 수행
- 모델링 전 필수 작업 (특히 거리 기반 모델에서 중요)
5. 자료형 변환
목적 | 예시 |
수치형 변환 | 문자열 → 정수 (int), 실수 (float) |
날짜형 변환 | 문자열 → datetime |
범주형 변환 | 문자열 → 범주형 (category) |
자료형은 메모리 효율, 연산 속도, 모델 입력 포맷 등에 직접 영향
6. 변수 유형에 따른 처리
변수 유형 | 설명 | 처리방식 |
연속형 변수 | 수치 데이터 | 통계 요약, 이상치 제거 등 |
범주형 변수 | 클래스, 그룹 등 | 인코딩, 빈도 분석 등 |
분석 목적에 따라 변수 유형을 재해석하거나 변환하기도 함
4. 전처리 요약 테이블
항목 | 확인 방법 | 처리 방법 |
결측치 | isnull(), value_counts() | dropna(), fillna() |
중복값 | duplicated() | drop_duplicates() |
이상치 | 사분위수 계산(IQR) | 삭제, 대체, 그대로 사용 |
자료형 | dtypes, astype() | 정수형, 실수형, 범주형, 날짜형 변환 |
단위 불일치 | 시각적/통계적 비교 | 정규화/표준화 |
변수 유형 | 도메인 해석 기반 판단 | 연속형 ↔ 범주형 처리 |
728x90
반응형
LIST
'개인 공부 > 파이썬' 카테고리의 다른 글
[Python] 파이썬 Pandas(데이터 이해) -3 (0) | 2025.05.03 |
---|---|
[Python] 파이썬 Pandas(데이터 조작) -2 (0) | 2025.05.02 |
[Python] 파이썬 Pandas(개요 및 기본 사용법) -1 (0) | 2025.05.01 |
[Python] 파이썬 Numpy 및 배열 (0) | 2025.03.27 |
[Python] 빅데이터 개요 (0) | 2025.03.26 |