본문 바로가기
개인 공부/파이썬

[Python] 파이썬 Pandas(데이터 전처리) -4

by 몽섭 2025. 5. 4.
728x90
반응형
SMALL

1. 데이터 처리 절차 개요

일반적인 빅데이터 분석 절차

  1. 문제 정의
  2. 데이터 수집
  3. 데이터 전처리
  4. 탐색적 데이터 분석(EDA)
  5. 분석 결과 도출
  6. 결과 적용 및 피드백

AI 모델 구축 절차

  1. 문제 정의
  2. 데이터 수집
  3. 데이터 전처리
  4. EDA
  5. 특성(Feature) 추출 및 선택
  6. AI 모델 생성
  7. 모델 적용 및 운영

데이터 전처리는 전체 분석 및 모델링의 품질을 결정하는 중요한 단계입니다.


2. 데이터 전처리의 개념

  • **데이터 전처리(Data Preprocessing)**는 분석 목적에 맞게 데이터 품질을 향상시키기 위한 모든 작업을 포함
  • 주요 대상:
    • 결측치(Missing Value)
    • 중복값(Duplicated Data)
    • 이상치(Outlier)
    • 자료형 문제
    • 단위 불일치
    • 변수 유형별 처리 (연속형, 범주형 등)

전처리는 고정된 순서 없이 반복적이고 유연하게 수행


3. 주요 전처리 항목

1. 결측치 처리 (Missing Value)

목적 사용 함수 / 메서드
결측치 확인 isnull(), value_counts(dropna=False)
결측치 삭제 dropna()
결측치 대체 fillna() + 평균, 중앙값 등
시계열 결측치 보정 fillna(method='ffill'), 'bfill' 등

결측치 처리 시 전체 데이터 수 감소 가능성 주의


2. 중복 데이터 처리

목적 사용 함수 / 메서드
중복 여부 확인 duplicated()
중복 제거 drop_duplicates() + subset= 옵션으로 기준 열 설정

중복 처리는 데이터셋 특성 및 도메인 규칙에 따라 판단


3. 이상치 처리 (Outlier)

  • 정의: 평균이나 분포에서 지나치게 벗어난 값
  • 판단 기준: IQR(사분위수 범위) 기반
이상치 범위: 
Q1 - 1.5 * IQR 보다 작거나
Q3 + 1.5 * IQR 보다 큰 값

이상치 처리 방법

처리 방식 설명
삭제 이상치를 NaN 처리 후 dropna()
대체 IQR 범위 내 값으로 조정
유지 분석 목적에 따라 유지 가능
도메인 모델링 이상치 탐지 모델 학습에 활용 가능

이상치는 시각화 도구(Box Plot 등)로 탐색 시 효과적


4. 단위 표준화

  • 변수마다 단위가 다를 경우 표준화(Standardization) 또는 정규화(Normalization) 수행
  • 모델링 전 필수 작업 (특히 거리 기반 모델에서 중요)

5. 자료형 변환

목적 예시
수치형 변환 문자열 → 정수 (int), 실수 (float)
날짜형 변환 문자열 → datetime
범주형 변환 문자열 → 범주형 (category)

자료형은 메모리 효율, 연산 속도, 모델 입력 포맷 등에 직접 영향


6. 변수 유형에 따른 처리

변수 유형 설명 처리방식
연속형 변수 수치 데이터 통계 요약, 이상치 제거 등
범주형 변수 클래스, 그룹 등 인코딩, 빈도 분석 등

분석 목적에 따라 변수 유형을 재해석하거나 변환하기도 함


4. 전처리 요약 테이블

항목 확인 방법 처리 방법
결측치 isnull(), value_counts() dropna(), fillna()
중복값 duplicated() drop_duplicates()
이상치 사분위수 계산(IQR) 삭제, 대체, 그대로 사용
자료형 dtypes, astype() 정수형, 실수형, 범주형, 날짜형 변환
단위 불일치 시각적/통계적 비교 정규화/표준화
변수 유형 도메인 해석 기반 판단 연속형 ↔ 범주형 처리
728x90
반응형
LIST