본문 바로가기
개인 공부/파이썬

[Python] - 파이썬 데이터 전처리 기초 및 Pandas 기능

by 몽섭 2025. 9. 1.
728x90
반응형
SMALL

1. 데이터 전처리 기초

   1. 데이터 정제 (Data Cleaning)

  • 정의: 데이터 전처리, 표준화, 정규화를 포괄하는 개념
  • 필요성: 다양한 출처의 데이터는 단위·형식이 제각각 → 일관성 필요

   2. 데이터 표준화 (Standardization)

  • 평균 0, 표준편차 1로 변환
  • Scikit-Learn → StandardScaler() 활용

   3. 데이터 정규화 (Normalization)

  • 0 ~ 1 범위로 변환
  • Scikit-Learn → MinMaxScaler() 활용

   4. 자료형 변환

  • Pandas astype() 메서드 → 일관성 확보

   5. 자료 유형

  • 연속형 데이터: 수치형 (키, 몸무게, 연비 등)
  • 범주형 데이터: 이산형 (성별, 국가, 학년 등)

   6. 구간 분할 (Binning)

  • 연속형 변수를 일정 구간으로 나눠 범주형 변수로 변환
  • pandas.cut(), numpy.histogram() 활용

   7. 범주형 → 수치형 변환

  • 원-핫 인코딩 (One-Hot Encoding)
  • pandas.get_dummies() 활용
  • EDA에서는 보통 적용 X (AI 모델에 활용 시 사용)

   8. 시계열 데이터

  • Timestamp: 특정 시점 (pandas.to_datetime())
  • Period: 일정 기간 (to_period())
  • 생성 함수:
    • date_range() → Timestamp 배열
    • period_range() → Period 배열

2. Pandas 기능

   1. 함수 매핑 (Function Mapping)

  • 데이터 원소 ↔ 특정 함수 일대일 대응
  • Series: apply()
  • DataFrame 원소 단위: applymap()
  • DataFrame 변수 단위: apply(axis=0)

   2. 매핑 결과 반환

  • Series → Series → DataFrame으로 통합
  • 복잡한 연산도 사용자 정의 함수로 적용 가능

   3. DataFrame 행 단위 함수 매핑

  • apply(axis=1) → 각 행 데이터를 함수에 전달
  • 반환값: Series 객체 (인덱스 기준 매핑)

   4. 람다 함수 (Lambda Function)

  • 형식: lambda 인수 : 표현식
  • 간단한 inline 함수 작성 가능

  5. DataFrame 객체 함수 매핑

  • pipe() 메서드 활용
  • 반환값에 따라 결과 형태 결정 (DataFrame / Series / scalar)

   6. 변수 재구성

  • 변수 순서 변경: 원하는 순서의 리스트 지정
  • 변수 분리: 하나의 변수에 담긴 복수 정보를 분리

   7. 필터링

  • 조건식 → 불린 인덱싱
  • isin() 메서드로 특정 값만 추출 가능

   8. 데이터프레임 합치기

  • 연결: concat()
  • 병합: merge()

   9. 그룹 연산 (GroupBy)

  • 단계: Split → Apply → Combine
  • groupby() 메서드 활용

   10. 피벗 테이블

  • 4가지 요소: 행 인덱스, 열 인덱스, 값, 집계 함수
  • pandas.pivot_table() 사용 → groupby + 집계 결합
728x90
반응형
LIST