본문 바로가기

개인 공부/파이썬

[Python] - 파이썬 데이터 전처리 기초 및 Pandas 기능

by 몽섭 2025. 9. 1.

728x90

SMALL

1. 데이터 전처리 기초

1. 데이터 정제 (Data Cleaning)

정의: 데이터 전처리, 표준화, 정규화를 포괄하는 개념
필요성: 다양한 출처의 데이터는 단위·형식이 제각각 → 일관성 필요

2. 데이터 표준화 (Standardization)

평균 0, 표준편차 1로 변환
Scikit-Learn → StandardScaler() 활용

3. 데이터 정규화 (Normalization)

0 ~ 1 범위로 변환
Scikit-Learn → MinMaxScaler() 활용

4. 자료형 변환

Pandas astype() 메서드 → 일관성 확보

5. 자료 유형

연속형 데이터: 수치형 (키, 몸무게, 연비 등)
범주형 데이터: 이산형 (성별, 국가, 학년 등)

6. 구간 분할 (Binning)

연속형 변수를 일정 구간으로 나눠 범주형 변수로 변환
pandas.cut(), numpy.histogram() 활용

7. 범주형 → 수치형 변환

원-핫 인코딩 (One-Hot Encoding)
pandas.get_dummies() 활용
EDA에서는 보통 적용 X (AI 모델에 활용 시 사용)

8. 시계열 데이터

Timestamp: 특정 시점 (pandas.to_datetime())
Period: 일정 기간 (to_period())
생성 함수:
- date_range() → Timestamp 배열
- period_range() → Period 배열

2. Pandas 기능

1. 함수 매핑 (Function Mapping)

데이터 원소 ↔ 특정 함수 일대일 대응
Series: apply()
DataFrame 원소 단위: applymap()
DataFrame 변수 단위: apply(axis=0)

2. 매핑 결과 반환

Series → Series → DataFrame으로 통합
복잡한 연산도 사용자 정의 함수로 적용 가능

3. DataFrame 행 단위 함수 매핑

apply(axis=1) → 각 행 데이터를 함수에 전달
반환값: Series 객체 (인덱스 기준 매핑)

4. 람다 함수 (Lambda Function)

형식: lambda 인수 : 표현식
간단한 inline 함수 작성 가능

5. DataFrame 객체 함수 매핑

pipe() 메서드 활용
반환값에 따라 결과 형태 결정 (DataFrame / Series / scalar)

6. 변수 재구성

변수 순서 변경: 원하는 순서의 리스트 지정
변수 분리: 하나의 변수에 담긴 복수 정보를 분리

7. 필터링

조건식 → 불린 인덱싱
isin() 메서드로 특정 값만 추출 가능

8. 데이터프레임 합치기

연결: concat()
병합: merge()

9. 그룹 연산 (GroupBy)

단계: Split → Apply → Combine
groupby() 메서드 활용

10. 피벗 테이블

4가지 요소: 행 인덱스, 열 인덱스, 값, 집계 함수
pandas.pivot_table() 사용 → groupby + 집계 결합

728x90

LIST

'개인 공부 > 파이썬' 카테고리의 다른 글

[Python] 파이썬 Pandas(데이터 전처리) -4 (0)	2025.05.04
[Python] 파이썬 Pandas(데이터 이해) -3 (0)	2025.05.03
[Python] 파이썬 Pandas(데이터 조작) -2 (0)	2025.05.02
[Python] 파이썬 Pandas(개요 및 기본 사용법) -1 (0)	2025.05.01
[Python] 파이썬 Numpy 및 배열 (0)	2025.03.27

티스토리툴바