728x90
반응형
SMALL

1. 데이터 전처리 기초
1. 데이터 정제 (Data Cleaning)
- 정의: 데이터 전처리, 표준화, 정규화를 포괄하는 개념
- 필요성: 다양한 출처의 데이터는 단위·형식이 제각각 → 일관성 필요
2. 데이터 표준화 (Standardization)
- 평균 0, 표준편차 1로 변환
- Scikit-Learn → StandardScaler() 활용
3. 데이터 정규화 (Normalization)
- 0 ~ 1 범위로 변환
- Scikit-Learn → MinMaxScaler() 활용
4. 자료형 변환
- Pandas astype() 메서드 → 일관성 확보
5. 자료 유형
- 연속형 데이터: 수치형 (키, 몸무게, 연비 등)
- 범주형 데이터: 이산형 (성별, 국가, 학년 등)
6. 구간 분할 (Binning)
- 연속형 변수를 일정 구간으로 나눠 범주형 변수로 변환
- pandas.cut(), numpy.histogram() 활용
7. 범주형 → 수치형 변환
- 원-핫 인코딩 (One-Hot Encoding)
- pandas.get_dummies() 활용
- EDA에서는 보통 적용 X (AI 모델에 활용 시 사용)
8. 시계열 데이터
- Timestamp: 특정 시점 (pandas.to_datetime())
- Period: 일정 기간 (to_period())
- 생성 함수:
- date_range() → Timestamp 배열
- period_range() → Period 배열
2. Pandas 기능
1. 함수 매핑 (Function Mapping)
- 데이터 원소 ↔ 특정 함수 일대일 대응
- Series: apply()
- DataFrame 원소 단위: applymap()
- DataFrame 변수 단위: apply(axis=0)
2. 매핑 결과 반환
- Series → Series → DataFrame으로 통합
- 복잡한 연산도 사용자 정의 함수로 적용 가능
3. DataFrame 행 단위 함수 매핑
- apply(axis=1) → 각 행 데이터를 함수에 전달
- 반환값: Series 객체 (인덱스 기준 매핑)
4. 람다 함수 (Lambda Function)
- 형식: lambda 인수 : 표현식
- 간단한 inline 함수 작성 가능
5. DataFrame 객체 함수 매핑
- pipe() 메서드 활용
- 반환값에 따라 결과 형태 결정 (DataFrame / Series / scalar)
6. 변수 재구성
- 변수 순서 변경: 원하는 순서의 리스트 지정
- 변수 분리: 하나의 변수에 담긴 복수 정보를 분리
7. 필터링
- 조건식 → 불린 인덱싱
- isin() 메서드로 특정 값만 추출 가능
8. 데이터프레임 합치기
- 연결: concat()
- 병합: merge()
9. 그룹 연산 (GroupBy)
- 단계: Split → Apply → Combine
- groupby() 메서드 활용
10. 피벗 테이블
- 4가지 요소: 행 인덱스, 열 인덱스, 값, 집계 함수
- pandas.pivot_table() 사용 → groupby + 집계 결합
728x90
반응형
LIST
'개인 공부 > 파이썬' 카테고리의 다른 글
| [Python] 파이썬 Pandas(데이터 전처리) -4 (0) | 2025.05.04 |
|---|---|
| [Python] 파이썬 Pandas(데이터 이해) -3 (0) | 2025.05.03 |
| [Python] 파이썬 Pandas(데이터 조작) -2 (0) | 2025.05.02 |
| [Python] 파이썬 Pandas(개요 및 기본 사용법) -1 (0) | 2025.05.01 |
| [Python] 파이썬 Numpy 및 배열 (0) | 2025.03.27 |