본문 바로가기
728x90
반응형
SMALL

개인 공부/파이썬14

[Python] 파이썬 Pandas(데이터 전처리) -4 1. 데이터 처리 절차 개요일반적인 빅데이터 분석 절차문제 정의데이터 수집데이터 전처리탐색적 데이터 분석(EDA)분석 결과 도출결과 적용 및 피드백AI 모델 구축 절차문제 정의데이터 수집데이터 전처리EDA특성(Feature) 추출 및 선택AI 모델 생성모델 적용 및 운영데이터 전처리는 전체 분석 및 모델링의 품질을 결정하는 중요한 단계입니다.2. 데이터 전처리의 개념**데이터 전처리(Data Preprocessing)**는 분석 목적에 맞게 데이터 품질을 향상시키기 위한 모든 작업을 포함주요 대상:결측치(Missing Value)중복값(Duplicated Data)이상치(Outlier)자료형 문제단위 불일치변수 유형별 처리 (연속형, 범주형 등)전처리는 고정된 순서 없이 반복적이고 유연하게 수행3. 주요.. 2025. 5. 4.
[Python] 파이썬 Pandas(데이터 이해) -3 1. 데이터프레임 생성Dataset(데이터셋) 을 불러와 DataFrame 객체 생성예: read_csv(), read_excel() 등을 사용해 외부 파일에서 불러오기2. 데이터프레임 내용 확인전체 데이터 출력은 불가능하므로 대표 샘플만 확인사용 목적: 데이터 구조, 첫 인상, 오류 여부 파악메서드설명head()앞부분 5개(기본값) 행 출력tail()뒷부분 5개(기본값) 행 출력 3. 데이터프레임 구조 확인속성 / 메서드설명속성/메서드설명shape(행 수, 열 수) 형태로 출력dtypes각 변수(열)의 자료형 확인info()변수 수, 자료형, 결측치 여부, 메모리 사용량 등 전반적 정보 제공 4. 기술 통계 요약수치형 데이터에 대한 요약 통계 제공describe() 메서드 사용 항목설명count유효 데.. 2025. 5. 3.
[Python] 파이썬 Pandas(데이터 조작) -2 1. 인덱스(Index) 조작 이론인덱스 재배열: reindex()기존 인덱스를 새 인덱스로 재정렬 또는 재지정존재하지 않는 인덱스 → 자동으로 NaN 처리fill_value 옵션 사용 시 NaN 대신 원하는 값으로 채움원본 변경 없이 새로운 객체 반환인덱스 초기화: reset_index()현재 인덱스를 기존 열로 이동인덱스를 0부터 시작하는 정수 인덱스로 초기화새로운 DataFrame 객체 반환인덱스 기준 정렬: sort_index()인덱스를 기준으로 정렬ascending=True → 오름차순, False → 내림차순원본 유지, 새 객체 반환특정 열 기준 정렬: sort_values()지정한 변수(열) 기준으로 정렬데이터 값 기준 정렬이며 인덱스는 유지새로운 객체 반환2. Pandas 연산 이론연산 기.. 2025. 5. 2.
[Python] 파이썬 Pandas(개요 및 기본 사용법) -1 1. Pandas란?파이썬 기반의 데이터 분석 라이브러리대용량 데이터 처리 및 분석을 위해 사용오픈 소스(Open Source) 라이브러리로 자유롭게 사용·수정·배포 가능오픈 소스 저작권 종류GPL, LGPL: 소스 공개 의무 있음APL, BSD: 소스 공개 의무 없음 (상업용으로 자주 사용됨)2. Pandas 특징NumPy의 ndarray 기반으로 데이터 저장행(Row)과 열(Column) 구조의 객체 사용엑셀 시트나 관계형 데이터베이스 테이블과 유사한 구조통계, 시각화, 머신러닝 전처리 등 다양한 분석에 활용3. Pandas 설치표준 파이썬 환경: pip install pandas아나콘다(Anaconda) 배포판에는 기본 포함4. Pandas의 주요 데이터 객체Series (1차원 데이터)1차원 선형.. 2025. 5. 1.
[Python] 파이썬 Numpy 및 배열 파이썬 Numpy1. NumPy란?공식 사이트: https://numpy.orgPython 기반의 데이터 분석 환경에서 배열(행렬) 연산을 위한 핵심 라이브러리대규모 다차원 배열과 행렬 연산에 필요한 다양한 수치 해석 기능 제공내부적으로 ndarray 객체를 사용하여 효율적인 메모리 및 성능 제공NumPy의 주요 특징강력한 N차원 배열 객체 제공 (ndarray)다양한 수치 연산 함수 및 브로드캐스팅 지원C/C++와 포트란과의 통합 기능 제공선형대수, 난수 생성, 푸리에 변환 기능 포함2. NumPy 설치환경설치방법표준 Pythonpip install numpyAnaconda / Google Colab기본 설치되어 있음3. NumPy 배열배열과 리스트의 차이항목리스트 ndarray 배열자료형혼합 가능동일.. 2025. 3. 27.
[Python] 빅데이터 개요 빅데이터(Big Data)란?정형 데이터: 일정한 형식을 가진 데이터예) 엑셀 시트, 테이블 형태의 숫자 및 문자 데이터비정형 데이터: 정해진 형식이 없는 데이터예) 이미지, 자연어, 영상, 음성 등반정형 데이터: 정형과 비정형이 혼합된 데이터예) XML, JSON, 로그파일 등빅데이터란 정형, 비정형, 반정형 데이터를 포함하며, 그 양이 많고 생성 속도가 빠르며, 다양한 형식을 갖는 데이터를 의미합니다.빅데이터의 특징 – 3VVolume (데이터 양)수집되는 데이터의 양이 방대함Velocity (데이터 생성 속도)데이터가 빠른 속도로 생성되고 처리됨Variety (데이터 다양성)다양한 형태의 데이터(텍스트, 이미지, 영상 등)빅데이터 분석이란?단순한 데이터 저장이 아닌, 가치 있는 정보를 추출하는 기술.. 2025. 3. 26.
728x90
반응형
LIST