data cleaning1 [빅데이터분석, Python] 전처리(Data-Preprocessing) 데이터셋 다운로드 import pandas as pd import numpy as np df = pd.read_csv( 'https://raw.githubusercontent.com/TeamLab/machine_learning_from_scratch_with_python/master/code/ch12/titanic/train.csv') 타이타닉 데이터셋: 전처리 연습에 많이 사용한다. 문자열 치환 머신러닝 알고리즘은 문자열을 처리하지 못하기 때문에 문자열을 수치형으로 변환해줄 필요가 있다. 문자열 치환 방법 라벨 인코딩: 특정 문자열 데이터를 정수와 매칭하여 단순 변환하는 방식으로 대소 관계에 영향을 주기 때문에 설명 변수에는 잘 사용하지 않는다. 원핫 인코딩: 유일한 문자열의 개수만큼 컬럼을 생성하여 .. 2024. 4. 21. 이전 1 다음