22. 데이터 준비(2)

728x90

Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02

내 맘대로 요약 공부 중(문제시 비공개 및 삭제)

저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약

최초 작성일 2021.3.22

5. 수치 특성 변환

① 잔차 측정

② 비닝(binning, 값을 동일한 간격의 bin으로 나눔)

적절한 변환을 판단하지 못할 경우, 연속적인 숫자 변수를 이진 변수로 변환
빠르고 편리하지만, 데이터셋의 용량 증가 및 과잉 적합 위험성 증가
동일한 간격의 bin으로 나누고 → histogram 함수로 경계 확인 → digitize 함수로 경계값을 bin으로 변환 → LabelBinarizer로 모든 bin 번호 이진변수로 변환

6. 누락 데이터

7. 이상치(Outliers)

비정상적인 데이터는 회귀계수를 왜곡 시킴
Boxplot은 과감하게 PASS
sklearn 패키지 ensemble 모듈의 IsolationForest 클래스(covariance 모듈의 EllipticEnvelope 클래스 활용도 가능)

21. 데이터 준비(1) (0)	2021.03.21
20. 로지스틱 회귀분석(Logistic Regression) (0)	2021.03.21
19. 다중회귀분석(2) (0)	2021.03.03
18. 다중회귀분석(1) (0)	2021.02.26
17. 단순 선형 회귀 분석(2) (0)	2021.02.23

생각을 현실로 만드는 대장간