본문 바로가기
코딩/Machine Learning

19. 다중회귀분석(2)

by 세자책봉 2021. 3. 3.
728x90

Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02

내 맘대로 요약 공부 중(문제시 비공개 및 삭제)

저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약

최초 작성일 2021.3.2

 

4. 데이터 스케일링 및 정규화

  • 데이터의 일부 특성은 단위 척도에 따라 기본 단위, 소수, 천 단위, Kg 등 다양하기 때문에 데이터 조정 필요
  • 동일한 스케일로 조정(단위를 맞춤) OR 동일한 범위로 조정(0~1 사이의 값으로 올 수 있게 정규화)
  • StandardScaler 클래스를 이용하여 평균이 0, 분산이 1인 표준 정규화 수행 혹은,
  • MinMaxScaler 클래스를 이용하여 최솟값이 0, 최댓값이 1인 정규화 수행 혹은,
  • 로그 변환으로 원래 값에 log 함수를 적용하기도 함

데이터 정규화 전
데이터 정규화 후

  • 다만, 표준화 계수가 크다는 것은 변수가 모델에 중요하다는 것을 의미하지만 단순히 크기만으로 변수끼리의 순위를 매겨서는 안 됨(스케일이 다를 수 있고, 표준편차가 다를 수 있고, 현재 데이터에 상대적이기 때문)  

5. 각 피처의 회귀 계수 값 평가

  • 첫째, 회귀 계수 값의 방향성(+, -)이 적절한지 평가
  • 둘째, 모델에 미치는 변수의 영향력 평가(값이 너무 작다면 제거해야할 필요도 있음, 경제적 필요성)
  • 셋째, 값의 크기가 적절한지 평가(너무 크다면 스케일이 다른지, 정규화가 되어있는지 확인 필요)

6. 모델 성능평가 및 시각화

시각화를 위해 Pipeline을 만들었음
단순 선형 회귀 결과
다항 함수(3차 함수) 회귀 결과
10차의 MSE 값이 5차에 비해서 증가하는 것으로 보아, 차수가 높을수록 성능이 반드시 좋지 않음

7. 과소 적합 및 과대 적합 분석

  • 위에서 볼 수 있듯, 차수가 높을수록 과대적합되어 성능이 감소하게 되는 경우가 있음
  • 편향-분산 트레이트오프를 고려하여 적정 차수의, 오류가 최소가 되는 모델을 만들어야 함

8. 시각화까지 간단 코드 정리

데이터 불러오기
선형 회귀 및 시각화

반응형

'코딩 > Machine Learning' 카테고리의 다른 글

21. 데이터 준비(1)  (0) 2021.03.21
20. 로지스틱 회귀분석(Logistic Regression)  (0) 2021.03.21
18. 다중회귀분석(1)  (0) 2021.02.26
17. 단순 선형 회귀 분석(2)  (0) 2021.02.23
16. 단순 선형 회귀 분석(1)  (0) 2021.01.23

댓글