본문 바로가기
코딩/Machine Learning

18. 다중회귀분석(1)

by 세자책봉 2021. 2. 26.
728x90

Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02

내 맘대로 요약 공부 중(문제시 비공개 및 삭제)

저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약

최초 작성일 2021.2.26

 

1. 모델 생성 및 예측변수와 목표변수 관계 파악

  • 여러 개의 예측변수가 있을 경우, 예측변수와 목표변수 사이의 관계 + 예측변수들 사이의 관계를 고려해야 함
  • 변수 간의 상호작용 관계를 파악하는 것이 필요

보스턴 주택가격 데이터 로드
편향 값(상수)을 포함시킨 Xc

  • 다중회귀분석에서는 Adj. R-squared 값과 R-squared 값의 비율이 20%를 초과하지 않아야 함
  • 20% 초과한다는 것은 모델에 중복 변수가 있다는 것을 의미(위는 0.741, 0.734로 해당 안됨) 

  • t값이 낮은(0에 가까운) 변수는 모델에서 제거해도 큰 이상이 없는 변수를 의미
  • Cond. No. 값은 30을 초과하면 신뢰도가 매우 낮다는 것을 의미

2. 모델의 예측변수 사이의 관계 파악(히트맵)

  • 변수가 많아지기 때문에 선형 회귀에서의 피어슨 상관관계는 큰 역할을 하지 못함
  • 응답을 예측하는데 있어서 변수의 독점적인 공헌도직접적인 원인으로서의 영향 정도를 파악
  • DataFrame의 corr() 속성을 활용하여 각 예측변수 사이의 상관도를 히트맵 시각화
  • annot=True, 각 셀에 숫자를 표시할지 여부
  • fmt:'.1g', 0이 아닌 첫번 째 숫자 이하 반올림 'd'는 정수

TAX와 RAD / NOX와 INDUS는 서로 강한 상관관계를 갖고 있다.

 

3. 모델의 예측변수 사이의 관계 파악(고유벡터)

  • 고유벡터(eigenvector)는 새로운 변수가 기존 변수와 어떻게 연관되어 있는지 나타내는 행렬
  • 고유값(eigenvalue)은 각각의 새로운 변수에 대해 재조합된 분산의 정도를 나타냄 참조 
  • Numpy의 linarg.eig 활용

0에 가까운 고유값은 다중공선성의 요인이 되지 않음
다른 값과 비교했을 때, 절대값이 현저하게 다른 값을 나타내 보면 위와 같음

 

 

반응형

댓글