본문 바로가기
728x90

회귀6

21. 데이터 준비(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.21 1. GIGO(Garbage In Garbage Out) 숫자를 적정하게 조정하여 비정상적 값 혹은 누락된 값에 대한 처리를 할 수 있어야 함 회귀 모델에 맞도록 정성적 특징을 정량적으로 바꿀 수 있어야 함 비선형 관계의 데이터를 선형적으로 표현할 수 있어야 함(사실상 가장 어려운 작업) 중요한 데이터가 누락된 경우, 예측 혹은 회귀로 관리할 수 있어야 함 비정상적인 데이터를 복구하여 회귀 모델을 정상적으로 작동할 수 있어야 함 2. 숫자 특성 조정 일반.. 2021. 3. 21.
19. 다중회귀분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.2 4. 데이터 스케일링 및 정규화 데이터의 일부 특성은 단위 척도에 따라 기본 단위, 소수, 천 단위, Kg 등 다양하기 때문에 데이터 조정 필요 동일한 스케일로 조정(단위를 맞춤) OR 동일한 범위로 조정(0~1 사이의 값으로 올 수 있게 정규화) StandardScaler 클래스를 이용하여 평균이 0, 분산이 1인 표준 정규화 수행 혹은, MinMaxScaler 클래스를 이용하여 최솟값이 0, 최댓값이 1인 정규화 수행 혹은, 로그 변환으로 원래 값에 l.. 2021. 3. 3.
18. 다중회귀분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.2.26 1. 모델 생성 및 예측변수와 목표변수 관계 파악 여러 개의 예측변수가 있을 경우, 예측변수와 목표변수 사이의 관계 + 예측변수들 사이의 관계를 고려해야 함 변수 간의 상호작용 관계를 파악하는 것이 필요 다중회귀분석에서는 Adj. R-squared 값과 R-squared 값의 비율이 20%를 초과하지 않아야 함 20% 초과한다는 것은 모델에 중복 변수가 있다는 것을 의미(위는 0.741, 0.734로 해당 안됨) t값이 낮은(0에 가까운) 변수는 모델에서.. 2021. 2. 26.
17. 단순 선형 회귀 분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.27 - Scikit-learn을 활용한 회귀(linear_model 패키지) fit() 메서드로 학습, predict() 메서드로 예측, predict_proba() 메서드로 확률 출력 Statsmodels와 비교하여 선형회귀의 정보가 부족하지만, 빅데이터를 다루기에는 속도가 빠른 Scikit-learn이 더 적합 - 비용 함수 최소화 선형 회귀의 핵심은 회귀 직선의 y값과 원래 값 사이의 차이에 대한 제곱 오차의 합계를 최소화하는 직선을 찾는 것 제곱 오차.. 2021. 2. 23.
16. 단순 선형 회귀 분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.21 지도학습: Label(결과)이 있는 데이터를 활용하여 미래 결과 예측(ex. 데이터 분석) 비지도학습: 데이터를 분류 등 군집화하여 미래 결과 예측(ex. 자동 특성 생성 분야) 강화학습: 환경으로부터 피드백을 받아 미래 결과 예측(ex. 자율 인공지능) X로부터 y를 알아내기 위한 함수 y=h(X), 응답변수 y - 과거의 데이터를 바탕으로 학습하기 때문에, 최근의 트렌드를 반영하지 못하는 경우가 발생 → 온라인 학습 필요 - 정량적 데이터: 연속적인 .. 2021. 1. 23.
8. 회귀(Regression)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.27 8.1 회귀(Regression) - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 - Y = aX1 + bX2 + cX3 …(Y: 종속변수 / X1, X2, X3: 독립변수 / a, b, c: 회귀계수) - 즉, 머신러닝 회귀 예측은 최적의 회귀계수를 찾아내는 것(방정식 찾기) - 분류(Classification)는 이산형, 회귀(Regression)는 숫자형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선.. 2020. 12. 27.
반응형