본문 바로가기
728x90

Scikit-Learn9

22. 데이터 준비(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.22 5. 수치 특성 변환 일반적으로 목표와 특성 사이의 선형 관계를 비선형으로 만들 우려가 있으므로 목표(Target)값은 변환시키지 않음 ① 잔차 측정 잔차 측정 방법 수치 변환 전 수치 변환 후(제곱 변환, 역변환, 로그 변환 등 성능이 좋은 것으로 사용, 아래는 역제곱 변환) ② 비닝(binning, 값을 동일한 간격의 bin으로 나눔) 적절한 변환을 판단하지 못할 경우, 연속적인 숫자 변수를 이진 변수로 변환 빠르고 편리하지만, 데이터셋의 용량 증가 .. 2021. 3. 22.
21. 데이터 준비(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.21 1. GIGO(Garbage In Garbage Out) 숫자를 적정하게 조정하여 비정상적 값 혹은 누락된 값에 대한 처리를 할 수 있어야 함 회귀 모델에 맞도록 정성적 특징을 정량적으로 바꿀 수 있어야 함 비선형 관계의 데이터를 선형적으로 표현할 수 있어야 함(사실상 가장 어려운 작업) 중요한 데이터가 누락된 경우, 예측 혹은 회귀로 관리할 수 있어야 함 비정상적인 데이터를 복구하여 회귀 모델을 정상적으로 작동할 수 있어야 함 2. 숫자 특성 조정 일반.. 2021. 3. 21.
8. 회귀(Regression)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.27 8.1 회귀(Regression) - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 - Y = aX1 + bX2 + cX3 …(Y: 종속변수 / X1, X2, X3: 독립변수 / a, b, c: 회귀계수) - 즉, 머신러닝 회귀 예측은 최적의 회귀계수를 찾아내는 것(방정식 찾기) - 분류(Classification)는 이산형, 회귀(Regression)는 숫자형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선.. 2020. 12. 27.
'SMOTE' 설치 오류 conda install -c conda-forge imbalanced-learn 위의 코드로 SMOTE를 install 하였으나.. Error: 'SMOTE' object has no attribute '_validate_data' Imbalanced Date, 즉 불균형 데이터 문제를 처리할 수 있게 도와주는 SMOTE를 설치 도중 위와 같은 오류가 발생하였다. 내용을 찾아보니, 사이킷런의 버전이 맞지 않아 생기는 오류로 판단된다. 해결 방법은 아래와 같다. pip install -U scikit-learn pip install -U imbalanced-learn 해결되었음을 알린다. 2020. 12. 22.
7. 분류(Classification)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 7.1 LightGBM - 기존 GBM과 XGBoost의 후속작. 동일 성능 대비 학습 시간이 매우 짧음 - 적은 데이터에 과적 합할 가능성이 있음(10,000건 이하 거의 안된다고 보는 게 맞을 듯?) - 리프 중심 트리 분할(Leaf Wise) 방식(보통은 균형 트리 분할(Level Wise) 방식을 사용하고 있음) - 사이킷런 LightGBM(분류 LGBMClassifer, 회귀 LGBMRegressor) - 사용하기 위해 Visual Studio Build tool 2015 이상 필요 - visualstudio.microsoft.com/ko/downl.. 2020. 12. 13.
6. 분류(Classification)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 6.1 앙상블 학습(Ensemble Learning) - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 방식 - 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등 보팅(Voting) 서로 다른 알고리즘을 가진 분류기를 결합 배깅(Bagging) 데이터 샘플링을 서로 다르게 추출하여 학습한 같은 유형의 분류기를 결합 / 랜덤 포레스트 등 부스팅(Boosting) 여러 개의 분류기가 순차적으로 학습 및 예측, 예측이 틀렸다면 다음 분류기에 가중치(Weigh.. 2020. 12. 13.
5. 분류(Classification)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.10 5.1 분류(Classification)의 개요 - 지도학습은 레이블(Label)이라는 명시적인 정답이 있는 데이터로 학습하는 머신러닝 방식 - 지도학습의 대표적인 유형, 분류(Classification) - 분류는 학습 데이터의 피처(특징)와 레이블(정답)을 머신러닝 알고리즘으로 학습하여 모델을 생성하고, 미지의 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 - 대표적인 분류 알고리즘 1. 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 2. 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic R.. 2020. 12. 10.
4. 평가(분류 평가) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.11.29 4.1 머신러닝 모델의 예측 성능 평가란? - 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가(Evaluation) 프로세스로 구성 - 성능 평가 지표(Evaluation Metric)는 일반적으로 분류, 회귀에 따라 나뉨 - 분류에 대한 평가 - 회귀에 대한 평가는(5장에서 다룸) - 분류의 성능 평가 지표(이진분류, 멀티분류) 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 4.2 정확도(Accuracy) - 실제 데이터와 예측 데이터가 얼마나 같은지 판단하.. 2020. 11. 29.
3. Scikit-learn(사이킷런) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.10.24 3.1 Scikit-learn(사이킷런) 이란? - 파이썬에서 머신러닝을 위한 가장 쉽고 효율적인 라이브러리 - 오랜 기간 개발되어 라이브러리의 성숙도가 높고 매우 많은 환경에서 사용 중 - 현재는 Tensorflow, Keras 등이 대세 - Anaconda 설치 시 기본 라이브러리에 포함되어 있음 - pip install scikit-learn 3.2 기본예제(붓꽃 품종 예측) - 분류(Classification)는 지도학습(Supervised Learning) 방법 중 하나 - 학습데이터로 모델을 학습시킨 후 별도의 테스트데이터로 검증 및 분류 - sk.. 2020. 10. 24.
반응형