본문 바로가기
728x90

파이썬28

8. 회귀(Regression)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.27 8.1 회귀(Regression) - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 - Y = aX1 + bX2 + cX3 …(Y: 종속변수 / X1, X2, X3: 독립변수 / a, b, c: 회귀계수) - 즉, 머신러닝 회귀 예측은 최적의 회귀계수를 찾아내는 것(방정식 찾기) - 분류(Classification)는 이산형, 회귀(Regression)는 숫자형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선.. 2020. 12. 27.
'SMOTE' 설치 오류 conda install -c conda-forge imbalanced-learn 위의 코드로 SMOTE를 install 하였으나.. Error: 'SMOTE' object has no attribute '_validate_data' Imbalanced Date, 즉 불균형 데이터 문제를 처리할 수 있게 도와주는 SMOTE를 설치 도중 위와 같은 오류가 발생하였다. 내용을 찾아보니, 사이킷런의 버전이 맞지 않아 생기는 오류로 판단된다. 해결 방법은 아래와 같다. pip install -U scikit-learn pip install -U imbalanced-learn 해결되었음을 알린다. 2020. 12. 22.
7. 분류(Classification)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 7.1 LightGBM - 기존 GBM과 XGBoost의 후속작. 동일 성능 대비 학습 시간이 매우 짧음 - 적은 데이터에 과적 합할 가능성이 있음(10,000건 이하 거의 안된다고 보는 게 맞을 듯?) - 리프 중심 트리 분할(Leaf Wise) 방식(보통은 균형 트리 분할(Level Wise) 방식을 사용하고 있음) - 사이킷런 LightGBM(분류 LGBMClassifer, 회귀 LGBMRegressor) - 사용하기 위해 Visual Studio Build tool 2015 이상 필요 - visualstudio.microsoft.com/ko/downl.. 2020. 12. 13.
6. 분류(Classification)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 6.1 앙상블 학습(Ensemble Learning) - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 방식 - 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등 보팅(Voting) 서로 다른 알고리즘을 가진 분류기를 결합 배깅(Bagging) 데이터 샘플링을 서로 다르게 추출하여 학습한 같은 유형의 분류기를 결합 / 랜덤 포레스트 등 부스팅(Boosting) 여러 개의 분류기가 순차적으로 학습 및 예측, 예측이 틀렸다면 다음 분류기에 가중치(Weigh.. 2020. 12. 13.
Graphviz 환경변수 오류 Graphviz 설치 방법은 본 블로그의 5. 분류(classification)_1 글에 자세하게 나와있다. Error: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on your systems' PATH 결정 트리 모델 시각화를 위해 Graphviz 모듈을 import 중 오류가 발생하였다. 해결 방법은 아래와 같다. 해결되었음을 알린다. 2020. 12. 10.
4. 평가(분류 평가) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.11.29 4.1 머신러닝 모델의 예측 성능 평가란? - 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가(Evaluation) 프로세스로 구성 - 성능 평가 지표(Evaluation Metric)는 일반적으로 분류, 회귀에 따라 나뉨 - 분류에 대한 평가 - 회귀에 대한 평가는(5장에서 다룸) - 분류의 성능 평가 지표(이진분류, 멀티분류) 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 4.2 정확도(Accuracy) - 실제 데이터와 예측 데이터가 얼마나 같은지 판단하.. 2020. 11. 29.
3. Scikit-learn(사이킷런) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.10.24 3.1 Scikit-learn(사이킷런) 이란? - 파이썬에서 머신러닝을 위한 가장 쉽고 효율적인 라이브러리 - 오랜 기간 개발되어 라이브러리의 성숙도가 높고 매우 많은 환경에서 사용 중 - 현재는 Tensorflow, Keras 등이 대세 - Anaconda 설치 시 기본 라이브러리에 포함되어 있음 - pip install scikit-learn 3.2 기본예제(붓꽃 품종 예측) - 분류(Classification)는 지도학습(Supervised Learning) 방법 중 하나 - 학습데이터로 모델을 학습시킨 후 별도의 테스트데이터로 검증 및 분류 - sk.. 2020. 10. 24.
2. Pandas 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.09.12 2.1 Pandas란? - 파이썬에서 2차원 데이터를 효율적으로 가공 및 처리할 수 있게 지원하는 패키지 - 행(Row) x 열(Column)로 구성. 엑셀의 시트와 닮아있다고 생각하면 된다. - 핵심 객체는 DataFrame으로, DataFrame은 Column이 여러 개인 데이터 혹은 여러 개의 Series로 이루어진 데이터 - Series는 Column이 한 개인 데이터 - import pandas as pd 2.2 데이터 불러오기 - read_table() vs read_csv() - 기본 필드 구분 문자가 read_table()은 탭('\t'), r.. 2020. 9. 12.
1. Numpy 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.09.08 1.1 Numpy란? - 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지 - C/C++과 같은 저수준 언어 기반의 호환 API를 제공하여 기존 C/C++ 기반의 타 프로그램과의 연동 가능 - numpy의 기본 데이터 타입은 ndarray - import numpy as np 1.2 ndarray 만들기 - np.array(), 파이썬의 리스트를 받아 ndarray로 변환하는 기능 - ndarray는 행과 열의 수를 튜플(Tuple)로 가진다. - .shape으로 크기, .dim으로 차원 수 확인 가능 - 연산은 같은 데이터 타입만 .. 2020. 9. 8.
반응형