본문 바로가기
728x90

전체 글189

np.random.seed(0) 쉽게 보자 생성된 난수를 시드에 저장하여 시드가 바뀌지 않을 경우 값을 유지 시드의 숫자가 변하지 않으면 계속 같은 값을 반환함 - np.random.seed(0) - np.random.randn(100, 2) array([[ 1.62434536, -0.61175641], [-0.52817175, -1.07296862], [ 0.86540763, -2.3015387 ], [ 1.74481176, -0.7612069 ], [ 0.3190391 , -0.24937038], ... - np.random.randn(100, 2) array([[ 1.62434536, -0.61175641], [-0.52817175, -1.07296862], [ 0.86540763, -2.3015387 ], [ 1.74481176.. 2020. 12. 29.
8. 회귀(Regression)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.27 8.1 회귀(Regression) - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 - Y = aX1 + bX2 + cX3 …(Y: 종속변수 / X1, X2, X3: 독립변수 / a, b, c: 회귀계수) - 즉, 머신러닝 회귀 예측은 최적의 회귀계수를 찾아내는 것(방정식 찾기) - 분류(Classification)는 이산형, 회귀(Regression)는 숫자형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선.. 2020. 12. 27.
'SMOTE' 설치 오류 conda install -c conda-forge imbalanced-learn 위의 코드로 SMOTE를 install 하였으나.. Error: 'SMOTE' object has no attribute '_validate_data' Imbalanced Date, 즉 불균형 데이터 문제를 처리할 수 있게 도와주는 SMOTE를 설치 도중 위와 같은 오류가 발생하였다. 내용을 찾아보니, 사이킷런의 버전이 맞지 않아 생기는 오류로 판단된다. 해결 방법은 아래와 같다. pip install -U scikit-learn pip install -U imbalanced-learn 해결되었음을 알린다. 2020. 12. 22.
7. 분류(Classification)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 7.1 LightGBM - 기존 GBM과 XGBoost의 후속작. 동일 성능 대비 학습 시간이 매우 짧음 - 적은 데이터에 과적 합할 가능성이 있음(10,000건 이하 거의 안된다고 보는 게 맞을 듯?) - 리프 중심 트리 분할(Leaf Wise) 방식(보통은 균형 트리 분할(Level Wise) 방식을 사용하고 있음) - 사이킷런 LightGBM(분류 LGBMClassifer, 회귀 LGBMRegressor) - 사용하기 위해 Visual Studio Build tool 2015 이상 필요 - visualstudio.microsoft.com/ko/downl.. 2020. 12. 13.
6. 분류(Classification)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 6.1 앙상블 학습(Ensemble Learning) - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 방식 - 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등 보팅(Voting) 서로 다른 알고리즘을 가진 분류기를 결합 배깅(Bagging) 데이터 샘플링을 서로 다르게 추출하여 학습한 같은 유형의 분류기를 결합 / 랜덤 포레스트 등 부스팅(Boosting) 여러 개의 분류기가 순차적으로 학습 및 예측, 예측이 틀렸다면 다음 분류기에 가중치(Weigh.. 2020. 12. 13.
산업안전기사 자격증 취득 후기(필기, 실기) 1950년대 이후 우리나라가 이토록 빠르게 성장할 수 있었던 이유 중 하나로 기술 중심의 산업 문화를 꼽을 수 있다. 자원이 부족한 지형적 특징을 이겨내기 위해 부단히 기술개발을 할 수밖에 없었다. 그런데 최근 산업 전반적으로 '안전'에 대한 관심이 증가하고 있다. 이에 대한 고민을 11. 작업과 안전 글에 작성했었다. 어떻게 보면, 기술 개발이 어느 정도 이루어진 현 상황에서 '안전'으로의 트렌드 변화는 당연한 수순이라고도 보인다. 그렇기에 본인도 요즘 트렌드를 따라가고자 안전에 대한 공부도 할 겸 산업안전기사 자격증을 취득하게 되었다. 1. 산업안전기사 시험에 대한 파악 - 필기 시험 과목: 안전관리론, 인간공학 및 시스템안전공학, 기계위험방지기술, 전기위험방지기술, 화학설비위험방지기술, 건설안전기술.. 2020. 12. 11.
Graphviz 환경변수 오류 Graphviz 설치 방법은 본 블로그의 5. 분류(classification)_1 글에 자세하게 나와있다. Error: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on your systems' PATH 결정 트리 모델 시각화를 위해 Graphviz 모듈을 import 중 오류가 발생하였다. 해결 방법은 아래와 같다. 해결되었음을 알린다. 2020. 12. 10.
5. 분류(Classification)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.10 5.1 분류(Classification)의 개요 - 지도학습은 레이블(Label)이라는 명시적인 정답이 있는 데이터로 학습하는 머신러닝 방식 - 지도학습의 대표적인 유형, 분류(Classification) - 분류는 학습 데이터의 피처(특징)와 레이블(정답)을 머신러닝 알고리즘으로 학습하여 모델을 생성하고, 미지의 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 - 대표적인 분류 알고리즘 1. 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 2. 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic R.. 2020. 12. 10.
4. 평가(분류 평가) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.11.29 4.1 머신러닝 모델의 예측 성능 평가란? - 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가(Evaluation) 프로세스로 구성 - 성능 평가 지표(Evaluation Metric)는 일반적으로 분류, 회귀에 따라 나뉨 - 분류에 대한 평가 - 회귀에 대한 평가는(5장에서 다룸) - 분류의 성능 평가 지표(이진분류, 멀티분류) 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 4.2 정확도(Accuracy) - 실제 데이터와 예측 데이터가 얼마나 같은지 판단하.. 2020. 11. 29.
반응형