본문 바로가기
728x90

코딩26

6. 분류(Classification)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 6.1 앙상블 학습(Ensemble Learning) - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 방식 - 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등 보팅(Voting) 서로 다른 알고리즘을 가진 분류기를 결합 배깅(Bagging) 데이터 샘플링을 서로 다르게 추출하여 학습한 같은 유형의 분류기를 결합 / 랜덤 포레스트 등 부스팅(Boosting) 여러 개의 분류기가 순차적으로 학습 및 예측, 예측이 틀렸다면 다음 분류기에 가중치(Weigh.. 2020. 12. 13.
Graphviz 환경변수 오류 Graphviz 설치 방법은 본 블로그의 5. 분류(classification)_1 글에 자세하게 나와있다. Error: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on your systems' PATH 결정 트리 모델 시각화를 위해 Graphviz 모듈을 import 중 오류가 발생하였다. 해결 방법은 아래와 같다. 해결되었음을 알린다. 2020. 12. 10.
5. 분류(Classification)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.10 5.1 분류(Classification)의 개요 - 지도학습은 레이블(Label)이라는 명시적인 정답이 있는 데이터로 학습하는 머신러닝 방식 - 지도학습의 대표적인 유형, 분류(Classification) - 분류는 학습 데이터의 피처(특징)와 레이블(정답)을 머신러닝 알고리즘으로 학습하여 모델을 생성하고, 미지의 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 - 대표적인 분류 알고리즘 1. 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 2. 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic R.. 2020. 12. 10.
4. 평가(분류 평가) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.11.29 4.1 머신러닝 모델의 예측 성능 평가란? - 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가(Evaluation) 프로세스로 구성 - 성능 평가 지표(Evaluation Metric)는 일반적으로 분류, 회귀에 따라 나뉨 - 분류에 대한 평가 - 회귀에 대한 평가는(5장에서 다룸) - 분류의 성능 평가 지표(이진분류, 멀티분류) 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 4.2 정확도(Accuracy) - 실제 데이터와 예측 데이터가 얼마나 같은지 판단하.. 2020. 11. 29.
3. Scikit-learn(사이킷런) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.10.24 3.1 Scikit-learn(사이킷런) 이란? - 파이썬에서 머신러닝을 위한 가장 쉽고 효율적인 라이브러리 - 오랜 기간 개발되어 라이브러리의 성숙도가 높고 매우 많은 환경에서 사용 중 - 현재는 Tensorflow, Keras 등이 대세 - Anaconda 설치 시 기본 라이브러리에 포함되어 있음 - pip install scikit-learn 3.2 기본예제(붓꽃 품종 예측) - 분류(Classification)는 지도학습(Supervised Learning) 방법 중 하나 - 학습데이터로 모델을 학습시킨 후 별도의 테스트데이터로 검증 및 분류 - sk.. 2020. 10. 24.
2. Pandas 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.09.12 2.1 Pandas란? - 파이썬에서 2차원 데이터를 효율적으로 가공 및 처리할 수 있게 지원하는 패키지 - 행(Row) x 열(Column)로 구성. 엑셀의 시트와 닮아있다고 생각하면 된다. - 핵심 객체는 DataFrame으로, DataFrame은 Column이 여러 개인 데이터 혹은 여러 개의 Series로 이루어진 데이터 - Series는 Column이 한 개인 데이터 - import pandas as pd 2.2 데이터 불러오기 - read_table() vs read_csv() - 기본 필드 구분 문자가 read_table()은 탭('\t'), r.. 2020. 9. 12.
1. Numpy 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.09.08 1.1 Numpy란? - 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지 - C/C++과 같은 저수준 언어 기반의 호환 API를 제공하여 기존 C/C++ 기반의 타 프로그램과의 연동 가능 - numpy의 기본 데이터 타입은 ndarray - import numpy as np 1.2 ndarray 만들기 - np.array(), 파이썬의 리스트를 받아 ndarray로 변환하는 기능 - ndarray는 행과 열의 수를 튜플(Tuple)로 가진다. - .shape으로 크기, .dim으로 차원 수 확인 가능 - 연산은 같은 데이터 타입만 .. 2020. 9. 8.
Python Crawling 차단(데이터 못 받는) 오류 간간히 필요한 데이터를 수집하기 위해 크롤러를 구현 해 놓은게 있다. 네이버 뉴스를 크롤링 하는 것인데.. 3개월 만에 다시 사용하려고 하니, 오류가 발생했다. 더보기 IndexError : list index out of range 코드에 list의 첫번째 데이터 [0]을 요청했는데, 위와 같은 오류가 발생한다면 필히 데이터를 받아오지 못한 오류다. 더 정확한 확인을 위해 BeautifulSoup의 연결상태를 확인했다. 500 에러 메세지를 출력하는 경우는 아래와 같다. 서버 통신의 Timeout 시간 지연 오류 서버 트래픽 과부하 서버 언어의 구문 에러 등 구글링을 통해 적당 해 보이는 해결방안을 찾아서 실행 해 보았다. 1. Time Delay 추가 Selenium으로 Webdriver를 사용하는 .. 2020. 9. 5.
반응형