본문 바로가기
728x90

머신러닝23

20. 로지스틱 회귀분석(Logistic Regression) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.05 1. 분류 문제 정의 연속적인 값(-∞, +∞)을 추정하는 회귀와 달리, 특정 클래스를 예측하는 것 가장 쉽게 이진 분류(Binary Classification), ex. 참/거짓 두 개 이상의 분류 클래스를 갖는 경우 다중 분류(Multiclass Classification)라고 함, ex. 꽃의 종류 2. 분류 모델의 성능 평가 혼동 행렬(Confusion Matrix): 분류가 제대로 되었는지 알 수 있는 가장 간단한 지표 sklearn의 metri.. 2021. 3. 21.
19. 다중회귀분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.2 4. 데이터 스케일링 및 정규화 데이터의 일부 특성은 단위 척도에 따라 기본 단위, 소수, 천 단위, Kg 등 다양하기 때문에 데이터 조정 필요 동일한 스케일로 조정(단위를 맞춤) OR 동일한 범위로 조정(0~1 사이의 값으로 올 수 있게 정규화) StandardScaler 클래스를 이용하여 평균이 0, 분산이 1인 표준 정규화 수행 혹은, MinMaxScaler 클래스를 이용하여 최솟값이 0, 최댓값이 1인 정규화 수행 혹은, 로그 변환으로 원래 값에 l.. 2021. 3. 3.
18. 다중회귀분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.2.26 1. 모델 생성 및 예측변수와 목표변수 관계 파악 여러 개의 예측변수가 있을 경우, 예측변수와 목표변수 사이의 관계 + 예측변수들 사이의 관계를 고려해야 함 변수 간의 상호작용 관계를 파악하는 것이 필요 다중회귀분석에서는 Adj. R-squared 값과 R-squared 값의 비율이 20%를 초과하지 않아야 함 20% 초과한다는 것은 모델에 중복 변수가 있다는 것을 의미(위는 0.741, 0.734로 해당 안됨) t값이 낮은(0에 가까운) 변수는 모델에서.. 2021. 2. 26.
17. 단순 선형 회귀 분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.27 - Scikit-learn을 활용한 회귀(linear_model 패키지) fit() 메서드로 학습, predict() 메서드로 예측, predict_proba() 메서드로 확률 출력 Statsmodels와 비교하여 선형회귀의 정보가 부족하지만, 빅데이터를 다루기에는 속도가 빠른 Scikit-learn이 더 적합 - 비용 함수 최소화 선형 회귀의 핵심은 회귀 직선의 y값과 원래 값 사이의 차이에 대한 제곱 오차의 합계를 최소화하는 직선을 찾는 것 제곱 오차.. 2021. 2. 23.
16. 단순 선형 회귀 분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.21 지도학습: Label(결과)이 있는 데이터를 활용하여 미래 결과 예측(ex. 데이터 분석) 비지도학습: 데이터를 분류 등 군집화하여 미래 결과 예측(ex. 자동 특성 생성 분야) 강화학습: 환경으로부터 피드백을 받아 미래 결과 예측(ex. 자율 인공지능) X로부터 y를 알아내기 위한 함수 y=h(X), 응답변수 y - 과거의 데이터를 바탕으로 학습하기 때문에, 최근의 트렌드를 반영하지 못하는 경우가 발생 → 온라인 학습 필요 - 정량적 데이터: 연속적인 .. 2021. 1. 23.
15. 추천 시스템(Recommendations) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.13 15.1 추천 시스템의 개요와 배경 - 사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공하는 시스템 - 유튜브, 아마존, 넷플릭스 등 광범위한 범위에서 추천 시스템이 운용되고 있음 - 온라인 스토어의 추천 시스템 사용자가 구매한 상품 데이터 사용자가 둘러본 상품 및 장비구니에 넣은 상품 데이터 사용자의 평점 및 평가 데이터 사용자가 작성한 취향 데이터(회원가입 시) 사용자의 검색 데이터 각종 데이터를 종합하여 사용자에 맞는 콘텐츠를 추천 - 추천 시스템의 유형 콘텐츠 기반 필터링(Content Based Filtering) 협업 필터링(Collaborativ.. 2021. 1. 13.
14. 텍스트 분석(Text Analytics)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.11 14.1 감성 분석(Sentiment Analysis) - 문서 내 텍스트가 나타내는 여러 가지 단어 및 문맥을 기반으로 감성 수치를 계산하여 분석 지도학습은 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이 터의 감성 분석을 예측 비지도학습은 'Lexicon'으로 불리는 감성 어휘 사전을 이용하여 문서의 긍정적, 부정적 감성 여부를 판단 - 지도학습 기반 감성 분석 실습 - IMDB 영화 리뷰 영화 리뷰의 텍스트를 분석해 감성 분석 결과가 긍정 혹은 부정인지 예측하는 모델 생성 https://www.kaggle.c.. 2021. 1. 11.
13. 텍스트 분석(Text Analytics)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.10 - NLP(National Language Processing): 인간의 언어를 이해하고 해석하는데 중점(기계 번역, 챗봇 등) - TA(Text Analytics): 비정형 텍스트에서 의미 있는 정보를 추출하는데 중점(결국, NLP를 포함하는 상위 개념) : 머신러닝, 통계 등을 활용해 모델을 만들고 비즈니스 인텔리전스 등 예측 분석을 수행 텍스트 분류(Text Classification): Text Categorization, 문서가 특정 분류 또는 카테고리에 있는 것을 예측하는 기법 감성 분석(Sentiment Analysis): Text에 나타나는 감정.. 2021. 1. 10.
12. 군집화(Clustering) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.7 12.1 K-평균 알고리즘 - 군집화(Clustering)의 가장 보편적인 알고리즘 K-평균 - 군집 중심점(centroid)을 임의로 지정하여 각 데이터와의 평균 지점으로 이동하며, 더 이상 중심점의 이동이 없을 경우 반복을 멈추고 해당 중심점에 속하는 데이터들을 군집화 두 개의 군집 중심점을 설정하며, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 다시, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 이동이 없을 때까지 반복 - 거리 기반 알고리즘으로 속성의 개수가 많을수록 군집화 정확도가 낮음.. 2021. 1. 9.
반응형