본문 바로가기
728x90

권철민14

14. 텍스트 분석(Text Analytics)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.11 14.1 감성 분석(Sentiment Analysis) - 문서 내 텍스트가 나타내는 여러 가지 단어 및 문맥을 기반으로 감성 수치를 계산하여 분석 지도학습은 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이 터의 감성 분석을 예측 비지도학습은 'Lexicon'으로 불리는 감성 어휘 사전을 이용하여 문서의 긍정적, 부정적 감성 여부를 판단 - 지도학습 기반 감성 분석 실습 - IMDB 영화 리뷰 영화 리뷰의 텍스트를 분석해 감성 분석 결과가 긍정 혹은 부정인지 예측하는 모델 생성 https://www.kaggle.c.. 2021. 1. 11.
13. 텍스트 분석(Text Analytics)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.10 - NLP(National Language Processing): 인간의 언어를 이해하고 해석하는데 중점(기계 번역, 챗봇 등) - TA(Text Analytics): 비정형 텍스트에서 의미 있는 정보를 추출하는데 중점(결국, NLP를 포함하는 상위 개념) : 머신러닝, 통계 등을 활용해 모델을 만들고 비즈니스 인텔리전스 등 예측 분석을 수행 텍스트 분류(Text Classification): Text Categorization, 문서가 특정 분류 또는 카테고리에 있는 것을 예측하는 기법 감성 분석(Sentiment Analysis): Text에 나타나는 감정.. 2021. 1. 10.
12. 군집화(Clustering) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.7 12.1 K-평균 알고리즘 - 군집화(Clustering)의 가장 보편적인 알고리즘 K-평균 - 군집 중심점(centroid)을 임의로 지정하여 각 데이터와의 평균 지점으로 이동하며, 더 이상 중심점의 이동이 없을 경우 반복을 멈추고 해당 중심점에 속하는 데이터들을 군집화 두 개의 군집 중심점을 설정하며, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 다시, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 이동이 없을 때까지 반복 - 거리 기반 알고리즘으로 속성의 개수가 많을수록 군집화 정확도가 낮음.. 2021. 1. 9.
11. 차원 축소(Dimension Reduction) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.3 11.1 차원 축소(Dimension Reduction) 개요 - 대표적인 알고리즘 PCA, LDA, SVD, NMF - 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 데이터 세트를 생성하는 것 - 왜 하는가? [수많은 피처로 구성된 데이터의 예측 신뢰도 < 적은 피처로 구성된 데이터의 예측 신뢰도] - 피처가 많을 경우 개별 피처간 상관관계가 높을 가능성이 큼 - 선형 회귀 등 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공선성 문제로 예측 성능 저하 우려 있음 - 즉, 매우 많은 다차원의 피처를 차원 축소하여 피처 수를 줄.. 2021. 1. 3.
10. 회귀(Regression)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.2 10.1 회귀 트리 - 회귀를 위한 트리를 생성하고 이를 기반으로 회귀 예측을 하는 것 - 분류 트리와의 다른 점은, 회귀 트리는 리프 노드에 속한 데이터 값의 평균값을 구해 회귀 예측값을 계산함 - 결정 트리, 랜덤 포레스트, GBM, XGBoost, LightGBM 등 트리 기반의 알고리즘은 분류와 회귀 가능 알고리즘 회귀 Estimator 클래스 분류 Estimator 클래스 결정 트리(Decision Tree) DecisionTreeRegressor DecisionTreeClassifier Gradient Boosting GradientBoostingRe.. 2021. 1. 2.
9. 회귀(Regression)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.1 9.1 다항 회귀와 과적합/과소적합 - 독립변수(feature)와 종속변수(target)의 관계가 일차방정식(단항식)이 아닌, 2차, 3차 등 다항식으로 표현되는 회귀 - Y = a + bX1 + cX2 + dX1X2 …(Y: 종속변수 / X1, X2: 독립변수 / a, b, c, d: 회귀계수) - 다항 회귀는 선형 회귀임! - 회귀에서 선형/비선형을 나누는 기준은 회귀 계수가 선형/비선형인지에 따름(독립변수의 선형/비선형과 무관) - sklearn은 다항 회귀를 위한 클래스는 없으므로, 비선형 함수를 선형 모델에 적용시키는 방법을 사용 - sklearn의 P.. 2021. 1. 1.
8. 회귀(Regression)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.27 8.1 회귀(Regression) - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 - Y = aX1 + bX2 + cX3 …(Y: 종속변수 / X1, X2, X3: 독립변수 / a, b, c: 회귀계수) - 즉, 머신러닝 회귀 예측은 최적의 회귀계수를 찾아내는 것(방정식 찾기) - 분류(Classification)는 이산형, 회귀(Regression)는 숫자형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선.. 2020. 12. 27.
7. 분류(Classification)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 7.1 LightGBM - 기존 GBM과 XGBoost의 후속작. 동일 성능 대비 학습 시간이 매우 짧음 - 적은 데이터에 과적 합할 가능성이 있음(10,000건 이하 거의 안된다고 보는 게 맞을 듯?) - 리프 중심 트리 분할(Leaf Wise) 방식(보통은 균형 트리 분할(Level Wise) 방식을 사용하고 있음) - 사이킷런 LightGBM(분류 LGBMClassifer, 회귀 LGBMRegressor) - 사용하기 위해 Visual Studio Build tool 2015 이상 필요 - visualstudio.microsoft.com/ko/downl.. 2020. 12. 13.
6. 분류(Classification)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2020.12.13 6.1 앙상블 학습(Ensemble Learning) - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 방식 - 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등 보팅(Voting) 서로 다른 알고리즘을 가진 분류기를 결합 배깅(Bagging) 데이터 샘플링을 서로 다르게 추출하여 학습한 같은 유형의 분류기를 결합 / 랜덤 포레스트 등 부스팅(Boosting) 여러 개의 분류기가 순차적으로 학습 및 예측, 예측이 틀렸다면 다음 분류기에 가중치(Weigh.. 2020. 12. 13.
반응형