본문 바로가기
728x90

전체 글182

16. 단순 선형 회귀 분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.21 지도학습: Label(결과)이 있는 데이터를 활용하여 미래 결과 예측(ex. 데이터 분석) 비지도학습: 데이터를 분류 등 군집화하여 미래 결과 예측(ex. 자동 특성 생성 분야) 강화학습: 환경으로부터 피드백을 받아 미래 결과 예측(ex. 자율 인공지능) X로부터 y를 알아내기 위한 함수 y=h(X), 응답변수 y - 과거의 데이터를 바탕으로 학습하기 때문에, 최근의 트렌드를 반영하지 못하는 경우가 발생 → 온라인 학습 필요 - 정량적 데이터: 연속적인 .. 2021. 1. 23.
[책 리뷰] 2. '만들어진 신(THE GOD DELUSION)', Richard Dawkins(리처드 도킨스) Richard Dawkins 저, 옮긴이 이한음, '만들어진 신, The God Delusion', 2007.07.20 최초 작성일 2021.01.17 나는 종교가 없다. 2014년 통계청의 자료에 따르면 한국의 기독교 단체 수는 약 55,000개로 동일 면적 대비 편의점의 수 보다 많다고 발표된 바 있다. 그도 그럴 것이 내 어릴 적 동네에도 각 '리' 마다 하나의 교회가 있었다. 딱 한번 아버지가 목사인 친구의 집에 놀러 갔던 적이 있었는데, 그 날 할아버지로부터 처음으로 격앙된 모습을 볼 수 있었다. "다시는 교회에 가지 마라" 그때부터였을까 종교에 관한 그 어떠한 가르침도 받지 않았던 내가 교회는 어떠한 곳이기에 가지 말라고 하시는 건지, 사람들은 왜 보이지도 않는 '신'이라고 불리는 무언가를 믿.. 2021. 1. 17.
15. 추천 시스템(Recommendations) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.13 15.1 추천 시스템의 개요와 배경 - 사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공하는 시스템 - 유튜브, 아마존, 넷플릭스 등 광범위한 범위에서 추천 시스템이 운용되고 있음 - 온라인 스토어의 추천 시스템 사용자가 구매한 상품 데이터 사용자가 둘러본 상품 및 장비구니에 넣은 상품 데이터 사용자의 평점 및 평가 데이터 사용자가 작성한 취향 데이터(회원가입 시) 사용자의 검색 데이터 각종 데이터를 종합하여 사용자에 맞는 콘텐츠를 추천 - 추천 시스템의 유형 콘텐츠 기반 필터링(Content Based Filtering) 협업 필터링(Collaborativ.. 2021. 1. 13.
14. 텍스트 분석(Text Analytics)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.11 14.1 감성 분석(Sentiment Analysis) - 문서 내 텍스트가 나타내는 여러 가지 단어 및 문맥을 기반으로 감성 수치를 계산하여 분석 지도학습은 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이 터의 감성 분석을 예측 비지도학습은 'Lexicon'으로 불리는 감성 어휘 사전을 이용하여 문서의 긍정적, 부정적 감성 여부를 판단 - 지도학습 기반 감성 분석 실습 - IMDB 영화 리뷰 영화 리뷰의 텍스트를 분석해 감성 분석 결과가 긍정 혹은 부정인지 예측하는 모델 생성 https://www.kaggle.c.. 2021. 1. 11.
13. 텍스트 분석(Text Analytics)_1 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.10 - NLP(National Language Processing): 인간의 언어를 이해하고 해석하는데 중점(기계 번역, 챗봇 등) - TA(Text Analytics): 비정형 텍스트에서 의미 있는 정보를 추출하는데 중점(결국, NLP를 포함하는 상위 개념) : 머신러닝, 통계 등을 활용해 모델을 만들고 비즈니스 인텔리전스 등 예측 분석을 수행 텍스트 분류(Text Classification): Text Categorization, 문서가 특정 분류 또는 카테고리에 있는 것을 예측하는 기법 감성 분석(Sentiment Analysis): Text에 나타나는 감정.. 2021. 1. 10.
12. 군집화(Clustering) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.7 12.1 K-평균 알고리즘 - 군집화(Clustering)의 가장 보편적인 알고리즘 K-평균 - 군집 중심점(centroid)을 임의로 지정하여 각 데이터와의 평균 지점으로 이동하며, 더 이상 중심점의 이동이 없을 경우 반복을 멈추고 해당 중심점에 속하는 데이터들을 군집화 두 개의 군집 중심점을 설정하며, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 다시, 각 데이터는 가까운 중심점에 속함 할당된 데이터들의 평균 중심으로 중심점 이동 이동이 없을 때까지 반복 - 거리 기반 알고리즘으로 속성의 개수가 많을수록 군집화 정확도가 낮음.. 2021. 1. 9.
11. 차원 축소(Dimension Reduction) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.3 11.1 차원 축소(Dimension Reduction) 개요 - 대표적인 알고리즘 PCA, LDA, SVD, NMF - 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 데이터 세트를 생성하는 것 - 왜 하는가? [수많은 피처로 구성된 데이터의 예측 신뢰도 < 적은 피처로 구성된 데이터의 예측 신뢰도] - 피처가 많을 경우 개별 피처간 상관관계가 높을 가능성이 큼 - 선형 회귀 등 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공선성 문제로 예측 성능 저하 우려 있음 - 즉, 매우 많은 다차원의 피처를 차원 축소하여 피처 수를 줄.. 2021. 1. 3.
10. 회귀(Regression)_3 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.2 10.1 회귀 트리 - 회귀를 위한 트리를 생성하고 이를 기반으로 회귀 예측을 하는 것 - 분류 트리와의 다른 점은, 회귀 트리는 리프 노드에 속한 데이터 값의 평균값을 구해 회귀 예측값을 계산함 - 결정 트리, 랜덤 포레스트, GBM, XGBoost, LightGBM 등 트리 기반의 알고리즘은 분류와 회귀 가능 알고리즘 회귀 Estimator 클래스 분류 Estimator 클래스 결정 트리(Decision Tree) DecisionTreeRegressor DecisionTreeClassifier Gradient Boosting GradientBoostingRe.. 2021. 1. 2.
9. 회귀(Regression)_2 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.1 9.1 다항 회귀와 과적합/과소적합 - 독립변수(feature)와 종속변수(target)의 관계가 일차방정식(단항식)이 아닌, 2차, 3차 등 다항식으로 표현되는 회귀 - Y = a + bX1 + cX2 + dX1X2 …(Y: 종속변수 / X1, X2: 독립변수 / a, b, c, d: 회귀계수) - 다항 회귀는 선형 회귀임! - 회귀에서 선형/비선형을 나누는 기준은 회귀 계수가 선형/비선형인지에 따름(독립변수의 선형/비선형과 무관) - sklearn은 다항 회귀를 위한 클래스는 없으므로, 비선형 함수를 선형 모델에 적용시키는 방법을 사용 - sklearn의 P.. 2021. 1. 1.
반응형