본문 바로가기
728x90

코딩30

22. 데이터 준비(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.22 5. 수치 특성 변환 일반적으로 목표와 특성 사이의 선형 관계를 비선형으로 만들 우려가 있으므로 목표(Target)값은 변환시키지 않음 ① 잔차 측정 잔차 측정 방법 수치 변환 전 수치 변환 후(제곱 변환, 역변환, 로그 변환 등 성능이 좋은 것으로 사용, 아래는 역제곱 변환) ② 비닝(binning, 값을 동일한 간격의 bin으로 나눔) 적절한 변환을 판단하지 못할 경우, 연속적인 숫자 변수를 이진 변수로 변환 빠르고 편리하지만, 데이터셋의 용량 증가 .. 2021. 3. 22.
21. 데이터 준비(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.21 1. GIGO(Garbage In Garbage Out) 숫자를 적정하게 조정하여 비정상적 값 혹은 누락된 값에 대한 처리를 할 수 있어야 함 회귀 모델에 맞도록 정성적 특징을 정량적으로 바꿀 수 있어야 함 비선형 관계의 데이터를 선형적으로 표현할 수 있어야 함(사실상 가장 어려운 작업) 중요한 데이터가 누락된 경우, 예측 혹은 회귀로 관리할 수 있어야 함 비정상적인 데이터를 복구하여 회귀 모델을 정상적으로 작동할 수 있어야 함 2. 숫자 특성 조정 일반.. 2021. 3. 21.
20. 로지스틱 회귀분석(Logistic Regression) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.05 1. 분류 문제 정의 연속적인 값(-∞, +∞)을 추정하는 회귀와 달리, 특정 클래스를 예측하는 것 가장 쉽게 이진 분류(Binary Classification), ex. 참/거짓 두 개 이상의 분류 클래스를 갖는 경우 다중 분류(Multiclass Classification)라고 함, ex. 꽃의 종류 2. 분류 모델의 성능 평가 혼동 행렬(Confusion Matrix): 분류가 제대로 되었는지 알 수 있는 가장 간단한 지표 sklearn의 metri.. 2021. 3. 21.
The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). 오류 위의 코드에 아래와 같은 오류가 발생하였다. 해결법은 아래와 같다. 1. 해결방법은 여기에서 찾아볼 수 있다 2. 결론적으로는 모호한 표현에 대해서 정확하게 사용해달라는 의미로 보인다 3. predictor로 굳이 필요 없는 변수를 하나 더 만들어서 사용했던 게 문제였던 것 같다 해결되었음을 알린다. 2021. 3. 3.
19. 다중회귀분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.3.2 4. 데이터 스케일링 및 정규화 데이터의 일부 특성은 단위 척도에 따라 기본 단위, 소수, 천 단위, Kg 등 다양하기 때문에 데이터 조정 필요 동일한 스케일로 조정(단위를 맞춤) OR 동일한 범위로 조정(0~1 사이의 값으로 올 수 있게 정규화) StandardScaler 클래스를 이용하여 평균이 0, 분산이 1인 표준 정규화 수행 혹은, MinMaxScaler 클래스를 이용하여 최솟값이 0, 최댓값이 1인 정규화 수행 혹은, 로그 변환으로 원래 값에 l.. 2021. 3. 3.
18. 다중회귀분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.2.26 1. 모델 생성 및 예측변수와 목표변수 관계 파악 여러 개의 예측변수가 있을 경우, 예측변수와 목표변수 사이의 관계 + 예측변수들 사이의 관계를 고려해야 함 변수 간의 상호작용 관계를 파악하는 것이 필요 다중회귀분석에서는 Adj. R-squared 값과 R-squared 값의 비율이 20%를 초과하지 않아야 함 20% 초과한다는 것은 모델에 중복 변수가 있다는 것을 의미(위는 0.741, 0.734로 해당 안됨) t값이 낮은(0에 가까운) 변수는 모델에서.. 2021. 2. 26.
17. 단순 선형 회귀 분석(2) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.27 - Scikit-learn을 활용한 회귀(linear_model 패키지) fit() 메서드로 학습, predict() 메서드로 예측, predict_proba() 메서드로 확률 출력 Statsmodels와 비교하여 선형회귀의 정보가 부족하지만, 빅데이터를 다루기에는 속도가 빠른 Scikit-learn이 더 적합 - 비용 함수 최소화 선형 회귀의 핵심은 회귀 직선의 y값과 원래 값 사이의 차이에 대한 제곱 오차의 합계를 최소화하는 직선을 찾는 것 제곱 오차.. 2021. 2. 23.
16. 단순 선형 회귀 분석(1) Luca Massaron, Alberto Boschetti 저, '파이썬으로 풀어보는 회귀분석', 2019.01.02 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 저작권에 굉장히 민감한 책이므로 일반적인 내용들만 요약 최초 작성일 2021.1.21 지도학습: Label(결과)이 있는 데이터를 활용하여 미래 결과 예측(ex. 데이터 분석) 비지도학습: 데이터를 분류 등 군집화하여 미래 결과 예측(ex. 자동 특성 생성 분야) 강화학습: 환경으로부터 피드백을 받아 미래 결과 예측(ex. 자율 인공지능) X로부터 y를 알아내기 위한 함수 y=h(X), 응답변수 y - 과거의 데이터를 바탕으로 학습하기 때문에, 최근의 트렌드를 반영하지 못하는 경우가 발생 → 온라인 학습 필요 - 정량적 데이터: 연속적인 .. 2021. 1. 23.
15. 추천 시스템(Recommendations) 권철민 저, '파이썬 머신러닝 완벽 가이드', 2019.02.28 내 맘대로 요약 공부 중(문제시 비공개 및 삭제) 최초 작성일 2021.1.13 15.1 추천 시스템의 개요와 배경 - 사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공하는 시스템 - 유튜브, 아마존, 넷플릭스 등 광범위한 범위에서 추천 시스템이 운용되고 있음 - 온라인 스토어의 추천 시스템 사용자가 구매한 상품 데이터 사용자가 둘러본 상품 및 장비구니에 넣은 상품 데이터 사용자의 평점 및 평가 데이터 사용자가 작성한 취향 데이터(회원가입 시) 사용자의 검색 데이터 각종 데이터를 종합하여 사용자에 맞는 콘텐츠를 추천 - 추천 시스템의 유형 콘텐츠 기반 필터링(Content Based Filtering) 협업 필터링(Collaborativ.. 2021. 1. 13.
반응형