Boosting의 아이디어 여러 개의 Learning 모델을 순차적으로 구축해 최종적으로 합침(앙상블)\ 여기서 사용하는 learning 모델은 매우 단순한(ex. 이진분류에서 0.5보다 정확도가 높은) 모델이다. 즉, 각 단계에서 새로운 base learner를 학습해 이전단계의 base learner 단점 보완 각 단계를 거치며 모델이 점차 강해진다 >> Boosting AdaBoost(Adaptive Boosting) 각 단계에서 새로운 base learner를 학습해 이전 단계의 base learner의 단점을 보완 Training error가 큰 관측치의 선택확률(가중치)를 높이고, training error가 작은 관측치의 선택 확률을 낮춤 오분류한 관측치에 집중한다: 정분류는 신경쓰지 않고 ..
Cross Entropy는 보편적으로 많이 쓰는 비용함수이다. 수치예측의 비용함수는 MSE(Mean Squared Error)를 다수 사용한다. 하지만 분류문제(Y가 범주형일 때)는 비용함수로 Cross Entropy를 다수 사용한다. Cross Entropy 해당 게시글은 고려대학교 산업경영공학부 김성범교수님의 핵심 머신러닝 유튜브를 바탕으로 작성된 글입니다.
불균형 데이터: 정상 범주의 관측시 수와 이상 범주의 관측치 수의 차이가 크게 나타날 때( + 클래스 별 관측치의 수가 현저하게 차이나는 데이터) 문제인 이유: 정상(다수)를 정확히 분류하는 것과 이상(소수)을 정확히 분류하는 것 중 이상(소수를 정확히 분류하는 것이 더 중요하다) 성능평가 위 문제에 대한 해결 방안 데이터를 조정: 샘플링 기법(Sampling Method) 언더 샘플링 오버 샘플링 모델을 조정: 비용 기반 학습(Cost sensitive learning) 단일 클래스 분류 기법(Novelty detection) 언더 샘플링(Undersampling) 다수 범주를 줄여 소수 범주의 개수와 비슷하게 만들자 Random Undersampling 다수 범주에 속한 관측치를 무작위로 줄인다: 매..
고차원 데이터의 경우 변수의 수가 많다는 의미는 불필요한 변수 존재 + 시각적 표현 어려움 + 계산 복잡도 증가 등의 문제가 발생하낟. 이를 위해 주요 변수만 선택 하는 것을 차원 축소라고 한다. 차원축소 방법 변수 선택(Selection): 분석 목적에 부합하는 소수의 예측 변수만을 선택 선택한 변수 해석 용이하지만 변수간 상관관계 고려가 어렵다. 변수 추출(Extraction): 예측 변수의 변환을 통해 새로운 변수 추출 변수간 상관관계를 고려할 수 있지만 추출된 변수의 해석이 어렵다. 4가지 종류 Supervised Featue Selection: Information gain, LASSO, Stepwise regression... etc Superviesd Feature Extraction: Pa..
1. Support Vector Machine 모델 개요 SVM : 고차원 데이터의 분류 문제에 좋은 성능을 타나낸다 기번적으로 Training Data에 대해 성능이 좋아야하지만 Overfitting되면 안된다(Generalization ability) 보통 Generalization abality와 Training Data의 성능은 Trade-Off 관계 하지만 SVM은 Test data의 성능이 좋을수록 Generalization ability가 좋아진다. 질문: 어떤 Hyperplane이 가장 좋을까?? - Maximizing Margin over the train set = minimizing generalization error Margin 2. Margin의 수학적 정의 Linear SVM ..
Random Forest는 개별 트리 모델의 단점을 해결해주는 모델이다. Random Forest의 배경: Ensemble 앙상블: 여러 Base모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합해서 예측 정확성을 향상시키는 방법 다음 조건을 만족할 때 앙상블 모델은 Base 모델보다 우수한 성능을 보여준다. Base 모델들이 서로 독립 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우(2 class 분류일 경우 0.5보다 성능이 높을 때) Random Forest는 Base 모델로 의사결정나무 모델을 사용한다. Low computational complexity: 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능 Nonparametric: 데이터 분포에 대한 전제가 필요하지 않..
1. 의사결정나무 모델 개요 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/분류 모델을 나무의 형태로 만드는 것 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나감 3단계로 이루어진다. Data: Input X, Output Y로 이루어진 Label 데이터 Algorithm: 데이터를 2개 혹은 그 이상의 부분집합으로 분할(데이터가 균일해지도록) 분류: 비슷한 범주를 가진 관측치끼리 모음 예측: 비슷한 수치를 가진 관측치끼리 모음 Model(Output): Node로 이루어짐 Root node: 뿌리 마디 Terminal node: 끝 마디(끝 마디 밑에는 더이상 분포하지 않는다) Intermediate node: 중간 마디 2. 예측나무 모델(Regression T..
분류 및 예측을 위한 모델 1. Model-based Learning: 데이터로부터 모델을 생성해 분류 및 예측 시행 선형/비선형 모델 Neural Network 의사결정 나무 Support Vector Machine 2. Instance-based Learning: 별도의 모델 생성 없이 인접 데이터로 분류 및 예측 시향 K-Nearest Neighbor Locally Weighted Regression 1. I - Nearist Neighbor 즉, new data와 기존 data의 거리를 전부 구한 후 가장 인접한 K개를 추출하는 알고리즘. 2. KNN알고리즘의 특징 Instance-based Learning: 각각의 관측치(instance)만 이용해 새로운 데이터에 대한 예측 진행 Memory-b..