전체 글

Random Forest는 개별 트리 모델의 단점을 해결해주는 모델이다. Random Forest의 배경: Ensemble 앙상블: 여러 Base모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합해서 예측 정확성을 향상시키는 방법 다음 조건을 만족할 때 앙상블 모델은 Base 모델보다 우수한 성능을 보여준다. Base 모델들이 서로 독립 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우(2 class 분류일 경우 0.5보다 성능이 높을 때) Random Forest는 Base 모델로 의사결정나무 모델을 사용한다. Low computational complexity: 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능 Nonparametric: 데이터 분포에 대한 전제가 필요하지 않..
1. 의사결정나무 모델 개요 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/분류 모델을 나무의 형태로 만드는 것 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나감 3단계로 이루어진다. Data: Input X, Output Y로 이루어진 Label 데이터 Algorithm: 데이터를 2개 혹은 그 이상의 부분집합으로 분할(데이터가 균일해지도록) 분류: 비슷한 범주를 가진 관측치끼리 모음 예측: 비슷한 수치를 가진 관측치끼리 모음 Model(Output): Node로 이루어짐 Root node: 뿌리 마디 Terminal node: 끝 마디(끝 마디 밑에는 더이상 분포하지 않는다) Intermediate node: 중간 마디 2. 예측나무 모델(Regression T..
분류 및 예측을 위한 모델 1. Model-based Learning: 데이터로부터 모델을 생성해 분류 및 예측 시행 선형/비선형 모델 Neural Network 의사결정 나무 Support Vector Machine 2. Instance-based Learning: 별도의 모델 생성 없이 인접 데이터로 분류 및 예측 시향 K-Nearest Neighbor Locally Weighted Regression 1. I - Nearist Neighbor 즉, new data와 기존 data의 거리를 전부 구한 후 가장 인접한 K개를 추출하는 알고리즘. 2. KNN알고리즘의 특징 Instance-based Learning: 각각의 관측치(instance)만 이용해 새로운 데이터에 대한 예측 진행 Memory-b..
1. 최적화 알고리즘 1-1. 미니 배치 경사하강법(Mini-Batch Gradient Descent) 배치 경사하강법(Batch Gradient Descent)는 모든 전체 훈련세트를 한번에 처리하기에 매우 오래걸린다. 한 단계의 업데이트를 위해 전체 훈련세트를 고려해야 한다. 이때 훈련 샘플을 작은 '미니배치' 라는 훈련 세트로 나눈다. 예를들어 5000000개의 훈련 세트에서 사이즈가 1000인 미니배치이면면 5000개의 미니배치가 생긴다. 1-2. 미니 배치 경사하강법 이해하기 Batch Gradient Descent에서의 비용함수 J는 모든 iteration에 대해 감소해야 한다. 증가하면 잘못된 것이다. 하지만 Mini-Batch Gradient Descent에서는 비용함수 J가 감소되는 경향..
1. 머신러닝 어플리케이션 설정하기 1-1. Train/Dev/Test 신경망의 층 수, Hidden Unit 등 사용자가 지정해야하는 하이퍼파라미터는 여러번 반복해 신경망을 학습시켜야 한다. 전통적으로 Train set 으로 학습 후 Dev set으로 검증 후 Test set로 Score를 확인한다 하지만 딥러닝, 예를 들어 100만개 이상의 데이터에서는 Dev/Test를 전통적이 아닌 약 1%/1%가 되도록 적게 하는것이 좋다. 또한 딥러닝에서는 Train과 Test가 다른 분포에서 나오는 경우도 많다. 이때는 Dev와 Test set이 같은 분포에서 나와야 한다. 1-2. 편향과 분산(Bias & Variance) 높은 편향 >>>> 과소적합(Under Fitting: Train set 조차 잘 학..
1. 배경 Y가 연속형이 아닌 범주형일 때는 선형회귀와는 다른 방식으로 접근한다. 즉, 새로운 관측치가 왔을 때, 기존 범주 중 하나로 예측(분류 Classification) 선형회귀에서 배운 최소제곱법으로 추정하긴 어렵다. 선형회귀에선 에러가 정규분포를 따르는것과 같은 가정을 따르지 않기 때문이다. 여기서 파이(i)는 베르누이 분포에서 p(성공할 확률)로 생각하면 된다. 2. 로지스틱 회귀분석 알고리즘: Logistic(Sigmoid) 함수 단순 로지스틱 회귀모델: 입력변수 X가 1개인 로지스틱 회귀모델 하지만 여기서 B1의 해석이 중요한데 비선형결합이기 때문에 직관적이지 못하다. B1의 해석을 위해 승산(Odds)를 정의한다. 3. 승산(Odds) : 성공 확률을 p로 정의할 떄, 실패 대비 성공 확..
1. 개요 X와 Y의 관계 - 확정적 관계: X로 Y를 100% 설명 가능할 때 ex) F = ma - 확률적 관계: X와 오차항으로 Y를 설명해야 할 때 ex) 반도체 수율, 포도주 가격 선형 회귀 모델: 출력변수 Y를 X들의 선형결합으로 표현한 모델 - 선형결합: 변수들을 상수배와 더하기, 빼기로만 결합 목적 - X와 Y 사이의 관계를 수치로 설명 - 미래의 반응변수 Y를 예측 2. 모델 B0, B1, B2 등의 Parameter를 찾는 것이 주요 과정이다. 3. 파라미터 추정(최소제곱법) 일차선형회귀 직선에서 비용함수를 최소화 하는 Parameter를 찾아야 한다. 이때 찾는 일련의 Process를 알고리즘(Algorithm)이라고 한다. 비용함수는 다양한 형태가 있고 각각의 형태마다 Paramet..
1-1 신경망 네트워크의 구성 1-2 신경망 네트워크의 출력의 계산 1-3 많은 샘플에 대한 벡터화 1-4 Activation Funcation 신경망에서 은닉층과 출력층에 어떤 함수를 써야 할지 결정을 해야한다. 대표적인 4개의 함수는 다음과 같다. Sigmoid와 Tanh는 Z의 값이 너무 크거나 작아지면 기울기가 0에 수렴하는 단점이 있다. 또한 이진분류 출력층을 제외하고는 대부분 Sigmoid 보다 Tanh함수가 효율적이다. 이진분류의 출력층을 제외하고선 대부분 Relu 함수를 사용한다. + 위와 같은 비선형 함수를 써야하는 이유: 선형함수 사용 시 은닉층을 쌓아도 아무런 혜택이 없을 수 있다. 1-5 신경망 네트워크와 경사 하강법 또한 신경망을 훈련시킬 때 W의 초기값이 0이 아닌 랜덤 변수로 ..
HBijou
현빈