Data
: Examples의 집합으로, Column을 Feature라 정의할 수 있다.
Types of Data
Categorical Feautres : from an unordered set
- Binary: 직업의 유무 등
- Nominal: 국가 별 도시명 등
Numerical Feautres : from ordered sets
- Discrete counts: age
- Ordinal: 순위
- Continous/real-valued: 키
Converting to Numerical Features
보통 모든 sample들을 Numerical Vector로 변환해야한다. Categorical Data를 변환 시 "1 of K Encoding" 또는 "One Hot Encoding"을 진행한다. 이를 통해 sample들을 고차원의 벡터 공간에 위치시킬 수 있다. 하지만 메모리가 너무 많이 낭비되는 문제점이 존재한다.
이렇게 Numerical Vector로 변환하는 과정에서 Text 변환 시 Bag of Words와 같은 기법이 사용될 수 있다. 이를 통해 문서 간 유사도나 거리를 도출할 수 있다.
Image는 graycale intensity(좌표별 숫자 가져와서 Flatten), Graphs는 adjacency matrix(인접행렬: 두 노드 사이에 정점의 유무를 2차원 배열에 저장)와 같이 사용 가능하다.
Data Cleaning
Noise, Outliers, Missing values, Duplicated data와 같이 ML,DL등의 모델에 활용하기에 부적절한 데이터를 clean하게 만들어야 한다. 가끔, ML 모델이 Data Cleaning에 매우 효과적일 수 있다.
Feature Aggregation
Feautres들을 병합해 새로운 Feautre 생성한다. 예를 들어 데이터의 양이 적을 때 더 적은 벡터 공간의 차원을 가지기 위해 사용하는 경우가 있다. 흔히, 평균, 합계, 표준편차 등 다양한 통계적이 방법이나 특성 간 연산이 사용될 수 있다.
Feature Transformation
Discretization: numerical data를 categorical data로 변환
Feature Selection
관련 없는 Feature은 삭제하는 것이 필요하다.
Supervised Learning(지도학습)
Input Data X와 정답(레이블) Y를 이용해 모델을 학습시키는 기계학습이다. 이 때, 모델은 Input Data와 Y간의 관계를 학습하고, 새로운 입력이 주어질 때 해당 정답을 예측하도록 훈련한다. 크게 Regression, Classification으로 이루어진다.
Naive Supervised Learning
확률 계산: 계산적으로 효율이 높다. 하지만, Feature 무시하기 때문에, 하나의 라벨만을 가질 때 높은 정확도를 가진다.
Entropy as Measure of Randomness
Data에 관한 정보, 통계량을 구할 때 Categorical Data는 frequences, Mode, Quantiles, Location for continuous는 Mean, Median, Quantiles, Spread for continuous는 Range, Variance, Intequantile ranges등이 존재한다.
특히 Entropy는 값들의 무질서도를 나타내는 지표로 데이터가 여러 클래스로 이루어지고, 각 클래스의 비율이 고를 때 엔트로피는 높고, 한 클래스로 구성될 경우 엔트로피는 낮다.
즉, 낮은 엔트로피는 "Very Predictable"하고 높은 엔트로피는 "Very Random"하다.
Categorical Feautres에서는 균일분포, Continuous densities with fixed mean and variance에서는 정규분포가 가장 높은 엔트로피 값을 가진다.
Distance and Similarities
Feature X와 Y 사이의 Distance
- Hamming Distance: 두개의 같은 길이를 가진 문자열 간에 얼마나 많은 비트가 다른지를 측정하는 지표
- Euclidean Distance: 벡터 간 거리 측정하는 지표
- Correlation: 서로 증가 감소하는 연관관계를 측정하는 지표
- Rank Correlation
- Jaccard Coefficient(distance between sets): 두 집합 간 유사성 측정하는 통계적 지표로 |교집합(A,B)| / |합집합(A,B)|
- Edit Distance(distance between strings): 두 문자열 간 차이를 나타내는 지표로, 한 문자열을 다른 문자열로 변환하는데 필요한 최소한의 편집 연산 횟수(문자열의 길이가 같지 않아도 되는 것이 Hamming Distance와의 차이점)
해당 게시물은 유튜브 PLAI Group at UBC의 영상을 참조해 작성한 글입니다.
https://www.youtube.com/watch?v=xlgb1dTOv-0&list=PLRBUAK6di_6VCgv5ArjUwiKBZYg7Oi6rk&index=2