Immersion In Data

AI 7

[AI] Association Mining

1. Association Mining 주어진 트랜잭션 집합으로부터, 어떤 아이템들이 나타날지를 다른 아이템들의 발생으로부터 예측하는 규칙을 찾는 작업이다. 위의 그림은 장바구니 분석의 예시인데, {Diaper} → {Beer}, {Milk, Bread} → {Eggs, Coke}, {Beer, Bread} → {Milk} 기저귀를 사는 사람이 맥주를 산다, 우유와 빵을 사는 사람이 계란과 콜라를 산다, 맥주와 빵을 사는 사람이 우유를 산다 처럼 분석하는 것이다. 1) 항목 집합(Itemset) - 한 개 이상의 항목(들)의 집합 ex. {Eggs}, {Milk, Bread, Diaper} - k-항목집합(k-itemset) : k개 항목을 가지는 항목 집합 2) 지지도 카운트(Support Count)..

AI 2022.09.01

[AI] Random Forest

1. Random Forest 의사결정나무(Decision Tree) 모델을 여러 개 훈련시켜 그 결과를 종합해 예측하는 앙상블(Ansible) 알고리즘이다. 각 의사결정나무 모델을 훈련시킬 때 배깅(Bagging) 방식을 사용한다. 배깅은 전체 Tranin dataset에서 중복을 허용해 샘플링한 Dataset으로 개별 의사결정나무 모델을 훈련하는 방식이다. 이렇게 여러 모델을 통해 예측한 값은 평균을 취하여 최정적인 예측 값을 산출한다. 이러한 배깅 방식은 예측 모델의 일반화 성능을 향상하는 데에 도움이 된다. - 랜덤 포레스트의 장점 1. 일반화 및 성능 우수 2. 파라미터 조정 용이 3. 데이터 scale 변환 불필요 4. Overfitting이 잘 되지 않음 - 랜덤 포레스트의 단점 1. 개별 ..

AI 2022.08.19

[AI] Decision Tree

1. Decision Tree 의사결정나무(Decision Tree)는 설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델이다. 설명변수의 관측값을 모델에 입력해 목표변수를 분류하거나 예측하는 지도학습 기반의 방법론이다. 의사결정나무 모델을 사용하는 주된 이유는 목표변수(Y)를 예측하거나 분류 문제를 해결함에 있어서 어떤 설명변수가 가장 중요한 영향인자인지 확인할 수 있고, 각 설명변수별로 어떤 척도에 따라 예측 또는 분류했는지 상세한 기준을 알 수 있다. - Decision Tree의 장점 1. 결과 해석에 용이 : 직관적인 해석 가능, 주요 변수와 분리기준 제시 2. 비모수적 모델 : 통계모델에 요구되는 가정에 자유로움 3. 변수 간 상호작용 ..

AI 2022.08.18

[AI] K-NN(K-Nearest Neighbor)

1. K-NN K-최근접 이웃(K-Nearest Neighbor) 알고리즘은 분류 알고리즘입니다. 비슷한 특성을 가진 데이터는 비슷한 범주에 속하는 경향이 있다는 가정하에 사용한다. 위의 그림을 봤을 때, 세모 모양의 데이터는 주변에 노란색 그룹의 데이터들이 많이 때문에 노란색 그룹에 속한다고 추측할 수 있다. 이처럼 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속할 그룹을 판단하는 알고리즘이 K-NN 알고리즘이다. K-NN 알고리즘은 거리를 측정할 때, 유클리드 거리(Euclidean distance)를 사용한다. K-NN알고리즘의 특징은 K의 값에 따라 분류가 달라질 수 있다는 점이다. 위의 그림을 보면, K의 값이 1일 때는 초록색 그룹에 속한다고 볼 수 있고, K의 값이 3일 때는 노란색 그..

AI 2022.08.18

[AI] Logistic Regression

1. Logistic Regression 회귀 분석 방식의 핵심 기능 중 하나인 로지스틱 회귀는 선형 분석(Linear Regression)과 가장 큰 차이점이 있는데, 값이 아닌 확률로서 분류한다는 점이다. 기존의 선형 회귀 분석에서는 단순히 입력한 값을 그대로 독립변수로 받아서 사용하다 보니 평균보다 차이가 큰 값이 입력되면 값이 크게 달라져 버리는 문제점이 있다. 이를 개선하기 위해 로지스틱 회귀에서는 시그모이드 계산을 사용한다. 입력값을 비율로 변환하여 항상 0과 1사이의 값으로 한정시켜 범위를 벗어나는 경우를 예방하고 정확도가 떨어지는 것을 방지한다. 2. Sigmoid 입력 값을 비율로 변환하는 것이 시그모이드의 가장 큰 기능이다. 입력 값이 어느 숫자든 상관없이 결과 값이 항상 0과 1사이에..

AI 2022.08.17

[AI] RBM(Restricted Boltzmann Machine)

1. RBM RBM은 제한된 볼츠만 머신이며, 말 그대로 볼츠만 머신에서 층간 연결을 없앤 형태의 모델이다. 차원 감소, 분류, 선형 회귀 분석, 협업 필터링(collaborative filtering), 특징 값 학습(feature learning) 및 주제 모델링(topic modelling)에 사용할 수 있는 알고리즘이다. RBM은 Generative Model이라고 하는데, ANN, DNN, CNN, RNN 등과 같은 Deterministic Model과는 다른 목표를 가지고 있다. Deterministic Model은 타겟과 가설 간의 차이를 줄여 오차를 줄이는 것을 목표로 한다면, Gernerative Model은 확률밀도함수(probability density function, pdf)를 모..

AI 2022.08.17

[AI] LSTM(Long Short Term Memory)

1. 일반적인 신경망 Feed-forward neural networks(FFNets) 데이터를 트레이닝 셋과 테스트 셋으로 나누어서 관리하고, 트레이닝 셋을 통해 신경망의 가중치를 학습시켜 결과를 테스트 셋을 통해 확인하는 방식이다. FFNets에서 데이터를 입력하면 입력층에서 은닉층까지 연산이 진행되고 출력되고, 이 과정에서 입력 데이터는 모든 노드를 한 번씩 지나가게 된다. 데이터가 노드를 한 번만 지나가게 된다는 것은 데이터의 순서(시간적인 측면)를 고려하지 않는 구조라는 의미이다. 데이터들의 시간 순서를 무시하고 현재 주어진 데이터를 통해서 독립적으로 학습한다. 2. 순환 신경망 RNN(Recurrent Neural Networks) 입력과 출력을 시퀀스 단위로 처리하는 Sequence 모델이다..

AI 2022.08.16