Immersion In Data

AI

[AI] Decision Tree

sungjunminn 2022. 8. 18. 17:11

1. Decision Tree

의사결정나무(Decision Tree)는 설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델이다. 설명변수의 관측값을 모델에 입력해 목표변수를 분류하거나 예측하는 지도학습 기반의 방법론이다. 의사결정나무 모델을 사용하는 주된 이유는 목표변수(Y)를 예측하거나 분류 문제를 해결함에 있어서 어떤 설명변수가 가장 중요한 영향인자인지 확인할 수 있고, 각 설명변수별로 어떤 척도에 따라 예측 또는 분류했는지 상세한 기준을 알 수 있다. 

 

- Decision Tree의 장점

1. 결과 해석에 용이 : 직관적인 해석 가능, 주요 변수와 분리기준 제시

2. 비모수적 모델 : 통계모델에 요구되는 가정에 자유로움

3. 변수 간 상호작용 : 변수 간의 상호작용을 고려하며 선형/비선형 관계 탐색 가능

 

- Decision Tree 의 단점 

1. 비안정성 : 데이터 수가 적을 경우 불안정, 과대적합 발생률 높음

2. 선형성 미흡 : 전체적인 선형관계 파악 미흡

3. 비연속성 : 분리 시 연속형 변수를 구간화 처리, 분리 경계점 근처에 오류 발생 가능

 

- Decision Tree 구조 및 용어

 

 

1. 루트노드(Root Node) : 나무가 시작되는 노드를 의미. 의사결정나무를 시작했을 때 루트노드는 가장 위에 위치

2. 자식노드(Child Node) : 상위의 노드에서 분리된 하위 노드

3. 부모노드(Parent Node) : 자식 노드의 상위 노드

4. 중간노드(Internal Node) : 나무 중간에 위치한 노드로 루트노드 또는 최하위 노드가 아닌 모든 노드 해당

5. 가지(Branch) : 하나의 노드로부터 잎사귀 노드까지 연결된 일련의 노드를 포함

6. 잎사귀노드(Leaf Node) : 각 가지 끝에 위치한 노드(Terminal Node)

7. 순수노드(Pure Node) : 해당 노드의 목표변수가 동일한 값이나 종류만 가지는 노드

8. 깊이(Depth) : 가지를 이루고 있는 노드의 분리 층수

 

2. Decision Tree 예측 모델링

- MSE(Mean Squared Error, 평균제곱오차)MSE는 모델 예측 값과 실제 값 간의 제곱오차의 평균을 의미한다. 부모 노드의 평균제곱오차를 가장 많이 감소시키는 설명변수와 분리 값을 기준으로 자식노드를 생성한다. 따라서 MSE가 작을수록 오차가 적어 좋은 모델이라고 할 수 있다. 

 

- MAE(Mean Absolute Error, 평균절대오차)MAE는 모델 예측 값과 실제 값 간의 절대오차의 평균을 의미한다. MSE와 마찬가지로 부모 노드의 평균 절대오차를 가장 많이 감소시키는 설명변수와 분리 값을 기준으로 자식노드를 생성한다. 따라서 MAE가 작을수록 오차가 적어 좋은 모델이라고 할 수 있다. 

 

2. Decision Tree 분류 모델링

- 지니지수(Gini Index)

지니지수(Gini Index)는 불순도 측정 지수로서 '얼마나 다양한 데이터가 잘 섞여있는지의 정도'를 나타낸다. 반대의 개념인 순수도는 같은 클래스의 데이터가 얼마나 포함되었는지를 나타낸다. 지니지수가 낮을수록 순수도는 높은 것이고 분리가 잘 이루어졌다고 말할 수 있다. 

 

- 엔트로피 지수(Entropy Index)

엔트로피 지수(Entropy Index)는 지니지수와 비슷한 맥락으로 '데이터가 섞여있는 정도'를 나타낸다. 엔트로피가 낮아지는 방향으로 분리해주는 것이 좋다. 

 

'AI' 카테고리의 다른 글

[AI] Association Mining  (0) 2022.09.01
[AI] Random Forest  (0) 2022.08.19
[AI] K-NN(K-Nearest Neighbor)  (0) 2022.08.18
[AI] Logistic Regression  (0) 2022.08.17
[AI] RBM(Restricted Boltzmann Machine)  (0) 2022.08.17