본문 바로가기

머신러닝/알고리즘

2-1. Decision Tree (의사결정나무)

Decision Tree (의사결정나무)

결정나무, 의사결정나무, 결정트리, 디시즌트리 등의 용어로 불려짐

지도학습 알고리즘

 

변수를 기반으로 분류하거나 예측하는데 사용하는 알고리즘

 

용도에 따라서, 분류나무 혹은 회귀나무라고도 칭함

범주형인 경우 분류, 수치형인 경우 예측 혹은 회귀

 

CART(Classification And Regression Tree), C4.5, CHAID(Chi-square Automatic Interation Detection) 세가지가 대표적인 종류

각각 지니 지수(Gini index), 엔트로피 지수(entropy index), 카이제곱 통계량( Chi-Square statistic)을 불순도(Impurity) 알고리즘으로 사용함

 

구분 CART C4.5 CHAID
분류 가능 가능 가능
회귀(예측) 가능 가능 불가
분리방법 이지 다지 다지
불순도 알고리즘 gini entropy chi-square statistic

 

분류 목적으로 많이 사용

회귀(예측)의 경우 신경망, 회귀분석 알고리즘이 더 우수한 경향을 보임

 

주요 특징

 - 이해하기 쉽고, 설명하기 용이함

 - 많은 데이터가 필요함

 - 속도가 느린 편

 

 

타이타닉 호 탑승객의 생존 여부를 나타내는 결정 트리. (“sibsp”는 탑승한 배우자와 자녀의 수를 의미한다.) 잎 아래의 숫자는 각각 생존 확률과 탑승객이 그 잎에 해당될 확률을 의미한다. https://commons.wikimedia.org/wiki/File:CART_tree_titanic_survivors_KOR.png#/media/파일:CART_tree_titanic_survivors_KOR.png [위키피디아 이미지 참조]

 

'머신러닝 > 알고리즘' 카테고리의 다른 글

2-1-2. Decision Tree 실습 2  (0) 2020.09.09
2-1-1. Decision Tree 실습 1  (0) 2020.09.09
1-3-2. KNN 실습 2  (0) 2020.09.08
1-3-1. KNN 실습 1  (0) 2020.09.08
1-3. KNN (K Nearest Neighbors)  (0) 2020.09.08