CART(Calssification and Regression Trees, Beriman 1984) 알고리즘을 분류목적으로 사용하는 경우에는 불순도 측도로 지니 지수(Gini index)나 엔트로피(Entropy)를 사용한다.

 

지니 지수

엔트로피 지수

 

 

  Sepal.Length (cm) Sepal.Width (cm) Petal.Length (cm) Petal.Width (cm) Species
1 4.6 3.4 1.4 0.3 setosa
2 4.7 3.2 1.6 0.2 setosa
3 5.2 3.5 1.5 0.2 setosa
4 5.0 3.2 1.2 0.2 setosa
5 6.1 3.0 4.6 1.4 versicolor
6 6.1 2.9 4.7 1.4 versicolor
7 5.2 2.7 3.9 1.4 versicolor
8 5.7 2.8 4.1 1.3 versicolor
9 5.8 2.7 3.9 1.2 versicolor
10 6.3 2.9 5.6 1.8 verginica
11 7.7 2.8 6.7 2.0 verginica

 

총 지니지수

연속형 변수를 두 개의 자식마디로 나누는 방법에는 다음과 같은 방법이 있다.

1. 모든 기준점으로 불순도 계산

2. 중위수, 사분위수를 기준으로 불순도 계산

3. 평균을 기준으로 불순도 계산

4. Class가 바뀌는 점을 기준으로 불순도 계산

 

여기서는 간단하게 위의 그림에서 나온대로 자식마디를 나누고 지니지수를 계산해보자.

 

 

'Machine Learning' 카테고리의 다른 글

AdaBoost  (0) 2020.07.01
Random Forest  (0) 2020.06.28

+ Recent posts