본문 바로가기

IT 연구회

Decision Tree

반응형

Decision Tree

-------------------------------------------------------------------------------------------------------------------------------

 

I. 데이터마이닝 분석의 대표적인 분석방법, Decision Tree 개요

가. Decision Tree(의사결정나무) 정의

- 의사결정 규칙을 도표화 하여 관심 대상 집단을 개의 소집단으로 분류하거나 예측을 수행하는 계량적 분석 방법

나. Decision Tree 특징

- 분류는 정확도는 낮지만, 분류 과정의 이해 설명이 용이

- 주어진 데이터를 분류하는 목적으로 사용(예측 사용 불가)

 

II. Decision Tree 개념도 구성요소

가. Decision Tree 개념도

http://postfiles15.naver.net/20150108_206/lk3436_1420681925550srKgW_PNG/41.png?type=w3

- 순환적 분할 방식을 이용하여 나무를 구축하는 기법

나. Decision Tree 구성요소

구성요소

내용

노드

node

뿌리노드(Root Node)

나무 구조가 시작되는 마디

부모노드(Parent Node)

자식마디의 상위마디를 의미

자식노드(Child Node)

하나의 마디로부터 분리되어진 2개이상의 마디

(Leaf)

나무줄기의 끝에 위치하는 마디

가지(branch)

하나의 마디로부터 마디까지 연결된 마디들을 의미하며, 가지를 이루고 있는 마디의 개수를 깊이(Depth)라고 한다.

 

III. Decision Tree 분석단계 장단점

가. Decision Treee 분석단계

분석단계

상세활동

의사결정 나무형성

분석 목적과 자료구조에 따라 적절한 분리기준(Split Criterion) 정지규칙(Stopping Rule) 지정

가지치기

분류오류(Classification Error) 유발 위험(Risk) 높거나 부적절한 규칙을 가지는 가지(Branch) 제거

타당성 평가

이익도표(Gains Chart), 위험도표(Risk Chart), 검정자료(Test Data) 의한 교차타당성(Cross validation) 이용, 의사결정나무 평가

해석 예측

의사결정나무의 해석, 분류 예측 모형 설정

나. Decision Tree 장점

장점

설명

해석의 용이성

모형의 이해가 쉽고 새로운 자료의 모형에 적합하며, 어떤 입력변수가 목표변수를 설명하기에 좋은지 쉽게 파악

교호효과의 해석

이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악

비모수적 모형

선형성, 정규성, 등분산성 등의 가정이 불필요

분류결과 직관성

결과의 이해도가 높으며 의사결정에 있어 직접적으로 사용할 있어 활용도가 높음

 

 

다. Decision Tree 단점

단점

설명

불안정성

레코드 개수의 작은 차이에도 나무모양이 크게 달라짐

비연속성

Greedy 알고리즘의 사용으로 최적의 해를 보장하지 못함

비안정성

연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 부근에서 예측오류가 있음

낮은 정확도

분류율의 정확도 측면에서 신경망, 로지스택 회귀분석 등의 분류방법보다 정확도가 낮음

 

반응형

'IT 연구회' 카테고리의 다른 글

크라임웨어 [Crimeware]  (0) 2017.08.14
워너크라이(WannaCry)  (0) 2017.08.08
OWASP Top10 2017  (0) 2017.08.08
양자암호통신(Quantum)  (1) 2017.08.07
Fog Computing  (0) 2017.07.30
SLA(Service Level Agreement)  (0) 2017.07.04
owasp 2013  (0) 2017.01.03
AAA  (0) 2016.10.28
[파일 타입] jmimemagic을 활용한 파일 타입 구분  (0) 2016.05.06
[네트워크] 네트워크 설정 파일  (0) 2016.02.13