Decision Tree
-------------------------------------------------------------------------------------------------------------------------------
I. 데이터마이닝 분석의 대표적인 분석방법, Decision Tree의 개요
가. Decision Tree(의사결정나무)의 정의
- 의사결정 규칙을 도표화 하여 관심 대상 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 계량적 분석 방법
나. Decision Tree의 특징
- 분류는 정확도는 낮지만, 분류 과정의 이해 및 설명이 용이
- 주어진 데이터를 분류하는 목적으로 사용(예측 사용 불가)
II. Decision Tree의 개념도 및 구성요소
가. Decision Tree의 개념도
- 순환적 분할 방식을 이용하여 나무를 구축하는 기법
나. Decision Tree의 구성요소
구성요소 |
내용 |
|
노드 node |
뿌리노드(Root Node) |
나무 구조가 시작되는 마디 |
부모노드(Parent Node) |
자식마디의 상위마디를 의미 |
|
자식노드(Child Node) |
하나의 마디로부터 분리되어진 2개이상의 마디 |
|
잎(Leaf) |
각 나무줄기의 끝에 위치하는 마디 |
|
가지(branch) |
하나의 마디로부터 끝 마디까지 연결된 마디들을 의미하며, 가지를 이루고 있는 마디의 개수를 깊이(Depth)라고 한다. |
III. Decision Tree의 분석단계 및 장단점
가. Decision Treee의 분석단계
분석단계 |
상세활동 |
의사결정 나무형성 |
분석 목적과 자료구조에 따라 적절한 분리기준(Split Criterion) 및 정지규칙(Stopping Rule) 지정 |
가지치기 |
분류오류(Classification Error) 유발 위험(Risk)이 높거나 부적절한 규칙을 가지는 가지(Branch) 제거 |
타당성 평가 |
이익도표(Gains Chart), 위험도표(Risk Chart), 검정자료(Test Data)에 의한 교차타당성(Cross validation) 등 이용, 의사결정나무 평가 |
해석 및 예측 |
의사결정나무의 해석, 분류 및 예측 모형 설정 |
나. Decision Tree의 장점
장점 |
설명 |
해석의 용이성 |
모형의 이해가 쉽고 새로운 자료의 모형에 적합하며, 어떤 입력변수가 목표변수를 설명하기에 좋은지 쉽게 파악 |
교호효과의 해석 |
두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악 |
비모수적 모형 |
선형성, 정규성, 등분산성 등의 가정이 불필요 |
분류결과 직관성 |
결과의 이해도가 높으며 의사결정에 있어 직접적으로 사용할 수 있어 활용도가 높음 |
다. Decision Tree의 단점
단점 |
설명 |
불안정성 |
레코드 개수의 작은 차이에도 나무모양이 크게 달라짐 |
비연속성 |
Greedy 알고리즘의 사용으로 최적의 해를 보장하지 못함 |
비안정성 |
연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 부근에서 예측오류가 클 수 있음 |
낮은 정확도 |
분류율의 정확도 측면에서 신경망, 로지스택 회귀분석 등의 분류방법보다 정확도가 낮음 |
'IT 연구회' 카테고리의 다른 글
크라임웨어 [Crimeware] (0) | 2017.08.14 |
---|---|
워너크라이(WannaCry) (0) | 2017.08.08 |
OWASP Top10 2017 (0) | 2017.08.08 |
양자암호통신(Quantum) (1) | 2017.08.07 |
Fog Computing (0) | 2017.07.30 |
SLA(Service Level Agreement) (0) | 2017.07.04 |
owasp 2013 (0) | 2017.01.03 |
AAA (0) | 2016.10.28 |
[파일 타입] jmimemagic을 활용한 파일 타입 구분 (0) | 2016.05.06 |
[네트워크] 네트워크 설정 파일 (0) | 2016.02.13 |