Деревья решений (часть 1)
13.03.2013

Деревья решений (или деревья принятия решений) являются одним из наиболее популярных подходов к решению задач Data Mining, направленных на раскрытие структуры данных. Этот метод может быть применен не только к количественным, но и к качественным категориям почвенной информации. В почвоведении широкое применение деревья решений получили при экологических исследованиях, для оценки качества земель и гидрофизических почвенных свойств.
Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов, при этом целевая переменная должна иметь дискретные значения. Если же она имеет непрерывные значения, деревья решений позволяют устанавливать зависимость целевой переменной от независимых (входных) переменных, т.е. решать задачи регрессии. Наиболее популярным программным обеспечением для получения педотрансферных функций посредством этого метода являются SPLUS (Mathsoft), SAS, некоторые модули пакета STATISTICA (StatSoft).
Среди неоспоримых достоинств деревьев решений можно выделить быстрый процесс обучения, интуитивно понятную классификационную модель, высокую точность прогноза (сопоставимую с традиционными статистическими методами и нейронными сетями), построение непараметрических моделей. Во многих случаях методы деревьев решений имеют преимущество по сравнению с другими методами моделирования, так полученная модель может быть легко представлена графически и в виде совокупности правил.
Метод создает иерархическое, последовательное строение классифицирующих правил типа «если... то...» (if - then), имеющее вид дерева. Дерево решений состоит из узлов, где производится проверка условия, и листьев - конечных узлов дерева, указывающих на класс (узлов решения). Наиболее близкая и понятная аналогия деревьев решений - дерево каталогов, отображаемое, например, проводником Windows (каталоги -узлы, а файлы - листья). Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах (вершинах) этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра А>В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный - то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.
На сегодняшний день существует значительное число алгоритмов построения деревьев решений, действие которых базируется на применении методов регрессионного и корреляционного анализа (например, С4.5, Newld, ITrule, СHAID, CN2). Один из самых популярных алгоритмов этого семейства - классификационные и регрессионные деревья, или сокращенно CART (Classification and Regression Trees) - основан на разделении данных в ветви дерева; при этом дальнейшее деление той или иной ветви зависит от того, много ли исходных данных описывает данная ветвь. Процедура ветвления производится на основе наиболее высокого для описываемых ветвью данных коэффициента корреляции между параметром, согласно которому происходит разделение, и параметром, который в дальнейшем должен быть предсказан.


Имя:*
E-Mail:
Комментарий:
Введите два слова, показанных на изображении: *