Научно-технический журнал

«Автоматизация и информатизация ТЭК»

ISSN 2782-604X

Автоматизация и информатизация ТЭК
Исследование алгоритмов построения деревьев решений в системе индуктивного обучения

УДК: 681.5
DOI: 10.33285/2782-604X-2023-5(598)-34-44

Авторы:

ФОМИЧЕВА ОЛЬГА ЕВГЕНЬЕВНА1
1 РГУ нефти и газа (НИУ) имени И.М. Губкина, Москва, Россия

Ключевые слова: интеллектуальный анализ данных, машинное обучение, предиктивная аналитика, деревья решений, индуктивное обучение, система поддержки принятия решений, пакет Python sklearn для Data Science и Machine Learning

Аннотация:

Рассматриваются традиционные и современные подходы к построению деревьев решений, представляющих собой один из наиболее эффективных инструментов в области интеллектуального анализа данных и предиктивной аналитики. С помощью деревьев решений можно решать основные задачи машинного обучения: задачи классификации и регрессии в различных предметных областях. Предлагается система поддержки принятия решений, основанная на правилах, которые представляют собой деревья решений, получаемые методом индуктивного обучения. Исследуются алгоритмы индуктивного обучения, приводится пример реализации системы поддержки принятия решений, выполняется сравнение эффективности предложенного алгоритма с решателем из модуля sklearn – одного из широко используемых пакетов Python для Data Science и Machine Learning.

Список литературы:

1. Шахиди А. Деревья решений: общие принципы. – URL: http://www.basegroup.ru/library/analysis/tree/description/ (дата обращения 30.01.2023).
2. Zhou V. A Simple Explanation of Information Gain and Entropy. – URL: https://victorzhou.com/blog/information-gain/ (дата обращения 30.01.2023).
3. Painsky A., Rosset S. Cross-Validated Variable Selection in Tree-Based Methods Improves Predictive Performance // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2017. – Vol. 39, Issue 11. – P. 2142–2153. – DOI: 10.1109/TPAMI.2016.2636831
4. Sujan N.I. What is Entropy and why Information gain matter in Decision Trees? – URL: https://medium.com/coinmonks/what-is-entropy-and-why-information-gain-is-matter-4e85d46d2f01 (дата обращения 30.01.2023).
5. An Introduction to Statistical Learning with Applications in R / G. James, D. Witten, T. Hastie, R. Tibshirani. – New York: Springer, 2017. – P. 303–336. – URL: https://www.springer.com/gp/book/9781461471370 (дата обращения 30.01.2023).
6. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. – 2nd Edition. – Springer, 2009. – XXII, 745 p. – URL: http://www-stat.stanford.edu/~tibs/ElemStatLearn (дата обращения 30.01.2023).
7. DOT Language. – URL: https://www.graphviz.org/doc/info/lang.html (дата обращения 30.01.2023).
8. Scikit-learn. Machine Learning in Python. – URL: https://scikit-learn.org (дата обращения 30.01.2023).
9. Визуализация дерева решений. – URL: https://russianblogs.com/article/89531287808/ (дата обращения 30.01.2023).