Научно-технический журнал

«Автоматизация и информатизация ТЭК»

ISSN 2782-604X

Автоматизация и информатизация ТЭК
Классификация корпоративного трафика с использованием алгоритмов машинного обучения

УДК: 004.89
DOI: 10.33285/2782-604X-2023-7(600)-22-29

Авторы:

УЙМИН АНТОН ГРИГОРЬЕВИЧ1
1 РГУ нефти и газа (НИУ) имени И.М. Губкина, Москва, Россия

Ключевые слова: алгоритм, классификация, трафик, данные, система, построение

Аннотация:

В статье исследуется применение различных алгоритмов машинного обучения для классификации корпоративного трафика согласно 8CoS-модели. Цель работы заключается в определении классификатора, обеспечивающего распознавание трафика с вероятностью не ниже 0,96 и минимальной загрузкой аппаратной части при условии обработки данных, не превышающих 2000 экземпляров. Выбор таких метрик обусловлен стремлением обеспечить высокую точность классификации (не менее 96 %) при сохранении оптимального использования ресурсов аппаратной части. Ограничение в 2000 экземпляров данных выбрано исходя из предполагаемых ограничений ресурсов и времени обработки в реальных условиях. Анализируются результаты применения алгоритмов C4.5 Decision Tree, Random Forest, Support Vector Machine (SVM) и K-Nearest Neighbors (KNN). Основываясь на полученных результатах, определен алгоритм C4.5 Decision Tree как наиболее подходящий (оптимальный) для решения поставленной задачи.

Список литературы:

1. Yehoon Jang, Namgi Kim, Byoung-Dai Lee. Traffic classification using distributions of latent space in software-defined networks: An experimental evaluation // Engineering Applications of Artificial Intelligence. – 2023. – Vol. 119. – P. 105736. – DOI: 10.1016/j.engappai.2022.105736
2. Shanthi J., Gracia Nirmala Rani D., Rajaram S. A C4.5 decision tree classifier based floorplanning algorithm for System-on-Chip design // Microelectronics J. – 2022. – Vol. 121. – P. 105361. – DOI: 10.1016/j.mejo.2022.105361
3. Utilization of random forest classifier and artificial neural network for predicting the acceptance of reopening decommissioned nuclear power plant / A.K.S. Ong, Y.T. Prasetyo, K.E. Velasco [et al.] // Annals of Nuclear Energy. – 2022. – Vol. 175. – P. 109188. – DOI: 10.1016/j.anucene.2022.109188
4. Goyal S. Effective software defect prediction using support vector machines (SVMs) // Int. J. of System Assurance Engineering and Management. – 2022. – Vol. 13, Issue 2. – P. 681–696. – DOI: 10.1007/s13198-021-01326-1
5. Comparative performance analysis of K-nearest neighbour (KNN) algorithm and its different variants for disease prediction / S. Uddin, I. Haque, Haohui Lu [et al.] // Scientific Reports. – 2022. – Vol. 12, No. 1. – Article No. 6256. – DOI: 10.1038/s41598-022-10358-x
6. Dol S.M., Jawandhiya P.M. Classification Technique and its Combination with Clustering and Association Rule Mining in Educational Data Mining – A survey // Engineering Applications of Artificial Intelligence. – 2023. – Vol. 122. – P. 106071. – DOI: 10.1016/j.engappai.2023.106071
7. Уймин А.Г., Морозов И.М. Сравнительный анализ инструментов непрерывной онлайн-аутентификации и систем обнаружения аномалий для постоянного подтверждения личности пользователя // T-Comm: Телекоммуникации и транспорт. – 2022. – Т. 16, № 5. – С. 48–55. – DOI: 10.36724/2072-8735-2022-16-5-48-55
8. Comparison of the Performance Results of C4.5 and Random Forest Algorithm in Data Mining to Predict Childbirth Process / M. Muhasshanah, M. Tohir, D.A. Ningsih [et al.] // CommIT J. – 2023. – Vol. 17, No. 1. – P. 51–59.
9. A Comparative Analysis of Machine Learning techniques on Breast Cancer diagnosis using WEKA / A. Rashid, S.S. Binta Farhad, A. Bhuyian [et al.] // 2022 25th Int. Conf. on Computer and Information Technology (ICCIT), Cox's Bazar, Bangladesh, Dec. 17–19, 2022. – IEEE, 2023. – P. 663–668. – DOI: 10.1109/ICCIT57492.2022.10055421
10. Mahammad A.B., Kumar R. Design a Linear Classification Model with Support Vector Machine Algorithm on Autoimmune Disease Data // 2022 3rd Int. Conf. on Intelligent Engineering and Management (ICIEM), London, Apr. 27–29, 2022. – IEEE, 2022. – P. 164–169. – DOI: 10.1109/ICIEM54221.2022.9853182
11. Venkatramana Reddy S., Madhavi Latha N., Sarojamma B. Development of Machine Learning models for air pollutants using weka // J. of Physics: Conf. Series. – IOP Publishing, 2022. – Vol. 2332. – P. 012018. – DOI: 10.1088/1742-6596/2332/1/012018
12. Shenango: Achieving High CPU Efficiency for Latency-sensitive Datacenter Workloads / A. Ousterhout, J. Fried, J. Behrens [et al.] // 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI ’19), Boston, MA, USA, Feb. 26–28, 2019. – USENIX Association, 2019. – P. 361–377. – URL: https://www.usenix.org/system/files/nsdi19-ousterhout.pdf
13. Gregg B. Linux load averages: Solving the Mystery. – URL: https://brendangregg.com/blog/2017-08-08/linux-load-averages.html
14. Уймин А.Г. Автоматическое маркирование сетевого трафика браузера для анализа и классификации на примере платформы "Remotetopology" // T-Comm: Телекоммуникации и транспорт. – 2022. – Т. 16, № 12. – С. 17–22. – DOI: 10.36724/2072-8735-2022-16-12-17-22