Брянск, Брянская область, Россия
аспирант с 01.01.2024 по настоящее время
Брянск, Брянская область, Россия
Представлена разработка методологии и программного обеспечения для автоматической классификации коммитов в Git-репозиториях с использованием методов машинного обучения. Предложенный подход сочетает в себе текстовую векторизацию на основе TF-IDF и модель Multinominal Naive Bayes для классификации коммитов по категориям. Подход включает в себя систему активного обучения, которая дает пользователю возможность корректировать предлагаемые классификации, что способствует непрерывному совершенствованию модели. Методология включает предварительную обработку описаний коммитов, извлечение семантических признаков и построение адаптивной классификационной модели. Результаты работы могут быть использованы для повышения прозрачности процессов разработки, анализа историй изменений, анализа и оптимизации кода и автоматизации процессов тестирования и доставки новых модулей разрабатываемого проекта заинтересованным сторонам (CI/CD).
машинное обучение, Git, классификации коммитов, активное обучение, TF-IDF, Multinominal Naive Bayes
1. Крупкин С.А. Работа с системой контроля версий Git [Текст]. – М.: Изд-во Московского университета, 2022. – 120 с.
2. Automated commit classification for git repositories using machine learning technique [Текст] / X. Wang, Y. Jiang, Y. Xu et al. // Proceedings of the 30th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2023). – 2023. – P. 112-124.
3. Конвенция коммитов (Conventional Commits) [Электронный ресурс] / Conventional Commits Initiative. – Version 1.0.0, 2019.
4. Иванов Н.Н. Синтаксический разбор предложения для векторизации текста // Вопросы науки и образования. – 2017. – №11 (12). – С. 45-46.
5. Zhang H., Jiang L., Yu H.-K. A literature review on naive Bayes classifiers // Intelligent Data Analysis. – 2020. – Vol. 24. – No. 1. – P. 37-57.
6. Гусев П.Ю. Обработка текстов и подготовка моделей векторизации для программного комплекса классификации научных текстов // Моделирование, оптимизация и информационные технологии. – 2021. – №9 (1).
7. Terentyeva Yu. Sentiment Analysis, InSet Lexicon, SentiStrength Lexicon, Naive Bayes, Multinomial Naive Bayes, TF-IDF, Machine Learning // International Journal of Open Information Technologies. – 2024. – №7. URL: https://cyberleninka.ru/article/n/ sentiment-analysis-inset-lexicon-sentistrength-lexicon-naive-bayes-multinomial-naive-bayes-tf-idf-machine-learning (дата обращения: 10.01.2026).
8. Pascarella L. On the Use of Machine Learning Techniques for Software Engineering Tasks: A Systematic Literature Review // IEEE Transactions on Software Engineering. – 2021. – Т. 47, № 11. – С. 2301-2325.
9. Zhang Y., Wang H., Liu Z. A Comparative Study of Text Classification Algorithms // Journal of Machine Learning Research. – 2018. – Vol. 19. – P. 1-35.
10. Chen M., Li X., Zhou J. Scalable Text Classification: A Benchmark // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). – 2020. – P. 4567-4579.
11. Wang T., Jiang L., Chen R. Noise-Robust Text Classification with Naive Bayes // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). – 2019. – P. 1234-1243.



