АЛГОРИТМЫ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С УЧЕТОМ БЛИЗОСТИ В ПРИЗНАКОВОМ ПРОСТРАНСТВЕ
Аннотация и ключевые слова
Аннотация (русский):
Классификация текстов является одним из ключевых вопросов исследования в области разработки текстов, где документы классифицируются с учетом информации. Поскольку алгоритмов классификации текста достаточно большое количество, то на данный момент является необходимым составить обзорный перечень их, дабы упростить ориентацию в классификационных инструментах, которые доступны на данный момент. Многие схемы представления текстов и алгоритмы классификации/обучения, используемые для классификации текстовых документов по заранее определенным категориям, можно найти в литературе, но некоторые из них требуют детального анализа и раскрытия потенциала. Целью этой статьи является обзор различных схем представления текста и сравнение различных классификаторов, которые используются для классификации текстовых документов по предопределенным категориям. В качестве методов во время исследования использовался метод сравнения – сравнивались современные подходы классификации, используемые алгоритмы, которые основаны на критериях и на временной сложности, а также методы анализа, моделирования и комбинирования. В результате исследования для автоматической классификации документов было предложено несколько алгоритмов или сочетаний алгоритмов в качестве гибридных подходов. Классификатор SVM (Support Vector Machine) был признан одним из наиболее эффективных методов текстовой классификации при сравнении управляемых алгоритмов машинного обучения. Был сделан вывод, что SVM улавливает присущие данным характеристики и встраивает принцип минимизации структурного риска SRM (Structural Risk Minimization), который минимизирует верхнюю границу ошибки обобщения, лучше, чем принцип минимизации эмпирического риска.

Ключевые слова:
Naive Bayes, алгоритм Роккио, Support Vector Machine, k Nearest Neighbor, LVQ
Список литературы

1. Добрынин, В.Ю. Теория информационно-логических систем. Информационный поиск : методические указания к курсу информационного поиска / В.Ю. Добрынин. - Санкт-Петербург, 2002. - 36 с.

2. Дубинский, А.Г. Характеристики эффективности информационного поиска в сети Интернет / А.Г. Дубинский // Научный сервис в сети Интернет : сборник тезисов докладов Всероссийской научной конференции. - М. : Изд-во МГУ, 2001. - С. 136-138.

3. Joshi, S.C. Information technology, internet use, and adolescent cognitive development / S.C. Joshi, G. Rose // 3rd International Conference on Computational Systems and Information Technology for Sustainable Solutions. - Bengaluru: Institute of Electrical and Electronics Engineers Inc., 2018. - Pp. 22-28. - DOI:https://doi.org/10.1109/CSITSS.2018.8768780.

4. Когаловский, М.Р. Перспективные технологии информационных систем / М.Р. Когаловский. - М. : ДМК Пресс, 2018. - 288 c/

5. Dhar, A. Efficient feature selection based on modified cuckoo search optimization problem for classifying web text documents / A. Dhar, N.S. Dash, K. Roy // Communications in Computer and Information Science. - 2019. - Vol. 1037. - Pp. 640-651. - DOI:https://doi.org/10.1007/978-981-13-9187-3_57.

6. Солтон, Дж. Динамические библиотечно-информационные системы / Дж. Солтон. - М.: Мир, 1979. - 558 с.

7. El Barbary, O.G. Granular information retrieval using neighborhood systems / O.G. El Barbary, A.S. Salama, E.S. Atlam // Mathematical Methods in the Applied Sciences. - 2017. - Vol. 41, No. 15. - Pp. 5737-5753. - DOI:https://doi.org/10.1002/mma.4610.

8. Чугреев, В.Л. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации : специальность 05.13.01 - Системный анализ, управление и обработка информации (по отраслям) : дис. … канд. техн. наук / Валерий Леонидович Чугреев ; Санкт-Петербургский государственный электротехнический университет. - Санкт-Петербург, 2003. - 185 с.

9. Rahman, M.M. A personalized group-based recommendation approach for web search in E-learning. A personalized group-based recommendation approach for web search in E-learning / M.M. Rahman, N.A. Abdullah // IEEE Access. - 2018. - Vol. 6, № 25. - 34166-34178. - DOI:https://doi.org/10.1109/ACCESS.2018.2850376

10. Jansen, B.J. Real life, real users, and real needs: a study and analysis of user queries on the web / B.J. Jansen, A. Spink, T. Saracevic // Information Processing and Management. - 2000. - Vol. 36, № 2. - Pp. 207-227. - DOI:https://doi.org/10.1016/S0306-4573(99)00056-4.

11. Tunga, B. Digital image decomposition and contrast enhancement using high-dimensional model representation / B. Tunga, A. Kocanaogullari // Signal, Image and Video Processing. - 2018. - Vol. 12, № 2. - Pp. 299-306. - DOI:https://doi.org/10.1007/s11760-017-1158-8

12. Huang, H. Web service based intelligent search on legal documents / H. Huang, R. Wong // ACSW 2019: Proceedings of the Australasian Computer Science Week Multiconference. - 2019. - № 1. - С. 50. -DOI:https://doi.org/10.1145/3290688.3290710.

13. Meng, M. Building efficient and effective metasearch engines / M. Meng, C. Yu, K.-L. Liu // ACM Computing Surveys. - 2002. - Vol. 34, № 1. - Pp. 255-261. - DOI:https://doi.org/10.1145/505282.505284.

14. Ding, J. Big data analyses of zeronet sites for exploring the new generation darkweb / J. Ding, X. Guo, Z. Chen // ICSIM '20: Proceedings of the 3rd International Conference on Software Engineering and Information Management. - 2020. - Pp. 46-52. - DOI:https://doi.org/10.1145/3378936.3378981.

15. He, R. Graphical models with content relevance for crucial date detection in social media event / R. He, D. Ding // Lecture Notes in Computer Science. - 2018. - Vol. 11062. - Pp. 413-421. - DOI:https://doi.org/10.1007/978-3-319-99247-1_37.

16. Formalization of document management using multilevel graph model of information processing / M.N. Krasnyanskiy, D. Obukhov, E.M. Solomatina [et al.] // 18th International Multidisciplinary Scientific GeoConference SGEM 2018. - 2018. - Pp. 413-420. - DOI:https://doi.org/10.5593/sgem2018/2.1/S07.052.

17. Anand, C. Comparative study of web page ranking algorithms / C. Anand, S. Kumar // International Journal of Advanced Science and Technology. - 2020. - Vol. 29, № 5. - Pp. 322-331.

18. Tang H., Byna S., Dong B., Koziol Q. Parallel query service for object-centric data management systems // 34th IEEE International Parallel and Distributed Processing Symposium Workshops. - 2020. - Pp. 406-415. - DOI:https://doi.org/10.1109/IPDPSW50202.2020.00076.

19. An analysis and classification of public information security data sources used in research and practice / C. Sauerwein, I. Pekaric, M. Felderer, R. Breu // Computers and Security. - 2019. - № 82. - Pp. 140-155. - DOI:https://doi.org/10.1016/j.cose.2018.12.011.

20. Sebastiani, F. Text categorization / F. Sebastiani // Text Mining and Its Applications. - Southampton: WIT Press, 2005. - P. 109-129. - DOI:https://doi.org/10.2495/978-1-85312-995-7/04.

21. Berger, A. Statistical Machine Learning for Information Retrieval / A. Berger. - Peatsburg: Carnegie Mellon University, 2001.

22. The materials simulation toolkit for machine learning (MAST-ML): An automated open-source toolkit to accelerate data-driven materials research / R. Jacobs, T. Mayeshiba, B. Afflerbach [et al.] // Computational Materials Science. - 2020. - Vol. 176. - С: 109544. - DOI:https://doi.org/10.1016/J.COMMATSCI.2020.109544.

23. Baker, L.D. Distributional clustering of words for text classification / L.D. Baker, А.К. McCallum // 21st ACM International Conference on Research and Development in Information Retrieval. - 1998. - Pp. 96-103. - DOI:https://doi.org/10.1145/290941.290970.

24. Naive bayes text categorization algorithm based on TF-IDF attribute weighting / F. Jiang, Z. Zhang, P. Chen, Y. Liu // 2nd International Conference on Computer Science and Artificial Intelligence. - 2018. - Pp. 521-525. - DOI:https://doi.org/10.1145/3297156.3297256.

25. Dang, E.K.F. Context-dependent feature values in text categorization / E.K.F. Dang, R.W.P. Luk, J. Allan // International Journal of Software Engineering and Knowledge Engineering. - 2020. - Vol. 30, No. 9. - P. 1199-1219. - DOI:https://doi.org/10.1142/S021819402050031X.

26. Huang, Y. An analytical model for solving generalized interval eigenvalue problem / Y. Huang, Y. Liu // Applied Mathematical Modelling. - 2018. - № 61. - P. 18-28. - DOI:https://doi.org/10.1016/j.apm.2018.04.007.

Войти или Создать
* Забыли пароль?