Modeling of systems and processes

Моделирование систем и процессов

2219-0767

26715

10.12737/article_5c4f196e58e605.96494978

Технические науки

INFORMATION SYSTEMS FOR EXTRACTING DATA FROM UNSTRUCTURED TEXT USING ONTOLOGIES

Информационные системы для извлечения данных из неструктурированного текста с использованием онтологий

Лавлинский

Валерий Викторович

Lavlinskiy

V. Viktorovich

Зольникова

Юлия Олеговна

Zol'nikova

Yuliya Olegovna

Воронежский государственный лесотехнический университет имени Г.Ф. Морозова Voronezh State University of Forestry and Technologies named after G.F. Morozov

Воронежский государственный лесотехнический университет имени Г.Ф. Морозова RU FSBE Institution of Higher Education Voronezh State University of Forestry and Technologies named after G.F. Morozov RU

11 3 30 34

https://zh-szf.ru/en/nauka/article/26715/view

Основной задачей при извлечении информации из текста является промежуточное представление данных. Для этой цели используется грамматический разбор и осуществляется синтаксический анализ текста, чтоб определить соответствие грамматической структуры правилам формальной грамматики для данного языка. Процесс грамматического разбора приводит к генерации дерева грамматического разбора, а также графов зависимостей. Графы зависимостей представляют собой структуры данных, которые являются производными от обрабатываемого текста и определяют неявную структуру реализации в заданном тексте.

Грамматический разбор извлечение смысловой информации онтологии неструктурированный текст граф зависимостей.

Дерево грамматического разбораДерево грамматического разбора является упорядоченным деревом с корнем, который отображает синтактическую структуру предложения. В этом разделе описывается метод Обозначения Пенна корпусов с синтаксической разметкой (Penn Treebank Notation), который используется многими приложениями грамматического разбора, для тегирования (разметки) предложения до того, как будет сгенерировано дерево грамматического разбора. Эти теги в основном используются в системах извлечения смысловой информации, для формулирования правил, согласно которым должно производится извлечение.Ниже приведена упрощенная форма определений из Обозначений Пенна Корпусов с Синтаксической Разметкой (для полного списка обозначений см. [1]):S: Простые декларативные предложения (Simple declarative clause)NP: Именная группа (Noun Phrase). Категория фраз, которая включает в себе все составляющие, зависящие от главного существительного.VP: Глагольная группа (Verb Phrase). Категория выражений, возглавляемая глаголом.

Software - The Stanford Natural Language Processing Group. -Режим доступа: http://nlp.stanford.edu/software/. - Загл. с экрана.

Software - The Stanford Natural Language Processing Group. -Rezhim dostupa: http://nlp.stanford.edu/software/. - Zagl. s ekrana.

Ciravegna, F. (LP), an adaptive algorithm for information extraction from Web-related texts. In Proceedings of the IJCAI-2001 Workshop on Adaptive Text Extraction and Mining held in conjunction with 17th International Joint Conference on Artificial Intelligence (IJCAI)/, F. Ciravegna, J. Tang, J. Li, H. Lu, B. Liang, X. Huang, K. Wang.- Seattle, USA. - 2001.

iASA: Learning to Annotate the Semantic Web. JOURNAL ON DATA SEMANTICS IV Lecture // Notes in Computer Science. - 2005. - Volume 3730/2005. - P. 110-145

Soderland, S., Learning information extraction rules for semi-structured and free text / S. Soderland // Machine Learning. -1999. - №34. - P. 233-272/

Califf, M. E. Bottom-up relational learning of pattern matching rules for information extraction / M. E. Califf, , R. J. Mooney // Journal of Machine Learning Research. -2003. - Vol. 4. - Pp.177-210.

Соколов, Е. Г. Применение LSA/LSI методов для извлечения данных из неструктурированного текста / Е. Г. Соколов, М. М. Шарнин // Труды Международной научной конференции по физико-технической информатике CPT2018. - Царьград, 2018. - С. 59-63.

Sokolov, E. G. Primenenie LSA/LSI metodov dlya izvlecheniya dannyh iz nestrukturirovannogo teksta / E. G. Sokolov, M. M. Sharnin // Trudy Mezhdunarodnoy nauchnoy konferencii po fiziko-tehnicheskoy informatike CPT2018. - Car'grad, 2018. - S. 59-63.

Методы автоматической классификации текстов по функциональным стилям / Л.М. Ермакова, М.А. Абашев, Р.В. Никитин, Р.И. Ушаков // Вестник Пермского университета. Серия: Математика. Механика. Информатика. - 2014. - № 4 (27). - С. 78-83.

Metody avtomaticheskoy klassifikacii tekstov po funkcional'nym stilyam / L.M. Ermakova, M.A. Abashev, R.V. Nikitin, R.I. Ushakov // Vestnik Permskogo universiteta. Seriya: Matematika. Mehanika. Informatika. - 2014. - № 4 (27). - S. 78-83.

Богатырев, М. Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей / М.Ю. Богатырев // Известия Тульского государственного университета. Технические науки. - 2016. - № 7-1. - С. 198-208.

Bogatyrev, M. Yu. Izvlechenie faktov iz tekstov estestvennogo yazyka s primeneniem konceptual'nyh grafovyh modeley / M.Yu. Bogatyrev // Izvestiya Tul'skogo gosudarstvennogo universiteta. Tehnicheskie nauki. - 2016. - № 7-1. - S. 198-208.

Stulov, N. Patent landscapes & new technology trends in iot: extracting and visualizing data patterns / N. Stulov // Открытые семантические технологии проектирования интеллектуальных систем. - 2018. - Т. 2, № 8. - С. 293-297.

Stulov, N. Patent landscapes & new technology trends in iot: extracting and visualizing data patterns / N. Stulov // Otkrytye semanticheskie tehnologii proektirovaniya intellektual'nyh sistem. - 2018. - T. 2, № 8. - S. 293-297.

10.

Метод автоматизированного извлечения адресов из неструктурированных текстов / А. В. Комарова, А. А. Менщиков, А. В. Полев, Ю. А. Гатчин // International Journal of Open Information Technologies. - 2017. - Т. 5, № 11. - С. 21-27.

Metod avtomatizirovannogo izvlecheniya adresov iz nestrukturirovannyh tekstov / A. V. Komarova, A. A. Menschikov, A. V. Polev, Yu. A. Gatchin // International Journal of Open Information Technologies. - 2017. - T. 5, № 11. - S. 21-27.