Profession-Oriented School

Профильная школа

1998-0744

95359

10.12737/1998-0744-2025-13-2-40-45

Цифровая образовательная среда

The digital learning environment

Цифровая образовательная среда

AUTOMATION OF EXTRACTION AND ANALYSIS OF TABULAR DATA WITH CHARACTERISTICS OF ELECTRONIC COMPONENTS

АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ И АНАЛИЗА ТАБЛИЧНЫХ ДАННЫХ С ХАРАКТЕРИСТИКАМИ ЭЛЕКТРОННЫХ КОМПОНЕНТОВ

https://orcid.org/0000-0001-9625-7713

Гуриков

С. Р.

Gurikov

Sergey Rostislavovich

sgurikov@mail.ru

кандидат педагогических наук;

candidate of pedagogical sciences;

Андреева

Е. В.

Andreeva

Ekaterina V.

Московский государственный технологический университет «Станкин» Moscow State University of Technology «STANKIN»

Московский технический университет связи и информатики Moscow technical university of communication and information

19 05 2025

13 2 40 45 23 02 2025 02 04 2025

https://zh-szf.ru/en/nauka/article/95359/view

В статье рассматривается процесс автоматизации извлечения и анализа табличных данных, которые содержат характеристики электронных компонентов. Подчеркивается проблема извлечения данных из PDF-документов вручную. Актуальность данной работы обусловлена необходимостью использования данных, представленных в формате PDF, конструкторами современного предприятия, использующими лазерные технологии для измерения расстояний с высокой точностью. Однако процесс извлечения и анализа данных из PDF-документов затруднен из-за особенностей хранения технических данных о характеристиках электронных компонентов и отсутствия эффективных инструментов считывания и преобразования информации. В работе предложено решение, основанное на разработке Python-скриптов для автоматизации процесса извлечения и анализа табличных данных из PDF-документов. Это позволяет извлекать данные из распознанных таблиц и преобразовать их в формат, удобный для дальнейшей обработки.

The article discusses the process of automating the extraction and analysis of tabular data that contain the characteristics of electronic components. The problem of extracting data from PDF documents manually is emphasized. The relevance of this work is due to the need to use the data presented in PDF format by the designers of a modern enterprise using laser technologies to measure distances with high accuracy. However, the process of extracting and analyzing data from PDF documents is difficult due to the peculiarities of storing technical data on the characteristics of electronic components and the lack of effective tools for reading and converting information. The paper proposes a solution based on the development of Python scripts to automate the process of extracting and analyzing tabular data from PDF documents. This allows you to extract data from recognized tables and convert them into a format that is convenient for further processing.

PDF документы распознавание таблиц скрипт Python

PDF documents table recognition script Python

Загородников М. В. Восстановление текстового слоя PDF документов со сложным фоном / М. В. Загородников, А. А. Михайлов // Труды Института системного программирования РАН. – 2024. – Т. 36, № 3. – С. 189-202.

Zagorodnikov M. V. Restoration of the text layer of PDF documents with a complex background / M. V. Zagorodnikov, A. A. Mikhailov // Proceedings of the Institute of System Programming of the Russian Academy of Sciences. – 2024. – Vol. 36, No. 3. – pp. 189-202.

Калачинский А. В. Генерация описания работы автоматных программ в документ формата PDF / А. В. Калачинский, И. Н. Ященко // Системы управления и обработки информации. – 2019. – № 1(44). – С. 93-98.

Kalachinsky A.V. Generation of descriptions of automatic programs in a PDF document / A.V. Kalachinsky, I. N. Yashchenko // Information management and processing systems. – 2019. – № 1(44). – pp. 93-98.

Огальцов А. В. Автоматическое извлечение метаданных из научных PDF-документов / А. В. Огальцов, О. Ю. Бахтеев // Информатика и ее применения. – 2018. – Т. 12, № 2. – С. 75-82.

Ogaltsov A.V. Automatic extraction of metadata from scientific PDF documents / A.V. Ogaltsov, O. Y. Bakhteev // Informatics and its applications. – 2018. – Vol. 12, No. 2. – pp. 75-82. DOI 10.14357/19922264180211.

Тронин В. Г. Автоматизация процесса извлечения страниц из pdf-документа / В. Г. Тронин, А. О. Куранов // Вестник Ульяновского государственного технического университета. – 2018. – № 3(83). – С. 31-38.

Tronin V. G. Automation of the process of extracting pages from a pdf document / V. G. Tronin, A. O. Kuranov // Bulletin of the Ulyanovsk State Technical University. – 2018. – № 3(83). – pp. 31-38.