Брянский клинико-диагностический центр (кабинет статистики, заведующая)
Брянск, Брянская область, Россия
Брянск, Брянская область, Россия
В статье описывается статистический метод анализа медицинских данных, основанный на сравнении бинарных выборок. Обработка данных, которые накапливаются в медицинских информационных системах транзакционного типа, на основе анализа бинарных выборок, позволяет определять те показатели лабораторных исследований и диагнозы, которые характерны для вредных производственных факторов. Это будет способствовать развитию цифровых технологий в здравоохранении, которые позволят совершенствовать как диагностику, так и методы лечения, а также будет содействовать принятию компетентных управленческих решений. Результаты исследований приводились к бинарному виду путем их сопоставления с интервалом статистической нормы. Диагнозы рассматривались как изначально бинарные величины. Полученные в результате бинаризации выборки для двух групп, первая группа включает в себя лица, в производственной деятельности которых присутствуют вредные факторы, а вторая – тех, у которых эти факторы отсутствуют, сравнивались между собой. Исходная группа оказалась неоднородной по отношению к другой группе в связи с чем было принято решение провести дальнейшее исследование, основанное на разработке и апробации методики корректировки выборок с целью достижения однородности при максимальном сохранении используемых для анализа медицинских данных.
медицинские данные, бинарные выборки, анализ данных
Введение
Моделирование – важный инструмент планирования, прогнозирования и управления в современной медицине.
Сбор и анализ исходных данных является стратегической функцией разработки
моделей. Расширение возможностей сбора и анализа медицинских данных является крайне актуальным.
Информационная сфера здравоохранения – одна из самых быстрорастущих среди исследованных данных [1].
В медицинских информационных системах накоплены большие объемы информации о лечебно-диагностическом процессе. Особенность этих данных заключается в том, что они идут непрерывным потоком и постоянно накапливаются. Это огромная часть медико-биологических данных, которыми необходимо эффективно управлять и использовать для анализа и получения персональных превентивных рекомендаций [2].
В сложившейся ситуации чрезвычайно сложно в огромном потоке информации выделить ведущие факторы этиологии, патогенеза и клинических симптомов.
Отличительной чертой медико-биологической информации является то, что она обычно представлена в слабоструктурированном или неструктурированном формате [3].
Разнообразие задач, решаемых при изучении анализируемых медицинских данных, особенностях их получения и обработки, диктует необходимость совершенствования подходов к формированию систем сбора и обработки данных медицинских информационных системах транзакционного типа [4].
Анализ предметной области показывает необходимость развития технологий сбора и преобразования медицинских данных из небольших выборок, статистический анализ этих данных позволит провести прогнозную аналитику, увеличить производительность медицинских информационных систем и принять грамотные управленческие решения.
Методы исследования
Обработка данных из небольших слабоструктурированных выборок была сделана нами на основании анализа результатов периодических медицинских осмотров в соответствии с Федеральным законом № 152 «О персональных данных» [5].
Построение математической модели, которая описывает собранные медицинские данные, основывалось на статистической оценке значимости разницы между показателями лабораторных исследований и заболеваемостью в группе с наличием вредных производственных факторов и в группе с отсутствием таких факторов [6, 7, 8].
Для построения модели было предложено использовать подход, основанный на анализе бинарных выборок [6, 7, 8].
Преимущества данного метода заключается в том, что в отличие от параметрических методов он не требует выполнения серьезных допущений о виде закона распределения. По сравнению с непараметрическими методами он менее чувствителен к объему выборок и значительно проще в реализации [6].
Для оценки риска влияния факторов производственной среды на здоровье работников нами были сформированы две группы:
К I группе были отнесены лица, трудовая деятельность которых связана с воздействием вредных производственных факторов.
II группу составили лица в профессиональной деятельности, которых отсутствовал вредный производственный фактор.
Рассматривались бинарные данные, которые являются результатами измерений противоположного признака и принимают два возможных значения – «0» и «1» [6, 7, 8].
В процессе исследования ставилась задача определения значимости различия средних частот двух выборок бинарных (двоичных) данных, т.е. данных, которые могут быть представлены закодированным ответом на вопрос, на который можно ответить «да» или «нет» («да» – выходит за границы нормы или «нет» – не выходит).
Выборка определяется объемом n и частотой , с которой в рассматриваемой выборке встречается ответ «да» m и по которой оценивается соответствующая вероятность p.
В вероятностной модели предполагается, что m – биномиальная случайная величина B(n,p) с параметрами n – объем выборки и p – вероятность определенного ответа (например, «да») [6].
Такая случайная величина может быть представлена в виде:
, (1)
где m – число ответов «да»;
Xi – это независимые одинаково распределенные случайные величины, которые могут принимать одно из двух значений (1 или 0), причем, если , то [10, 11].
В данной задаче применение метода бинарных выборок базируется на сравнении значений индикаторных показателей с общепризнанной нормой, что дает возможность косвенно использовать результаты проводимых статистических исследований, которые позволили установить границы интервала нормы [7, 8, 9].
Метод, основанный на сопоставлении исследуемых групп по показателям лабораторных исследований, предусматривал бинаризацию результатов лабораторных анализов – общего анализа крови (ОАК) и общего анализа мочи (ОАМ) по признаку соотношения с принятой нормой, принимающей только два возможных значения – «да» или «нет», т.е. «соответствует» или «не соответствует» [6, 7, 8].
Если значение какого-либо показателя выходит за пределы нормы, то соответствующей бинарной величине присваивается значение «1», в противном случае – значение «0».
Такой же метод предлагается использовать и для сравнения выборок по диагнозам.
В этом случае не нужно делать предварительную бинаризацию, поскольку бинарными данными здесь являются непосредственно факты наличия или отсутствия данного диагноза у конкретного лица.
Предобработка здесь сводится к подсчету, сколько раз встречается конкретный диагноз в данной группе обследовавшихся лиц.
На предварительном этапе осуществлялась консолидация данных на основе медицинской информационной системы.
Как критерий однородности по признаку «пол» использовалась величина Q, определяемая по формуле критерия сравнения частот бинарных выборок (2) [10], а по количественному признаку «возраст» использовался критерий Крамера - Уэлча (3) [11].
(2)
где звездочками обозначены выборочные частоты бинарных выборок, являющиеся оценками соответствующих вероятностей:
,
где – объем выборки I;
– объем выборки II;
– количество значений, выходящих за пределы нормы в выборке I;
– количество значений, выходящих за пределы нормы в выборке II.
Применялся критерий Крамера – Уэлча (3). В данном случае критерий используется традиционным в статистике образом как критерий значимости разницы средних значений двух количественных выборок [6, 7]:
(3)
где
(4)
(5)
(6)
где – выборочное среднее арифметическое значение возраста выборки I;
– выборочное среднее арифметическое значение возраста выборки II; – количество значений в выборке I;
– количество значений в выборке II;
– несмещенная (исправленная) оценка дисперсии выборки I;
– несмещенная (исправленная) оценка дисперсии выборки II;
– несмещенная (исправленная) оценка дисперсии разности выборочных средних рассматриваемых выборок.
Были получены результаты сравнения бинарных выборок по лабораторным показателям (по числу выходов этих показателей за пределы нормы) и по выставлявшимся диагнозам, сопоставимые с результатами наших предыдущих исследований [6].
Рассматриваемая исходная группа оказалась неоднородной по отношению к другой группе.
Было принято решение провести исследование, разработать и апробировать методику корректировки выборок с целью достижения однородности при максимальном сохранении данных, используемых для анализа.
Результаты и их обсуждение
Данное исследование посвящено решению важной задачи, заключающейся в разработке методов и алгоритмов получения и обработки информации для оценки рисков и принятия решений в сфере профилактики профзаболеваний.
В обработке данных использовались средства электронных таблиц MS Excel 2007 с применением встроенных функций. Она включала предварительную обработку и анализ с использованием формул (1), (2), (3). Подобным образом была проведена обработка данных, полученных в ранее проведенных нами исследованиях [9].
Анализировались показатели лабораторных исследований ОАК и ОАМ и первичная заболеваемость работников промышленной отрасли и контрольной группы по данным периодических медицинских осмотров, проводилась оценка влияния вредных производственных факторов на здоровье работающих.
Cопоставлялись выборки, относящиеся к исходным группам без объединения и корректировки выборок. Сопоставление выборок осуществлялось на основе методики сравнения бинарных выборок.
Методика этих расчетов опиралась на методы сравнения бинарных выборок по критерию Q (по признаку пола) и сравнения средних значений количественных выборок по критерию Крамера – Уэлча (по признаку возраста).
Показано, что для ситуации, когда частоты в сравниваемых бинарных выборках не слишком малы, эти два критерия дают мало отличающиеся результаты и приводят к одинаковым выводам.
Но когда сравниваемые частоты малы, устойчивость статистических выводов ухудшается, что имеет причиной низкую точность асимптотической аппроксимации биномиального распределения стандартным нормальным в случаях с малыми частотами.
Результаты исследований показывают следующее: статистически значимой оказалось различие между двумя выборками по лейкоцитам и эритроцитам в общем анализе крови, лейкоцитам в общем анализе мочи и содержанию глюкозы. Следует отметить, что отдельные показатели имеют значимую разницу как у лиц I группы, так и у лиц II группы. Данные анализа подтверждают полученные нами ранее результаты [7, 8, 9].
Однако в результате проведенного исследования оказалось, что рассмотренные группы значимо отличаются между собой по признакам пола и возраста.
Соответствующие значения критериев Q и Крамера - Уэлча К оказались по модулю больше критического значения 1,96 (α=0,05).
Результаты проведенных исследований выявили необходимость в проведении дополнительного исследования по скорректированным выборкам лабораторных показателей и диагнозов для обоих критериев.
Выводы исследования
- Выявлены лабораторные показатели ОАК и ОАМ, для которых выходы за пределы нормы встречаются значимо как в первой, так и во второй группах.
- Выявлены диагнозы, которые значимо чаще встречаются в группе I: H35.0 (Периферические ретинальные дегенерации); H52.0 (Гиперметропия); E78 (Чистая гиперхолестеринемия); J44.9 (Хроническая обструктивная легочная болезнь неуточненная); R73.0 (Отклонения результатов нормы теста на толерантность к глюкозе); R72 (Аномалия лейкоцитов, не классифицированная в других рубриках).
- Выявлены лабораторные показатели, отклонения которых от нормы наблюдаются для исходной группы значимо чаще, чем в другой группе, что позволит разработать управленческие решения в проведении профилактических мероприятий.
- Определена необходимость разработки методики корректировки исходных выборок для приведения их к однородности по признакам пола и возраста.
- В связи с тем, что рассматривавшиеся группы оказались неоднородными между собой по признакам пола и возраста, а в контрольной группе выход за пределы нормы показателей лабораторных исследований и заболеваемость оказалась выше, чем в группе лиц, работа которых связана с наличием производственных вредностей, появилась необходимость в проведении дополнительного этапа исследования, добавив новую выборку с лицами, в работе которых отсутствует вредный производственный фактор. Каждая из исходных групп должна быть сопоставлена со всеми остальными группами. Такую совмещенную новую группу следует принимать в качестве контрольной именно для конкретной одной рассматриваемой исходной группы.
- Целесообразно внедрить разработанный метод для анализа данных, содержащихся в информационных системах медицинских организаций, применительно к различным профессиональным группам.
- Показана актуальность повышения эффективности управленческих решений с целью повышения уровня производственной безопасности на основе статистического анализа заболеваемости работников, взаимосвязанной с условиями труда.
1. Программа «Цифровая экономика Российской Федерации», утвержденная протоколом заседания президиума Совета при Президенте Российской Федерации по стратегическому развитию и национальным проектам от 4 июня 2019 г. № 7// Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации [Электронный ресурс]. - URL: https://digital.gov.ru/ru/activity/directions/858/ (дата обращения: 10.06.2020)
2. Гегерь, Э.В. Совершенствование методов обработки данных в информационных системах поддержки принятия управленческих решений / Э.В. Гегерь, Л.И. Евельсон, С.И. Федоренко, И.Р. Козлова // Современные наукоемкие технологии. Серия Информатика, вычислительная техника и управление. 05.13.10 - Управление в социальных и экономических системах (технические науки). - 2019. - № 12 (часть 2). - С. 276-281.
3. Баранов, А.А.Методы и средства комплексного интеллектуального анализа медицинских данных / А.А. Баранов, Л.С. Намазова-Баранова, И.В. Смирнова. и др //Труды ИСА РАН. - 2015.- Том 65. 2. - С.81-93.
4. Каширин, И.Ю. Интерактивная аналитическая обработка данных в современных OLAP-системах / И.Ю. Каширин, С.Ю. Семченков. // Бизнес-информатика. - 2009. - №2 (8). - С. 12-19.
5. О персональных данных: Федеральный закон от 27.07.2006 № 152-ФЗ (ред. от 31.12.2017) // Консультант Плюс [сайт]. - URL: http://www.consultant.ru/document/cons_doc_LAW_61801/ (дата обращения: 05.06.2020).
6. Гегерь, Э.В. Методика сравнения бинарных выборок при анализе медицинских данных для принятия управленческих решений / Э.В. Гегерь, И.Р. Козлова, О.Н. Юркова, Л.И. Евельсон. // XXI век: итоги прошлого и проблемы настоящего плюс. Информатика, вычислительная техника, управление. - 2020. - №2 (50), Т.9. - С. 164-170.
7. Гегерь, Э.В. Разработка метода оценки риска профессиональной заболеваемости, основанного на статистике нечисловых данных /Э.В. Гегерь, С.И. Федоренко, Л.И. Евельсон // Перспективы науки. - 2017. -№11 (98). - С. 7-13.
8. Гегерь, Э.В. Разработка метода оценки профессиональных заболеваний для создания информационной системы производственной безопасности / Э.В Гегерь, С.И. Федоренко, Л.И. Евельсон, И.Р. Козлова // Вестник НЦ БЖД. - 2019. - №1 (39). - С. 79-87.
9. Гегерь, Э.В. Разработка метода статистической оценки риска профессиональной заболеваемости, основанного на анализе бинарных выборок / Э.В. Гегерь, С.И. Федоренко, И.Р. Козлова.// Наука и бизнес: пути развития. - 2018. - №3 (81). - С. 97-101.
10. Кобзарь, А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: Физматлит, 2006. - 816 с.
11. Орлов, А.И. Прикладная статистика / А.И. Орлов. - М.: Издательство «Экзамен», 2006. - 671 с.