Tomsk, Tomsk, Russian Federation
Russian Federation
UDK 616.379-008.64 Гипоинсулинизм (hypoinsulinismus), пониженное выделение инсулина. Сахарный диабет (diabetes mellitus), панкреатический, истинный диабет
At present, using machine learning algorithms in solving medical tasks related to diagnosing and predicting medical indicators makes it possible to obtain a good result. As part of the study, neural network models are developed to determine the type of diabetes mellitus and the degree of cognitive impairment. The problem of training deep neural networks is outlined, and the solution is proposed based on using cross-entropy as an objective function, which makes it possible to reduce the dependence of the weight correction value on the values of derivatives. The initial sample is depersonalized MRI results of patients’ brain from 5 groups, taking into account the type of diabetes mellitus and the presence of cognitive impairment. The article considers two neural network models, which are an ensemble, and presents metrics that allow one to evaluate the performance of each network separately, as well as the results of the work obtained on the basis of the ensemble of neural networks. When developing neural network models, the Python programming language is used
neural network, diabetes mellitus, cognitive impairment, statistics, pattern detection, machine learning
Введение
Сегодня обработка и анализ большого количества разнородной цифровой информации неразрывно связаны и с такой областью, как медицина. В связи с этим существует необходимость разработки новых методов, учитывающих специфику медицинских данных, а именно вариабельность показателей, неполнота или неточность описания, малый объем выборок, ограниченное время на принятие решений и т.д. Как показывают исследования [2, 12] решение задачи диагностической классификации успешно осуществляется с помощью технологии машинного обучения
Машинное обучение позволяет повысить точность диагностики, производительность, появляется возможность автоматизировать процесс обработки и анализа большого количества информации. Однако не всегда необходимо прибегать к сложным алгоритмам вроде сверточных нейронных сетей, которые лучше подходят для работы с изображениями. Для решения некоторых задач достаточно применять более легкие и быстрые архитектуры, которые при правильном подборе параметров способны показать хорошие результаты.
Материалы и методы для решения задачи
В статье для решения задачи медицинской диагностики приведена разработанная рекуррентная нейронная сеть, посредством которой возможно учесть временную характеристику данных. Однако основной проблемой рекуррентных нейронных сетей является затухание локального градиента.
Обучение глубоких и динамических нейронных сетей сопряжено со схожими проблемами. Это происходит из-за того, что динамическая сеть в процессе развертывания дополняется новыми слоями, количество которых зависит от длительности входного сигнала.
Несмотря на наличие множества эвристик, направленных на упрощение процесса обучения, алгоритм обратного распространения менее эффективен при обучении сетей, у которых имеется несколько скрытых слоев. В работах [14, 15] математически показана сходимость алгоритма обратного распространения для любой сети при условии бесконечно малого изменения весов. На практике же эффект обучения не доходит до дальних слоев сети в связи с обращением градиентов в ноль.
Модификация алгоритма обучения нейронной сети, заключавшаяся в изменении целевой функции на кросс-энтропию, позволила повысить точность тестирования по сравнению с нейросетевой моделью, где в качестве целевой функции выступает MSE.
Известной проблемой использования сигмоидальных активационных функций при обучении является то, что при приближении выходных значений нейрона к единице частные производные стремятся к нулю. Отсюда может возникнуть парадокс, противоречащий биологической природе обучения: чем выше значение ошибки, тем меньшей будет коррекция веса.
Для решения вышеописанной проблемы приведем следующую целевую функцию (1):
где – соответствующие желаемые отклики; – выходное значение, где аргумент функции f – активационный потенциал нейрона, соответствующий i-му примеру из выборки; – набор обучающих векторов.
Два свойства данной функции позволяют рассматривать ее в качестве целевой:
1) функция является строго положительной;
2) при выходных значениях, близких к желаемым откликам сети, значение функции будет стремиться к нулю.
Этими же свойствами обладает и квадратическая целевая функция.
Покажем, что использование (1) решает проблему замедления скорости обучения. Для этого найдем частную производную целевой функции по весу:
Проводя вычисления в (2), получим:
(3)
В случае логистической активационной функции (3) примет вид:
(4)
Таким образом, коррекция веса не зависит от значения производной активационной функции по коррекции веса, т.е. чем большей будет ошибка обучения, тем большей будет коррекция веса.
В работе оптимизация параметров выполнялась с помощью метода Adadelta:
(5)
где θ – настраиваемый параметр; g – производная целевой функции по отношению к настраиваемому параметру; RMS – корень суммы предыдущих значений g.
Adadelta принадлежит к семейству адаптивных алгоритмов обучения (AdaGrad, AdaMax, Adam, RMSprop), базирующихся на понятии «момента» обучения, и определяющих коэффициент коррекции веса индивидуально для каждого весового коэффициента.
Описание исходных данных и подбор гиперпараметров
Для более точной оценки влияния изменения гиперпараметров на величину ошибок на этапе проверки используется кросс-валидация.
С целью проведения кросс-валидации на изначальной выборке, состоящей из N элементов, формируется N новых, путем выделения одной строки в качестве тестового набора, в то время как остальные N-1 представляют обучающую выборку. На каждой выборке производится обучение модели и вычисляется средняя ошибка по всем выборкам.
Подбирая гиперпараметры нейронной сети и отслеживая данную ошибку, формируем наилучшую модель.
1) пациенты с сахарным диабетом 1 типа с когнитивными нарушениями, 450 пациентов;
2) пациенты с сахарным диабетом 1 типа без когнитивных нарушений, 200 пациентов;
3) пациенты с сахарным диабетом 2 типа с когнитивными нарушениями, 420 пациентов;
4) пациенты с сахарным диабетом 2 типа без когнитивных нарушений, 190 пациентов;
5) контрольная группа, включающая пациентов, для которых показатели получены в пределах нормы, 60 пациентов.
Гиперпараметры влияют на качество работы нейронной сети, но определяются до начала обучения и никак не изменяются в процессе. Гиперпараметры влияют друг на друга, поэтому подбор оптимальной их комбинации вручную достаточно сложный процесс.
Keras Tuner – оптимизатор гиперпараметров, разработанный командой Google специально для keras в составе TensorFlow [1]. Данная библиотека распространяется бесплатно.
Для более точной оценки влияния изменения гиперпараметров на величину ошибок на этапе проверки в работе использована кросс-валидация. Оптимизация гиперпараметров нейросетевой модели осуществлялась посредством подбора активационных функций, количества скрытых слоев, количества нейронов в скрытых слоях, активационных функций выходного слоя и размера батча.
Нейросетевая модель для определения типа сахарного диабета
Ансамбль – алгоритм, состоящий из нескольких алгоритмов машинного обучения. Процесс построения ансамбля называется ансамблированием.
В данной работе ансамбль состоит из двух нейросетевых моделей, одна из которых отвечает за классификацию типа сахарного диабета, а вторая – за определение степени когнитивных нарушений. Обе модели на вход получают спектры, а на выходе дают два числа – тип сахарного диабета и степень когнитивных нарушений.
На первом шаге подбор параметров осуществлялся на основе экспериментов. В качестве оптимизатора выбран алгоритм Adadelta. Функцией ошибок была выбрана бинарная перекрестная энтропия, т.к. она лучше других подходит для решения задач бинарной классификации.
В табл. 1 приведены результаты подбора гиперпараметров нейронной сети с использованием кросс-валидации.
Таблица 1
Результаты подбора гиперпараметров модели, определяющей тип сахарного диабета, эмпирическим путём
Table 1
Empirical hyperparameter fitting for a type of diabetes mellitus classification model
Активационная функция скрытых слоев |
Активационная функция выход |
Количество нейронов в скрытых слоях |
Размер батча |
Средняя ошибка |
|
3 |
ReLU |
ReLU |
5, 5, 5 |
30 |
1,99 |
3 |
ReLU |
ReLU |
5, 5, 5 |
20 |
1,5 |
3 |
ReLU |
ReLU |
5, 5, 5 |
15 |
2,14 |
3 |
ReLU |
ReLU |
5, 5, 5 |
10 |
1,44 |
3 |
ReLU |
ReLU |
5, 5, 5 |
35 |
2,74 |
3 |
ReLU |
ReLU |
5, 5, 5 |
50 |
1,85 |
3 |
ReLU |
ReLU |
5, 5, 4 |
10 |
1,46 |
3 |
ReLU |
ReLU |
5, 5, 3 |
10 |
2,17 |
3 |
ReLU |
ReLU |
7, 5, 3 |
10 |
1,79 |
3 |
ReLU |
ReLU |
7, 5, 4 |
10 |
1,8 |
3 |
ReLU |
ReLU |
7, 4, 3 |
10 |
2,32 |
3 |
ReLU |
ReLU |
7, 7, 7 |
10 |
0,41 |
3 |
ReLU |
ReLU |
7, 4, 2 |
10 |
1,78 |
3 |
ReLU |
ELU |
7, 7, 7 |
10 |
1,31 |
3 |
ReLU |
SeLU |
7, 7, 7 |
10 |
1,63 |
3 |
ReLU |
ReLU |
7, 7, 7 |
10 |
1,61 |
4 |
ReLU |
ELU |
7, 7, 7, 5 |
10 |
1,43 |
3 |
ELU |
ELU |
7, 7, 7 |
10 |
1,78 |
На основе проведенного анализа построена нейронная сеть, неизменными параметрами для создания которой являлись: 3 скрытых слоя по 7 нейронов каждый с активационной функцией ReLU, на выходном слое активационная функция – ELU и размером батча равном 10.
Выбор оптимальных гиперпараметров осуществлялся с использованием библиотеки keras tuner.
Одной из наилучших оказалась моделей, состоящая из 5 скрытых слоев, которые содержат 10, 4, 9, 6 и 10 нейронов; активационная функция выходного слоя – ELU; активационная функция скрытых слоев Tanh; размер батча 10.
На рис. 1 представлена матрица ошибок для модели, гиперпараметры которой подобраны эмпирически.
Рис. 1. Матрица ошибок модели с эмпирически подобранными гиперпараметрами
Fig. 1. Confusion matrix of a model with empirically fitted hyperparameters
На рис. 2 представлена матрица ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки Кeras Тuner.
Рис. 2. Матрица ошибок модели с гиперпараметрами, подобранными с использованием Keras Tuner
Fig. 2. Confusion matrix of a model with hyperparamters fitted using Keras tuner
Исходя из полученных результатов, можно сделать вывод о том, что с задачей классификации обе модели справляются одинаково успешно.
В качестве другой метрики для сравнения были выбраны функции ошибок на этапе обучения и на этапе проверки. На рис. 3, а представлен график функций ошибок для модели, полученной с использованием кросс-валидации. На рис. 3, б представлен график функций ошибок для модели, полученной с использованием библиотеки Keras Tuner.
а) б) Рис. 3. График ошибок по эпохам модели с: а – эмпирически подобранными гиперпараметрами; б – гиперпараметрами подобранными с помощью Keras Tuner Fig. 3. Plot of errors by epochs of a model with: a – empirically fitted hyperparameters; b – hyperparameters fitted using Keras Tuner |
Из рис. 3 видно, что обе модели не подвержены переобучению. Однако стоит отметить, что для достижения одного уровня точности, второй модели требуется меньшее число эпох. В результате для дальнейшего использования была выбрана модель, построенная с использованием библиотеки Keras Tuner.
Таблица 2
Результаты подбора гиперпараметров модели, определяющей степень когнитивных нарушений, эмпирическим путём
Table 2
Empirical hyperparameter fitting for the degree of cognitive impairment classification model
Активационная функция скрытых слоев |
Активационная функция выход |
Количество нейронов в скрытых слоях |
Размер батча |
Средняя ошибка |
|
3 |
relu |
softmax |
5,5,5 |
20 |
0,83 |
3 |
relu |
softmax |
5,5,5 |
30 |
0,86 |
3 |
relu |
softmax |
5,5,5 |
35 |
0,91 |
3 |
relu |
softmax |
5,5,5 |
40 |
0,91 |
3 |
relu |
softmax |
5,5,5 |
15 |
0,84 |
3 |
relu |
softmax |
5,5,5 |
10 |
0,76 |
3 |
relu |
softmax |
5,5,5 |
45 |
0,94 |
3 |
relu |
softmax |
5,4,4 |
10 |
0,80 |
3 |
relu |
softmax |
7,5,4 |
10 |
0,80 |
3 |
relu |
softmax |
10,7,5 |
10 |
0,69 |
3 |
relu |
softmax |
5,5,5 |
10 |
0,72 |
3 |
relu |
softmax |
7,7,7 |
10 |
0,64 |
3 |
relu |
sigmoid |
7,7,7 |
10 |
0,69 |
3 |
relu |
softmax |
7,7,7 |
10 |
0,65 |
3 |
selu |
softmax |
7,7,7 |
10 |
0,59 |
3 |
elu |
softmax |
7,7,7 |
10 |
0,62 |
3 |
sigmoid |
softmax |
7,7,7 |
10 |
0,90 |
3 |
tanh |
softmax |
7,7,7 |
10 |
0,65 |
4 |
selu |
softmax |
7,7,7,7 |
10 |
0,52 |
4 |
selu |
softmax |
7,7,7,5 |
10 |
0,55 |
5 |
selu |
softmax |
10,7,7,7,5 |
10 |
0,51 |
5 |
selu |
softmax |
7,7,7,7,7 |
10 |
0,55 |
5 |
selu |
softmax |
7,7,7,7,5 |
10 |
0,53 |
В результате построена нейронная сеть, неизменными параметрами для создания которой являлись: 5 скрытых слоев, содержащих 10, 7, 7, 7 и 5 нейронов соответственно, с активационной функцией SELU для скрытых слоев и Softmax на выходе; размер батча был равен 10.
Выбор оптимальных гиперпараметров осуществлялся с использованием библиотеки Keras Tuner.
Одной из наилучших является модель, состоящая из 3 скрытых слоев, которые содержат 7, 14 и 12 нейронов, имеют активационную функцию выходного слоя – Softmax и для скрытых слоев – ELU и размер батча 10.
В результате работы получены две нейросетевых модели для классификации степени когнитивных нарушений. После обучения обоих моделей было проведена их проверка на тестовой выборке. Для определения того, какая модель лучше справляется с поставленной задачей классификации построены матрицы ошибок. На рис. 4 представлена матрица ошибок для модели, гиперпараметры которой подобраны эмпирически.
Рис. 4. Матрица ошибок модели с эмпирически подобранными гиперпараметрами
Fig. 4. Confusion matrix of a model with empirically fitted hyperparameters
На рис. 5 представлена матрица ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки keras tuner.
Рис. 5. Матрица ошибок модели с гиперпараметрами, подобранными с использованием Keras Tuner
Fig. 5. Confusion matrix of a model with hyperparamters fitted using Keras tuner
Исходя из полученных результатов, можно сделать вывод, что с задачей классификации обе модели справляются одинаково успешно.
В качестве другой метрики для сравнения были выбраны функции ошибок на этапе обучения и на этапе проверки. На рис. 6, а представлен график функций ошибок для модели, полученной с использованием кросс-валидации. На рис. 6, б представлен график функций ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки keras tuner.
а) б) Рис. 6. График ошибок по эпохам модели с: а – эмпирически подобранными гиперпараметрами; б – гиперпараметрами подобранными с помощью Keras Tuner Fig. 6. Plot of errors by epochs of a model with: а – empirically fitted hyperparameters; b – hyperparameters fitted using Keras Tuner
|
Как видно из графиков ошибка на этапе проверки меньше у первой модели, что говорит о лучшем качестве. В результате для дальнейшего использования была выбрана модель, построенная на основе эмпирического анализа.
В результате работы были отобраны лучшие модели для классификации типа сахарного диабета и определения степени когнитивных нарушений, которые легли в основу ансамбля. Для определения качества совместной работы двух ансамблированных нейросетей построены матрицы ошибок, которые представлены на рис. 7 и рис. 8.
Рис. 7. Матрица ошибок при классификации типа сахарного диабета ансамблированной модели
Fig. 7. Confusion matrix of the ensembled model for the type of diabetes mellitus classification
Рис. 8. Матрица ошибок при определении степени когнитивных нарушений ансамблированной модели
Fig. 8. Confusion matrix of the ensembled model for the degree of cognitive impairment classification
Матрицы ошибок показывают, что ансамблированные нейронные сети работают с такой же точностью, как по отдельности. Однако позволяют решить сразу несколько задач.
Заключение
В результате проведено исследование, связанное с подбором гиперпараметров на основе эмпирического подхода и с использованием библиотеки Keras Tuner. Как итог была создана архитектура нейронной сети, включающая ансамбль из двух нейросетевых моделей и позволяющая осуществить классификацию по типу сахарного диабета и степени когнитивных нарушений с точностью 94 %, что было протестировано на тестовой выборке.
Разработанная нейросетевая модель позволяет по результатам МРТ определить тип сахарного диабета больного и наблюдаемую у него степень когнитивных нарушений.
1. Tuner K. GitHub [Internet] [cited 2022 Mar 08]. Available from: https://github.com/keras-team/keras-tuner/.
2. Gerget O.M. Bionic Models for Identification of Biological Systems. Journal of Physics: Conference Series. 2016;803(12017).
3. Vyugin V.V. Mathematical Foundations of Machine Learning and Forecasting. Moscow: MCCME; 2014.
4. Chollet F. Deep Learning with Python. Shelter Island, Manning Publications Co; 2018.
5. Bailey. N. Mathematics in Biology and Medicine. Moscow: Mir; 1970.
6. Vlasov V.V. Introduction to Evidence-Based Medicine. Moscow: Media Sphere; 2001.
7. Gulli A., Kapoor A., Pal S. Deep Learning with TensorFlow 2 and Keras. Birmingham: Packt Publishing Ltd; 2017.
8. Moolayil J. Learn Keras for Deep Neural Networks. Vancouver: Apress; 2019.
9. Zagoruiko N.G., Samokhvalov K.F., Sviridenko D.I. Logic of Empirical Research. Novosibirsk: Nauka, 1985.
10. Giussani A. Applied Machine Learning with Python. Borgoricco: Logo; 2020.
11. Zhuravlev U.I. On the Algebraic Approach to Solve the Problems of Recognition and Classification. Problems of Cybernetics. 1978;33:5-68.
12. Raschka S., Mirjalili V. Python Machine Learning. Birmingham: Packt Publishing Ltd.; 2015.
13. Mosca A, Magoulas G. Adapting Resilient Propagation for Deep Learning. In: UK Work-shop on Computational Intelligence. Exeter: Springer; 2015.
14. Mandic, D., Chambers, J. Recurrent Neural Networks for Prediction: Learning Algorithms, Architectures and Stability. Wiley; 2001.
15. Ksenofontov V.V. Neural Networks. Science Problems. 2020;11:28-29.
16. Alyoshin NA, Zhogal SP. Recurrent Neural Networks. In: Proceedings of the Conference: World Science: Problems and Innovations; Penza: 2021. p. 10-12.
17. Rudneva A.A. Artificial Intelligence and Neural Networks Information Technologies in Building, Social and Economic Systems. 2020;1:48-50.
18. Shinelev I.N., Tarasov I.E. The Use of Artificial Neural Networks in Medicine. IT Stan-dard. 2020;4:38-43.
19. Elizarova M.I., Urazova K.M., Ermashov S.N., Pronkin N.N. Artificial Intelligence in Medicine. International Journal of Professional Science. 2021;5:81-85.