АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``ИНФОРМАТИЗАЦИЯ И СВЯЗЬ`` №4, 2020)
Применение технологии «cost—sensitive learning» в модели randomforest для оценки адекватности месячной программы диализа
Резюме: Исследование, представленное в данной статье нацелено на решение проблемы несбалансированности выборки, возникающей при построении математической-модели классификатора для решения задачи оценки адекватности месячной программы диализа при сопровождении больных с диагнозом хронической почечной недостаточности. Исследование опирается на набор данных, собранный при помощи медицинской информационной системы «Lexema-Medicine», развернутой в сети гемодиализных клиник «Лаборатория гемодиализа» и состоящий из 27829 наблюдений, каждое из которых представляет собой месячную программу диализа в виде вектора значений признаков. Продемонстрированное в работе решение основывается на применение алгоритма random forest, улучшенного процедурой градиентного бустинга и применением технологии cost-sensitive learning. Это решение позволило существенно снизить значение ошибки первого рода, при этом не изменяя точность работы алгоритма классификации для оценки адекватности месячной программы диализа на статистически значимую величину. В результате проведения процедур и техник машинного обучения, таких как градиентный бустинг и cost-sensitive learning было получено оптимальное соотношение между наименьшей ошибкой первого рода и точностью алгоритма классификации для оценки адекватности программы диализа.
Ключевые слова: Адекватность диализа, машинное обучение, несбалансированность выборки, cost-sensitive learning, random forest.
I.A. Lakman, A.A. Padukova, V.A. Timoshin, R.R. Akhmetvaleev
Cost-sensitive learning in random forest for dialysis monthly program adequacy estimation: practical case
Summary: The research presented in this article is aimed to solve the case of imbalanced dataset, which appears to be a problem in the process of constructing a mathematical model for estimation of the adequacy of a monthly dialysis program for patients with a diagnosis of chronic renal failure treatment. The research is based on a dataset collected using the medical information system «Lexema-Medicine» deployed in the network of hemodialysis clinics «Hemodialysis Laboratory» and consists of 27,829 datapoints representing a monthly dialysis in the form feature vectors. The solution demonstrated in the work is based on the application of the random forest algorithm, improved by the gradient boosting method and the costsensitive learning technology. This solution allows you to significantly reduce the value of the miss rate, while not changing the monthly dialysis program adequacy estimation algorithm accuracy by statistically significant value. As a result of machine learning procedures and techniques implement, such as gradient boosting and cost-sensitive learning, an optimal ratio was obtained between the smallest type I error and the accuracy of the dialysis program adequacy classification algorithm.
Keywords: Dialysis adequacy, machine learning, imbalanced dataset, cost-sensitive learning, random forest.
doi: 10.34219/2078-8320-2020-11-4-113-119
ИНФОРМАЦИЯ ОБ АВТОРАХ
Lakman Irina Alexandrovna – Ufa State Aviation Technical University, Candidate of technical Sciences, associate Professor of biomedical engineering, LLC «Lexema», Scientific Director of the project, e-mail: lackmania@mail.ru
Падукова Анастасия Анатольевна – руководитель проекта, Общество с ограниченной ответственностью «Лексема», e-mail: lackmania@mail.ru
Padukova Anastasiya Anatol’evna – LLC «Lexema», Director of the project, e-mail: lackmania@mail.ru
Тимошин Виктор Александрович – генеральный директор, Общество с ограниченной ответственностью «Лексема», e-mail: lackmania@mail.ru
Timoshin Viktor Alexandrovich – General manager, LLC «Lexema», e-mail: lackmania@mail.ru
Ахметвалеев Руслан Ринатович – Аспирант Федеральное государственное автономное образовательное учреждение высшего образования «Уфимский государственный авиационный технический университет», Ведущий программист, Общество с ограниченной ответственностью «Лексема», e-mail: lackmania@mail.ru
Akhmetvaleev Ruslan Renatovich – Graduate student Ufa State Aviation Technical University, Lead programmer, LLC «Lexema», e-mail: lackmania@mail.ru