Более 300 моделей машинного обучения COVID-19 оказались непригодными для своей цели
Недавно учеными был проведен систематический анализ всех научных рукописей, которые были опубликованы в различных источниках в период с 1 января по 3 октября 2020 г. В этих рукописях были описаны модели машинного обучения, согласно которым можно было бы диагностировать, исследовать или прогнозировать COVID-19. Для этого, как утверждали авторы, системы использовали рентгенограммы грудной клетки, а также данные компьютерной томографии. Некоторые из этих работ прошли процесс рецензирования, однако подавляющее большинство работ — нет.
Поиск исследователей выявил более 2 тысяч работ, из которых 415 вошли в анализ после первоначального скрининга и 62 — после качественного скрининга. Что касается последних 62 моделей, которые показывали свою перспективу, то они все же не имели потенциального клинического применения. Этот момент выступил серьезным недостатком работ, учитывая ту великую срочность, которая связана с необходимостью практического применения компетентных моделей COVID-19. Многие лаборатории «кинулись заряжать» свои микроскопы и центрифуги, чтобы приложить все свои усилия для создания действенных вакцин. Но понять полноценность своего продукта без предварительных прогнозов мутаций вируса и течения болезни — невозможно.
Машинное обучение — перспективный и потенциально мощный метод выявления и прогнозирования заболеваний. Однако любой алгоритм машинного обучения хорош лишь настолько, насколько хороши данные, на которых он обучается. Для такого совершенно нового вирусного заболевания, как COVID-19, важно, чтобы данные обучения были как можно более разнообразными, так как существует множество разносторонних факторов, оказывающих значительное влияние на то, как заболевание выглядит, как ведет себя вирус, какие симптомы болезни наблюдаются. Международное сообщество машинного обучения направило титанические усилия на борьбу с пандемией COVID-19. Все исследования, проведенные ранее, показали свою перспективность, но в то же время и высокую распространенность недостатков в методологии и отчетности.
Исследователи заявили, что из более чем 300 моделей машинного обучения болезни COVID-19, о которых говорилось в научных статьях от 2020 года, ни одна не явилась применимой для обнаружения или диагностики болезни по стандартной медицинской визуализации из-за предвзятости, определенных методологических недостатков и практически полного отсутствия воспроизводимости. Во многих случаях в опубликованных работах даже не уточнялось, откуда взялись данные для построения программы машинного обучения. Здесь логично предположить, что или модели обучались и тестировались на одних и тех же данных, или они основывались на общедоступных «наборах данных Франкенштейна» у вируса, которые эволюционировали и объединялись со временем. А это напрямую повлияло на невозможность воспроизведения первоначальных результатов.