Дата публикации: 16.11.2025
ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОЙ 3D-СЕГМЕНТАЦИИ ОРГАНОВ ПО ДАННЫМ КТ И МРТ
Дайнеко Евгения Александровна
ассоциированный профессор, PhD
Международный университет информационных технологий
Казахстан, г. Алматы
Ермекбай Шынгысхан Еркебуланулы
магистрант 2 курса
Международный университет информационных технологий
Казахстан, г. Алматы
Аннотация: в статье рассматриваются современные подходы к автоматической трёхмерной сегментации внутренних органов по данным компьютерной и магнитно-резонансной томографии с использованием методов глубокого обучения. Показаны ограничения классических алгоритмов сегментации и проанализированы архитектуры на основе U-Net, 3D U-Net, nnU-Net, а также трансформерные модели типа Swin UNETR. Описана экспериментальная схема, основанная на применении улучшенной архитектуры 3D U-Net с attention-механизмом и комбинированной функцией потерь Dice + Focal. Приведены обобщённые результаты, опубликованные в литературе при сегментации печени и почек на открытых наборах данных, и обсуждены перспективы использования разработанных алгоритмов для построения высокоточных 3D-моделей органов и их практического применения в клинической практике [1–6].
Ключевые слова: машинное обучение, глубокое обучение, 3D-сегментация, компьютерная томография, магнитно-резонансная томография, U-Net, nnU-Net, Swin UNETR, 3D-реконструкция.
ВВЕДЕНИЕ
Развитие методов медицинской визуализации в последние десятилетия привело к широкому распространению трёхмерных компьютерных (КТ) и магнитно-резонансных (МРТ) томографических исследований. Эти методы позволяют получать высокодетализированные объёмные данные о состоянии внутренних органов, сосудов и мягких тканей пациента. Однако для того, чтобы использовать эти данные в задачах количественного анализа, предоперационного планирования и навигации в ходе хирургического вмешательства, требуется выполнить точную сегментацию целевых органов и структур [8].
Под сегментацией в данном контексте понимают процесс выделения интересующего органа или анатомической структуры из всего трёхмерного объёма томографических данных. Ручная сегментация, выполняемая врачом-радиологом или инженером по медицинской визуализации, является крайне трудоёмкой и занимает значительное время, особенно если речь идёт о сложных анатомических областях или о необходимости анализа большой группы пациентов. Кроме того, человеческий фактор неизбежно вносит вариативность в разметку, что затрудняет построение воспроизводимых количественных показателей [2].
В связи с этим уже на протяжении нескольких десятилетий ведутся интенсивные исследования в области автоматической и полуавтоматической сегментации органов. Эволюция методов проходила от простых пороговых алгоритмов и морфологических операций к использованию статистических моделей формы, активных контуров и графовых методов, таких как алгоритмы на основе минимального разреза. Ситуация радикально изменилась с появлением свёрточных нейронных сетей и, в частности, архитектуры U-Net [8], которая была специально разработана для задач биомедицинской сегментации и показала высокие результаты на ряде открытых соревнований.
Целью настоящей работы является комплексный обзор и анализ современных алгоритмов машинного обучения для 3D-сегментации органов по данным КТ и МРТ, а также описание экспериментальной схемы по исследованию и разработке улучшенной архитектуры 3D U-Net с attention-механизмом. Отдельное внимание уделяется практическим аспектам: подготовке данных, выбору функций потерь, метрик качества и проблемам обобщающей способности моделей при переходе от исследовательских наборов данных к реальной клинической практике [3–6].
1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАДАЧИ 3D-СЕГМЕНТАЦИИ ОРГАНОВ
Сегментация медицинских изображений традиционно рассматривается как задача отнесения каждого пикселя или вокселя к одному из нескольких классов: «орган», «фон», «патологический очаг» и т.п. В трёхмерном случае речь идёт о воксельной классификации с учётом пространственных связей между соседними срезами. Особенность томографических данных заключается в сильной вариативности контраста и шумов, зависимости характеристик изображения от протокола сканирования и особенностей конкретного томографа [1, 8].
Классические методы сегментации, такие как глобальное и локальное пороговое выделение, кластеризация по интенсивности и морфологическая фильтрация, позволяют решить задачу лишь для ограниченного класса случаев, когда орган хорошо отделён от окружающих тканей. Более продвинутые подходы на основе активных контуров и методов уровня набора предоставляют возможность учитывать гладкость границ и априорные знания о форме, но требуют аккуратной настройки и зачастую неустойчивы к артефактам и неоднородности яркости [2].
Особенно сложными оказываются случаи, когда орган имеет сложную геометрию, значительные различия в форме и размере у разных пациентов, а также когда внутри органа присутствуют неоднородные структуры (сосуды, очаги поражения). В таких ситуациях модели, основанные на локальных признаках и простых статистических предположениях, как правило, оказываются недостаточно точными. Это послужило стимулом для перехода к методам глубокого обучения, способным автоматически извлекать многомасштабные иерархические признаки из объёмных данных [8].
2. СОВРЕМЕННЫЕ МЕТОДЫ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ МЕДИЦИНСКОЙ СЕГМЕНТАЦИИ
Прорыв в области автоматической сегментации медицинских изображений связан с появлением архитектуры U-Net, предложенной О. Роннебергером и соавторами в 2015 году [8]. Данная сеть представляет собой симметричную encoder–decoder-структуру с пропускными соединениями, которые позволяют передавать информацию о локальных деталях из восходящей части сети в нисходящую. Такая организация облегчает восстановление точных границ объектов на этапе декодирования и стала основой для многочисленных последующих модификаций [5, 14, 15].
В дальнейшем была предложена трёхмерная модификация 3D U-Net, в которой все двумерные операции заменены на трёхмерные свёртки и пулинг [1]. Это позволило явно учитывать пространственную структуру объёма и улучшить результаты сегментации органов и анатомических структур. 3D U-Net стала одной из базовых архитектур для участия в многочисленных соревнованиях по сегментации печени, поджелудочной железы, сердца, головного мозга и других органов [1, 3].
Опыт применения U-подобных архитектур показал, что ключевое значение имеют не только глубина сети, но и тщательная настройка предобработки, нормализации интенсивности, стратегии аугментации и выбора функции потерь. В этой связи особую роль сыграла работа по созданию фреймворка nnU-Net [3, 4], в котором предложена самонастраивающаяся система, автоматически подбирающая архитектуру, разрешение, размер входного патча и гиперпараметры обучения под конкретный набор данных. Подход nnU-Net продемонстрировал конкурентоспособные результаты на множестве задач биомедицинской сегментации [3, 4].
В последние годы активное развитие получили трансформерные архитектуры в трёхмерной медицинской визуализации. Примером является модель Swin UNETR, в которой свёрточный энкодер частично заменён на иерархический трансформер с оконным механизмом внимания [11]. Такие модели демонстрируют высокую способность к учёту глобального контекста, что особенно полезно при сегментации крупных органов на больших объёмах КТ. Значительный вклад в развитие этого направления внесли работы, посвящённые высокоразрешающим и облегчённым вариантам Swin-архитектур для медицинской сегментации [7, 11, 13].
Помимо базовых U-образных сетей, было предложено множество модификаций архитектуры, направленных на улучшение точности и устойчивости сегментации: DoubleU-Net, MDU-Net, Sharp U-Net и др. [5, 14, 15]. Эти модели реализуют идеи многомасштабных плотных соединений, глубинных свёрток и специальных блоков усиления границ, что позволяет более точно восстанавливать сложную геометрию органов и патологических очагов.
Отдельного внимания заслуживают полнотелые модели общего назначения, такие как TotalSegmentator, обученные на тысячах КТ-исследований и способные автоматически сегментировать более сотни анатомических структур [12]. На основе этой модели были выполнены работы по автоматической сегментации сердечно-сосудистых структур и оценке качества различных алгоритмов с использованием синтетических и аугментированных данных [2, 10, 12]. Такие решения показывают, что при наличии достаточно обширных и разнородных данных возможно построение универсальных моделей, способных обобщать на новые клинические сценарии.
3. МАТЕРИАЛЫ И МЕТОДЫ ИССЛЕДОВАНИЯ
В рамках данного исследования рассматривается экспериментальная схема по разработке и оценке улучшенного алгоритма 3D-сегментации органов на основе модифицированной архитектуры 3D U-Net [1]. Основной акцент делается на сегментации печени и почек по данным КТ, однако предложенные подходы могут быть распространены и на другие органы, а также на МРТ-изображения [6, 9].
В качестве исходных данных предполагается использование одного или нескольких открытых наборов: LiTS (Liver Tumor Segmentation) и 3DIRCADb, широко применяемых в исследованиях по сегментации печени и опухолей [6, 9]. Данные проходят этап анонимизации, после чего выполняется приведение к единому пространственному разрешению с использованием изотропного вокселя. Нормализация интенсивности производится в окне, характерном для исследуемого органа (например, для печени — в пределах от –200 до 250 единиц Хаунсфилда). При необходимости выполняется ограничение области интереса (ROI), что позволяет уменьшить объём вычислений и повысить устойчивость обучения.
Предлагаемая архитектура сохраняет классическую U-образную структуру, но включает ряд усовершенствований. Во-первых, используются residual-блоки, позволяющие облегчить обучение более глубоких слоёв и улучшить распространение градиента [5, 14]. Во-вторых, между соответствующими уровнями энкодера и декодера вставляются attention-блоки, реализующие пространственно-канальное внимание и позволяющие модели фокусироваться на наиболее информативных областях объёма [6, 11]. В-третьих, в сети применяется комбинированная функция потерь, представляющая собой взвешенную сумму обобщённой Dice-ошибки и Focal-loss, что позволяет эффективно учитывать дисбаланс между объёмом органа и окружающим фоном [3, 4, 9].
Обучение проводится на трёхмерных патчах фиксированного размера, выбираемых из исходных объёмов с учётом стратификации по наличию целевого органа. Для повышения устойчивости модели используется интенсивная аугментация данных: случайные вращения и отражения, изменение яркости и контраста, добавление гауссовского шума, эластические деформации. Подобные схемы аугментации зарекомендовали себя в ряде работ по сегментации печени и опухолей [6, 9, 14]. Оптимизация параметров сети может выполняться методом Adam или его модификациями, а скорость обучения уменьшается по заданному расписанию в зависимости от сходимости на валидационном наборе.
Для оценки качества сегментации используются широко принятые в литературе метрики: коэффициент Dice, среднее симметричное расстояние до поверхности, 95-процентное расстояние Хаусдорфа и объёмная ошибка перекрытия [1, 3–5, 9, 14, 15]. Сравнение с базовыми моделями (классическая 3D U-Net, nnU-Net в стандартной конфигурации) позволяет количественно оценить вклад предложенных модификаций архитектуры и функции потерь.
4. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ И ИХ АНАЛИЗ (ПО ДАННЫМ ЛИТЕРАТУРЫ)
Результаты, приведённые в ряде исследований, показывают, что даже относительно небольшие изменения архитектуры и функции потерь могут заметно повысить точность сегментации. Например, добавление attention-блоков позволяет уменьшить ошибки на границах органа и улучшить воспроизведение сложных форм [6]. Комбинация Dice и Focal-loss, в свою очередь, снижает влияние доминирующего класса фона и помогает модели лучше распознавать тонкие структуры, что подтверждается экспериментами при сегментации опухолей печени [6, 9].
Сопоставление с результатами, опубликованными для наборов LiTS и 3DIRCADb, показывает, что достигнутые значения коэффициента Dice на уровне 0,90–0,93 для печени и 0,85–0,88 для почек являются конкурентоспособными для современных методов глубокого обучения [1, 3–6, 9, 14, 15]. При этом важно подчеркнуть, что абсолютные значения метрик зависят не только от архитектуры модели, но и от качества исходной разметки, разнообразия обучающей выборки и выбранной схемы валидации.
В ряде работ продемонстрировано, что специализированные архитектуры, разработанные именно для сегментации печени и её опухолей (ResU-Net, адаптивные attention-CNN и другие варианты), дают прирост качества по сравнению с базовыми моделями [6, 9]. Другие модификации семейства U-Net, такие как DoubleU-Net, MDU-Net и Sharp U-Net, также позволяют улучшить детальное восстановление мелких структур и границ [5, 14, 15].
Отдельное значение имеет визуальный анализ полученных масок. Даже при близких значениях Dice различные модели могут давать отличающиеся по качеству границы: одна модель лучше восстанавливает внешнюю форму органа, другая — более детально передаёт внутрисосудистые структуры. Поэтому целесообразно совмещать численные показатели качества с экспертной оценкой врачей-радиологов [2, 10, 12].
Представляет интерес сравнение специализированных подходов с универсальными системами, такими как TotalSegmentator, которые обучены на больших массивах КТ-данных и способны сегментировать десятки и сотни анатомических структур [12]. Практика показывает, что специализированные модели, оптимизированные под конкретный орган и конкретный тип данных, часто демонстрируют более высокую точность, тогда как универсальные решения выигрывают за счёт широты охвата и удобства использования в клинических информационных системах [2, 10, 12].
5. ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
Проведённый анализ показывает, что архитектуры на основе U-Net по-прежнему остаются фундаментом для большинства решений в области трёхмерной сегментации органов [1, 3–5, 8, 14, 15]. Разнообразные модификации, такие как использование residual-связей, многомасштабных плотных соединений, sharpen-слоёв или attention-механизмов, позволяют постепенно наращивать качество, не отказываясь от базовой идеи U-образной структуры. При этом универсальные фреймворки, такие как nnU-Net, задают базовый уровень качества и удобства применения [3, 4].
В то же время развитие трансформерных моделей в трёхмерной медицинской визуализации демонстрирует переход к более универсальным и гибким архитектурам, способным эффективно использовать глобальный контекст и адаптироваться к различным типам данных [7, 11, 13]. Подходы на основе Swin UNETR и его модификаций показывают высокие результаты на ряде задач, однако требуют значительных вычислительных ресурсов и сложной настройки. Это ограничивает их применение в условиях ограниченной вычислительной инфраструктуры, типичной для многих клиник.
Отдельную проблему представляет обобщающая способность моделей. Алгоритмы, показавшие высокие результаты на одном наборе данных, могут существенно терять в качестве при переносе на другой клинический центр, другой протокол сканирования или другую популяцию пациентов. В связи с этим всё большее внимание уделяется методам доменной адаптации, самосупервизируемого обучения и построения больших многоцентровых наборов данных [3, 4, 10, 12]. Важно также разрабатывать стандартизированные протоколы аннотирования и процедуры независимой валидации.
Перспективным направлением видится интеграция алгоритмов сегментации в сквозные клинико-технологические процессы: от автоматической сегментации и построения 3D-модели органа до расчёта объёмных показателей, оценки степени поражения и подготовки рекомендаций для врача. Для этого необходимо не только совершенствовать сами модели, но и искать способы надёжной верификации и валидации их работы в условиях реальной практики [2, 10, 12].
6. ЗАКЛЮЧЕНИЕ
В данной статье рассмотрены теоретические и практические аспекты разработки алгоритмов машинного обучения для автоматической трёхмерной сегментации органов по данным КТ и МРТ. Показано, что переход от классических методов к архитектурам глубокого обучения, таким как U-Net, 3D U-Net, nnU-Net и их многочисленные модификации, обеспечил значительный рост качества сегментации и открыл возможность построения точных 3D-моделей органов [1, 3–5, 8, 14, 15].
Анализ современных исследований демонстрирует, что комбинирование трёхмерных свёрточных сетей с attention-механизмами, специализированными функциями потерь и продуманной системой аугментаций позволяет достигать высоких значений коэффициента Dice и других метрик, сопоставимых с лучшими международными результатами [5, 6, 9, 14, 15]. В то же время сохраняются вызовы, связанные с обобщающей способностью моделей, ограниченностью размеченных данных и необходимостью обеспечения надёжности алгоритмов в условиях реальной клинической практики [2–4, 10, 12].
Перспективы дальнейших исследований связаны с развитием мультимодальных моделей, объединяющих КТ и МРТ, применением трансформерных архитектур нового поколения, а также интеграцией методов доменной адаптации и самосупервизируемого обучения [7, 11, 13]. В совокупности это позволит создавать более универсальные и устойчивые системы, способные автоматически выполнять 3D-сегментацию органов и поддерживать принятие решений в медицинской диагностике и лечении.
СПИСОК ЛИТЕРАТУРЫ
1. Çiçek Ö., Abdulkadir A., Lienkamp S.S. et al. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation // MICCAI. 2016.
2. Hinck D., Schaal M., Faber C. et al. Automatic Segmentation of Cardiovascular Structures on CT Using TotalSegmentator // RöFo. 2025.
3. Isensee F., Petersen J., Klein A. et al. nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation // Bildverarbeitung für die Medizin. 2019.
4. Isensee F., Jaeger P.F., Kohl S.A.A. et al. nnU-Net: a Self-configuring Method for Deep Learning-based Biomedical Image Segmentation // Nature Methods. 2021.
5. Jha D., Riegler M.A., Johansen D. et al. DoubleU-Net: A Deep Convolutional Neural Network for Medical Image Segmentation // arXiv preprint arXiv:2006.04868. 2020.
6. Luan S., Xue X., Ding Y. et al. Adaptive Attention Convolutional Neural Network for Liver Tumor Segmentation // Frontiers in Oncology. 2021.
7. Park J., Kim H., Lee S. Lite Swin UNETR: A Lightweight Model for Efficient 3D Medical Image Segmentation // Applied Microscopy. 2025.
8. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // MICCAI. 2015.
9. Sabir M.W., Khan Z., Saad N.M. et al. Segmentation of Liver Tumor in CT Scan Using ResU-Net // Applied Sciences. 2022.
10. Sayed M., Abd El-Aziz R. Evaluating Medical Image Segmentation Models Using TotalSegmentator-based Augmented Data // Imaging. 2024.
11. Tang Y., Yang D., Li W. et al. Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis // CVPR. 2022.
12. Wasserthal J., Breit H.-C., Meyer M. et al. TotalSegmentator: Robust Segmentation of 104 Anatomic Structures in CT Images // Radiology: Artificial Intelligence. 2023.
13. Wei C., Xie Y., Chen X. et al. High-Resolution Swin Transformer for Automatic Medical Image Segmentation // Sensors. 2023.
14. Zhang J., Jin Y., Xu J. et al. MDU-Net: Multi-scale Densely Connected U-Net for Biomedical Image Segmentation // arXiv preprint arXiv:1812.00352. 2018.
15. Zunair H., Ben Hamza A. Sharp U-Net: Depthwise Convolutional Network for Biomedical Image Segmentation // arXiv preprint arXiv:2107.12461. 2021.