Технологам горно-обогатительного производства важно отслеживать характеристики руды и полезных ископаемых. Например, слишком крупные камни могут повредить дробилку, а мелкие — проскочить через нее. Также специалистам нужно следить за размером, формой, цветностью и движением пузырей во время флотации — процессе, который помогает избавиться от пустой породы. После обработки специальными растворами одни измельченные частицы тонут, а другие — не смачиваются и уносятся пеной. Наконец, нужно определять размер и влажность окатышей руды, которые используются в производстве чугуна.

Оценивают характеристики материалов нескольким способами: камни просеивают через большое сито, анализируют лазерным 3D-сканированием или рентгенорадиометрическим методом. Пузырьки либо определяют на глаз, либо проводят химический анализ раствора. Компьютерное зрение и искусственный интеллект могут ускорить и упросить работу, но камни и пузырьки — плотно сгруппированные объекты, которые перекрывают друг друга в случайном порядке. Из-за этого разработчикам сложно научить ИИ «видеть» границы камней и пузырьков и приходится размечать объекты вручную.

Студенты лаборатории компьютерных технологий ИТМО предложили открытую библиотеку моделей, которые позволяют автоматизировать разметку изображений с плотно сгруппированными объектами, такими как камни и пузырьки.

«Сейчас в России разрабатывают решения на основе машинного обучения и ИИ для горнодобывающей промышленности, но эти модели доступны только конкретным компаниям и особо не афишируются. Уникальность нашего подхода в том, что мы делаем открытые для всех универсальные решения. Также мы не только автоматизировали разметку камней и пузырьков, но и разработали генеративную модель, которая создает разметку для подобных объектов. Инженеру по машинному обучению нужно потратить немного времени на адаптацию алгоритма к данным, но такой подход все равно будет быстрее разметки вручную», — отметила руководитель проекта, аспирант факультета информационных технологий и программирования ИТМО Мария Румянцева.

В основе библиотеки — три ИИ-решения. Фундаментальная модель Segment Anything Model выделяет прямоугольной рамкой область с нужным объектом, затем модель детекции YOLOv8s сегментирует крупные объекты, а алгоритм сегментации водораздела — малые. Такое сочетание позволяет комплексно проанализировать изображение, ничего не упустив.

«Наше решение сегментирует большее количество объектов на изображении, чем классическая сегментация водоразделом — показатель полноты (object recall) нашего решения равен 0.85 против 0.52. Также библиотека превосходит существующий метод в метрике схожести оптических потоков (0.27 против 0.23), но уступает ему в метрике временной согласованности масок сегментации (0.30 против 0.41). Эти параметры показывают, насколько стабильно и логично работает модель сегментации. Нашими моделями объекты размечаются достаточно быстро — приблизительно 600 изображений размером 512x512 пикселей за час. Скорость работы не зависит от количества объектов на изображении, но размечать камни тяжелее, так как они могут перекрывать друг друга и иметь разную форму в отличие от постоянно круглых пузырей», — рассказал один из разработчиков библиотеки моделей, студент четвертого курса факультета систем управления и робототехники ИТМО Егор Прокопов.

Разработка ученых пригодится не только в горнодобывающей промышленности, но и в нефтепереработке, работе с сыпучими веществами, гранулами и кристаллами в пищевом производстве и удобрениями в аграрном секторе. Например, команда ученых уже разработала сервис для компании «Кнауф» — ИИ автоматически анализирует качество поризации гипсокартона по изображению с точностью до 99%.

Чтобы адаптировать модели под другие задачи, ученые подготовили способ генерации набора данных, которые инженер по машинному обучению может использовать для обучения своей модели сегментации. Набор состоит из целевых изображений камней или пузырьков и масок — черно-белых изображений, на которых выделяются границы и форма каждого объекта.

Для создания набора данных ученые сначала сгенерировали маски по текстовым запросам в генеративной модели Stable Diffusion Turbo и из полученных изображений извлекли контуры объектов. Затем с помощью инструмента IP Adapter обучили нейросеть по генерации изображений Stable Diffusion, чтобы модель запомнила, как в реальной жизни выглядят камни и пузырьки. Теперь обученная модель умеет генерировать изображения нужных объектов, не вылезая за контуры маски.



«На итоговом наборе пар "изображение — маска" инженер по машинному обучению может обучить свою модель сегментации для анализа камней и пузырьков. Наши тесты показали, что в сравнении с экспертной разметкой модели, обученные на разметке генерации, показатель полноты (object recall) равен 0.99. Это значит, что модель находит все камни, отмеченные экспертом», — объяснила одна из разработчиков библиотеки моделей, студентка четвертого курса факультета систем управления и робототехники ИТМО Дарья Усачева.

В будущем ученые улучшат генерацию масок для пузырей, обучат модели размечать объекты не только на статичных изображениях, но и видео, и добавят систему аналитики. С ее помощью модели будут не только определять камни или пузырьки, но характеризовать их размер, форму, количество и цветность. Также команда планирует представить свою работу на профильных конференциях и развивать сотрудничество с индустриальными компаниями.