В ИТМО разработали недорогую универсальную модель, которая помогает отслеживать опасные действия на производстве

Алгоритм уже используется на одном из крупных промышленных производств Пермского края и позволил снизить количество физических проверок в три раза.
В ИТМО разработали недорогую универсальную модель, которая помогает отслеживать опасные действия на производстве
Нейросеть расставила скелетные точки на изображении курящего человека

Ученые ИТМО разработали программу, позволяющую автоматически отслеживать действия, которые в том числе могут привести к ЧП на производстве ― например, прием алкоголя или курение на рабочем месте. В отличие от аналогов, модель способна одновременно распознавать до десяти событий, работает со средней точностью 80% (это выше, чем у одной из лучших открытых моделей «VideoMAE», обученной на тех же данных) и более легковесна ― требует меньше вычислительных ресурсов. 

Специалисты лаборатории компьютерных технологий ИТМО разработали алгоритм под названием ActionFormer, который с точностью 80% распознает сразу десять действий: например, может отследить, когда сотрудник производства курит или принимает пищу на рабочем месте, отвлекается и разговаривает по телефону, без спросу перемещает оборудование и заходит в помещения, где находиться запрещено. Кроме того, разработка помогает предупредить саботаж камер ― когда объектив намеренно пачкают или закрывают, чтобы скрыть запрещенные действия. На многих промышленных предприятиях эти действия считаются нарушением техники безопасности, поскольку нередко могут привести к серьезным последствиям.

Алгоритм, разработанный специалистами ИТМО, состоит из двух моделей, которые анализируют последовательность изображений: одна расставляет скелетные точки на изображениях людей, а другая на их основе классифицирует действия и определяет, где находятся сотрудники предприятия. Информация обо всех неправомерных или потенциально опасных действиях попадает в общую базу данных или сразу передается на интерфейс оператора — в зависимости от требований заказчика.

По сравнению с аналогичными решениями, которые уже есть на рынке, представленная модель легковесна, поскольку содержит относительно небольшое количество параметров (3,7 млн). Этого удалось достичь за счет использования сверточной модели: она анализирует не все изображение целиком, а лишь конкретные точки и маски объектов. Аналоги анализируют больше параметров: например, VideoMAE — 22 млн, Hiera — 73 млн, Tarsier — 10 млрд, OpenVLA — 7 млрд, но требуют больше ресурсов для работы.

Нейросеть обучали более чем на 180 тысячах кадров: для этого исследователи использовали не только датасеты из открытых источников, но и снимали видео самостоятельно. 

Код алгоритма  в открытом доступе. Это значит, что обучить модель распознавать различные действия могут и сами пользователи, но для этого нужно собрать обучающую выборку.

«В будущем мы хотим обучить модель на большем числе действий. Следующая задача — адаптировать систему распознавания действий для носимых камер. Например, ее можно будет использовать в шахтах при проведении инструктажа — отслеживать, что бригада выполняет нужные действия и соблюдает правила безопасности: например, использует СИЗы, проводит работы в соответствии с инструкцией, безопасно спускается по лестнице», — рассказала руководитель проекта, кандидат технических наук, научный сотрудник лаборатории компьютерных технологий ИТМО Валерия Ефимова

Кроме того, специалисты уже работают над другой версией модели, которую можно будет использовать для фиксации противоправных действий на придомовой территории в жилых комплексах. Для этого они обучили алгоритм на 150 тысячах кадров различных сценариев, в их числе ― прием спиртного на детских площадках, разгрузка грузовых машин в неположенных местах, попытки посторонних проникнуть в подъезд дома. В перспективе специалисты планируют добавить и новые сценарии, чтобы программа могла фиксировать, например, кто ломает скамейки или вытаптывает газоны. Релиз этой версии намечен на октябрь 2025 года.

Над алгоритмом работали студенты факультета информационных технологий и программирования ИТМО Анастасия Шпилева, Максим Колтаков, Георгий Петров и студент Института прикладных компьютерных наук ИТМО Руслан Зарипов.

 

Источник: ITMO NEWS

Читайте также

  • 25.11.2025

    Ученые ИТМО и Сбера представили новую мультиагентную ИИ-систему для быстрого создания новых лекарств

    Исследователи из ИТМО при поддержке ученых Центра практического искусственного интеллекта Сбера разработали мультиагентную систему для поиска новых лекарственных молекул.

  • 30.10.2025

    Маршрут перестроен: в ИТМО разработали ИИ-сервис для оптимизации маршрутов общественного транспорта

    С помощью ИИ-инструмента ConnectPT от разработчиков из Института искусственного интеллекта ИТМО можно быстро и без дополнительных затрат проанализировать уже существующие маршруты городского пассажирского транспорта и получить рекомендации, как их улучшить.

  • 17.09.2025

    Совместное исследование Yandex B2B Tech и Университета ИТМО: 75% разработчиков уже используют ИИ-ассистенты при работе с кодом

    Yandex B2B Tech и Университет ИТМО провели исследование инструментов разработки среди более чем 600 разработчиков, преподавателей и студентов IT-направлений.