В ИТМО разработали недорогую универсальную модель, которая помогает отслеживать опасные действия на производстве

Алгоритм уже используется на одном из крупных промышленных производств Пермского края и позволил снизить количество физических проверок в три раза.
В ИТМО разработали недорогую универсальную модель, которая помогает отслеживать опасные действия на производстве
Нейросеть расставила скелетные точки на изображении курящего человека

Ученые ИТМО разработали программу, позволяющую автоматически отслеживать действия, которые в том числе могут привести к ЧП на производстве ― например, прием алкоголя или курение на рабочем месте. В отличие от аналогов, модель способна одновременно распознавать до десяти событий, работает со средней точностью 80% (это выше, чем у одной из лучших открытых моделей «VideoMAE», обученной на тех же данных) и более легковесна ― требует меньше вычислительных ресурсов. 

Специалисты лаборатории компьютерных технологий ИТМО разработали алгоритм под названием ActionFormer, который с точностью 80% распознает сразу десять действий: например, может отследить, когда сотрудник производства курит или принимает пищу на рабочем месте, отвлекается и разговаривает по телефону, без спросу перемещает оборудование и заходит в помещения, где находиться запрещено. Кроме того, разработка помогает предупредить саботаж камер ― когда объектив намеренно пачкают или закрывают, чтобы скрыть запрещенные действия. На многих промышленных предприятиях эти действия считаются нарушением техники безопасности, поскольку нередко могут привести к серьезным последствиям.

Алгоритм, разработанный специалистами ИТМО, состоит из двух моделей, которые анализируют последовательность изображений: одна расставляет скелетные точки на изображениях людей, а другая на их основе классифицирует действия и определяет, где находятся сотрудники предприятия. Информация обо всех неправомерных или потенциально опасных действиях попадает в общую базу данных или сразу передается на интерфейс оператора — в зависимости от требований заказчика.

По сравнению с аналогичными решениями, которые уже есть на рынке, представленная модель легковесна, поскольку содержит относительно небольшое количество параметров (3,7 млн). Этого удалось достичь за счет использования сверточной модели: она анализирует не все изображение целиком, а лишь конкретные точки и маски объектов. Аналоги анализируют больше параметров: например, VideoMAE — 22 млн, Hiera — 73 млн, Tarsier — 10 млрд, OpenVLA — 7 млрд, но требуют больше ресурсов для работы.

Нейросеть обучали более чем на 180 тысячах кадров: для этого исследователи использовали не только датасеты из открытых источников, но и снимали видео самостоятельно. 

Код алгоритма  в открытом доступе. Это значит, что обучить модель распознавать различные действия могут и сами пользователи, но для этого нужно собрать обучающую выборку.

«В будущем мы хотим обучить модель на большем числе действий. Следующая задача — адаптировать систему распознавания действий для носимых камер. Например, ее можно будет использовать в шахтах при проведении инструктажа — отслеживать, что бригада выполняет нужные действия и соблюдает правила безопасности: например, использует СИЗы, проводит работы в соответствии с инструкцией, безопасно спускается по лестнице», — рассказала руководитель проекта, кандидат технических наук, научный сотрудник лаборатории компьютерных технологий ИТМО Валерия Ефимова

Кроме того, специалисты уже работают над другой версией модели, которую можно будет использовать для фиксации противоправных действий на придомовой территории в жилых комплексах. Для этого они обучили алгоритм на 150 тысячах кадров различных сценариев, в их числе ― прием спиртного на детских площадках, разгрузка грузовых машин в неположенных местах, попытки посторонних проникнуть в подъезд дома. В перспективе специалисты планируют добавить и новые сценарии, чтобы программа могла фиксировать, например, кто ломает скамейки или вытаптывает газоны. Релиз этой версии намечен на октябрь 2025 года.

Над алгоритмом работали студенты факультета информационных технологий и программирования ИТМО Анастасия Шпилева, Максим Колтаков, Георгий Петров и студент Института прикладных компьютерных наук ИТМО Руслан Зарипов.

 

Источник: ITMO NEWS

Читайте также

  • 06.08.2025

    ИТМО — в топ-3 вузов по подготовке специалистов в области ИИ

    Альянс в сфере искусственного интеллекта опубликовал ежегодный рейтинг российских университетов, оценивающий качество подготовки специалистов в области ИИ. В 2025 году ИТМО снова подтвердил лидерские позиции и вошел в тройку лучших вместе с НИУ ВШЭ и МФТИ. Всего в исследовании приняли участие 203 вуза, распределенных по 13 категориям от группы А++ до группы Е+.

  • 01.08.2025

    В ИТМО более 300 руководителей образовательных программ и преподавателей из 22 вузов повысили квалификацию в сфере ИИ

    Инициатива направлена на повышение квалификации преподавателей для ускоренной подготовки высококвалифицированных кадров в области ИИ. По результатам обучения в 22 вузах доработали образовательные программы по ИИ, фокусируясь на компетенциях, которые будут востребованы через 4–5 лет.

  • 27.06.2025

    ИТМО разработает новую российскую систему подготовки специалистов по ИИ

    Центр «Сильный ИИ в промышленности» ИТМО выиграл конкурс Аналитического центра при Правительстве Российской Федерации и займется разработкой компетентностно-ролевых моделей и образовательных программ в области искусственного интеллекта.