
Ученые ИТМО разработали программу, позволяющую автоматически отслеживать действия, которые в том числе могут привести к ЧП на производстве ― например, прием алкоголя или курение на рабочем месте. В отличие от аналогов, модель способна одновременно распознавать до десяти событий, работает со средней точностью 80% (это выше, чем у одной из лучших открытых моделей «VideoMAE», обученной на тех же данных) и более легковесна ― требует меньше вычислительных ресурсов.
Специалисты лаборатории компьютерных технологий ИТМО разработали алгоритм под названием ActionFormer, который с точностью 80% распознает сразу десять действий: например, может отследить, когда сотрудник производства курит или принимает пищу на рабочем месте, отвлекается и разговаривает по телефону, без спросу перемещает оборудование и заходит в помещения, где находиться запрещено. Кроме того, разработка помогает предупредить саботаж камер ― когда объектив намеренно пачкают или закрывают, чтобы скрыть запрещенные действия. На многих промышленных предприятиях эти действия считаются нарушением техники безопасности, поскольку нередко могут привести к серьезным последствиям.
Алгоритм, разработанный специалистами ИТМО, состоит из двух моделей, которые анализируют последовательность изображений: одна расставляет скелетные точки на изображениях людей, а другая на их основе классифицирует действия и определяет, где находятся сотрудники предприятия. Информация обо всех неправомерных или потенциально опасных действиях попадает в общую базу данных или сразу передается на интерфейс оператора — в зависимости от требований заказчика.
По сравнению с аналогичными решениями, которые уже есть на рынке, представленная модель легковесна, поскольку содержит относительно небольшое количество параметров (3,7 млн). Этого удалось достичь за счет использования сверточной модели: она анализирует не все изображение целиком, а лишь конкретные точки и маски объектов. Аналоги анализируют больше параметров: например, VideoMAE — 22 млн, Hiera — 73 млн, Tarsier — 10 млрд, OpenVLA — 7 млрд, но требуют больше ресурсов для работы.
Нейросеть обучали более чем на 180 тысячах кадров: для этого исследователи использовали не только датасеты из открытых источников, но и снимали видео самостоятельно.
Код алгоритма в открытом доступе. Это значит, что обучить модель распознавать различные действия могут и сами пользователи, но для этого нужно собрать обучающую выборку.
«В будущем мы хотим обучить модель на большем числе действий. Следующая задача — адаптировать систему распознавания действий для носимых камер. Например, ее можно будет использовать в шахтах при проведении инструктажа — отслеживать, что бригада выполняет нужные действия и соблюдает правила безопасности: например, использует СИЗы, проводит работы в соответствии с инструкцией, безопасно спускается по лестнице», — рассказала руководитель проекта, кандидат технических наук, научный сотрудник лаборатории компьютерных технологий ИТМО Валерия Ефимова.
Кроме того, специалисты уже работают над другой версией модели, которую можно будет использовать для фиксации противоправных действий на придомовой территории в жилых комплексах. Для этого они обучили алгоритм на 150 тысячах кадров различных сценариев, в их числе ― прием спиртного на детских площадках, разгрузка грузовых машин в неположенных местах, попытки посторонних проникнуть в подъезд дома. В перспективе специалисты планируют добавить и новые сценарии, чтобы программа могла фиксировать, например, кто ломает скамейки или вытаптывает газоны. Релиз этой версии намечен на октябрь 2025 года.
Над алгоритмом работали студенты факультета информационных технологий и программирования ИТМО Анастасия Шпилева, Максим Колтаков, Георгий Петров и студент Института прикладных компьютерных наук ИТМО Руслан Зарипов.
Источник: ITMO NEWS