Моторика движений человеческого тела может рассказать о многом. До настоящего момента в системах компьютерного зрения и распознавания это не учитывалось. Роботы не могли распознать и оценить выражение человеческого лица, движения его рук или пальцев. Исследователи из Института робототехники Университета Карнеги-Меллона разработали методику, которая позволяет компьютеру понять жесты и движения тела нескольких человек по видеозаписи в реальном времени. Впервые им удалось заставить «электронные мозги» отследить движения каждого пальца участников эксперимента.
Как это сделали
Новый метод был разработан с помощью специалистов Panoptic Studio. Это масштабное сооружение представляет собой двухэтажный купол. Там смонтированы 500 видеокамер фиксирующие движения нескольких человек одновременно. Итогом этой масштабной работы стала специализированная программа OpenPose. Она может отслеживать движение тела, в том числе рук и лица, в режиме реального времени. Для этого в системе применяются компьютерное зрение и машинное обучение для обработки видео кадров. Теперь для распознавания и «оцифровки» мимики и движений человека в реальном времени достаточно одной камеры и ноутбука.
Отслеживание людей в режиме реального времени, особенно когда они могут контактировать друг с другом, представляет ряд проблем. Простое использование программ, которые фиксируют движения человека, не работает, когда применяется к каждому человеку в группе, особенно когда эта группа становится большой. Ученые использовали подход «снизу вверх», который сначала локализует все части тела в сцене - руки, ноги, лица и т. д., а затем связывает эти части с отдельными людьми.
Проблем с распознаванием рук больше. Они все время в движении, в них что-то может быть, они воспроизводят какие-то жесты. Одна камера не способна увидеть все части руки одновременно. В отличие от лица и тела, нет баз оцифрованных изображений жестов и движений человеческих рук, которые были бы аннотированы метками частей и позиций.
Но для каждого изображения, которое показывает только часть руки, часто существует другое изображение под другим углом с полным или дополнительным представлением руки. Именно для решения этой проблемы исследователи смогли использовать многокамерную Panoptic Studio CMU.
В работе использовалась только 31 камера высокой четкости, но ученые смогли создать массивный набор данных.
Для чего это надо?
Язер Шейх, адъюнкт-профессор робототехники и научный руководитель исследований считает, что понимание нюансов невербальной коммуникации между людьми позволит роботам сознавать, что делают люди вокруг них. Эта технология может быть применена ко всем видам взаимодействия между людьми и машинами. Позволит развивать системы виртуальной реальности без использования специальных перчаток, управлять домашними или промышленными роботами обычными жестами, даже если кто-то заплачет, робот сможет предложить ему платок.