MaGGIe представляє набори даних I-HIM50K та M-HIM2K, що містять понад 180 000 синтезованих людських масок для оцінки надійності інстанс-маттингу.MaGGIe представляє набори даних I-HIM50K та M-HIM2K, що містять понад 180 000 синтезованих людських масок для оцінки надійності інстанс-маттингу.

Синтез багатоекземплярних даних матування людей за допомогою MaskRCNN та BG20K

2025/12/20 02:30

Анотація та 1. Вступ

  1. Пов'язані роботи

  2. MaGGIe

    3.1. Ефективне маскований керований маттінг екземплярів

    3.2. Темпоральна узгодженість особливостей-матів

  3. Набори даних для маттінгу екземплярів

    4.1. Маттінг екземплярів зображень та 4.2. Маттінг екземплярів відео

  4. Експерименти

    5.1. Попереднє навчання на даних зображень

    5.2. Навчання на відео даних

  5. Обговорення та посилання

\ Додатковий матеріал

  1. Деталі архітектури

  2. Маттінг зображень

    8.1. Генерація та підготовка набору даних

    8.2. Деталі навчання

    8.3. Кількісні деталі

    8.4. Більше якісних результатів на природних зображеннях

  3. Маттінг відео

    9.1. Генерація набору даних

    9.2. Деталі навчання

    9.3. Кількісні деталі

    9.4. Більше якісних результатів

8. Маттінг зображень

Цей розділ розширює процес маттінгу зображень, надаючи додаткові уявлення про генерацію наборів даних та всебічні порівняння з існуючими методами. Ми заглиблюємося у створення наборів даних I-HIM50K та M-HIM2K, пропонуємо детальний кількісний аналіз та представляємо подальші якісні результати для підкреслення ефективності нашого підходу.

8.1. Генерація та підготовка набору даних

Набір даних I-HIM50K був синтезований з набору даних HHM50K [50], який відомий своєю великою колекцією матів зображень людей. Ми використали модель MaskRCNN [14] Resnet-50 FPN 3x, навчену на наборі даних COCO, щоб відфільтрувати зображення з однією людиною, в результаті чого отримали підмножину з 35 053 зображень. Дотримуючись методології InstMatt [49], ці зображення були скомпоновані з різноманітними фонами з набору даних BG20K [29], створюючи сценарії з кількома екземплярами з 2-5 суб'єктами на зображення. Суб'єкти були змінені за розміром та розташовані для підтримання реалістичного масштабу та уникнення надмірного перекриття, про що свідчать IoU екземплярів, що не перевищують 30%. Цей процес дав 49 737 зображень із середнім значенням 2,28 екземпляра на зображення. Під час навчання маски керування генерувалися шляхом бінаризації альфа-матів та застосування операцій випадкового відкидання, розширення та ерозії. Зразки зображень з I-HIM50K відображені на рис. 10.

\ Набір даних M-HIM2K був розроблений для тестування стійкості моделі до різної якості масок. Він включає десять масок на екземпляр, згенерованих за допомогою різних моделей MaskRCNN. Більше інформації про моделі, використані для цього процесу генерації, показано в таблиці 8. Маски були зіставлені з екземплярами на основі найвищого IoU з еталонними альфа-матами, забезпечуючи мінімальний поріг IoU 70%. Маски, які не відповідали цьому порогу, були штучно згенеровані з еталону. Цей процес призвів до створення комплексного набору з 134 240 масок, з яких 117 660 для композитних та 16 600 для природних зображень, забезпечуючи надійний еталон для оцінки маскованого керованого маттінгу екземплярів. Повний набір даних I-HIM50K та M-HIM2K буде випущений після прийняття цієї роботи.

\ Рисунок 10. Приклади набору даних I-HIM50K. (Краще переглядати в кольорі).

\ Таблиця 8. Десять моделей з різною якістю масок використовуються в MHIM2K. Моделі MaskRCNN від detectron2 навчені на COCO з різними налаштуваннями.

\

:::info Автори:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Ринкові можливості
Логотип Multichain
Курс Multichain (MULTI)
$0.03984
$0.03984$0.03984
+7.03%
USD
Графік ціни Multichain (MULTI) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.