সারসংক্ষেপ এবং ১. ভূমিকা
সম্পর্কিত কাজসমূহ
MaGGIe
৩.১. দক্ষ মাস্কড গাইডেড ইনস্ট্যান্স ম্যাটিং
৩.২. ফিচার-ম্যাট টেম্পোরাল সামঞ্জস্য
ইনস্ট্যান্স ম্যাটিং ডেটাসেট
৪.১. ইমেজ ইনস্ট্যান্স ম্যাটিং এবং ৪.২. ভিডিও ইনস্ট্যান্স ম্যাটিং
পরীক্ষা-নিরীক্ষা
৫.১. ইমেজ ডেটার উপর প্রি-ট্রেনিং
৫.২. ভিডিও ডেটার উপর ট্রেনিং
আলোচনা এবং তথ্যসূত্র
\ সম্পূরক উপাদান
আর্কিটেকচার বিস্তারিত
ইমেজ ম্যাটিং
৮.১. ডেটাসেট তৈরি এবং প্রস্তুতি
৮.২. ট্রেনিং বিস্তারিত
৮.৩. পরিমাণগত বিস্তারিত
৮.৪. প্রাকৃতিক ছবিতে আরও গুণগত ফলাফল
ভিডিও ম্যাটিং
৯.১. ডেটাসেট তৈরি
৯.২. ট্রেনিং বিস্তারিত
৯.৩. পরিমাণগত বিস্তারিত
৯.৪. আরও গুণগত ফলাফল
এই বিভাগটি ইমেজ ম্যাটিং প্রক্রিয়া সম্প্রসারিত করে, ডেটাসেট তৈরি এবং বিদ্যমান পদ্ধতিগুলির সাথে ব্যাপক তুলনার অতিরিক্ত অন্তর্দৃষ্টি প্রদান করে। আমরা I-HIM50K এবং M-HIM2K ডেটাসেট তৈরিতে গভীরভাবে প্রবেশ করি, বিস্তারিত পরিমাণগত বিশ্লেষণ প্রদান করি এবং আমাদের পদ্ধতির কার্যকারিতা তুলে ধরতে আরও গুণগত ফলাফল উপস্থাপন করি।
I-HIM50K ডেটাসেট HHM50K [50] ডেটাসেট থেকে সংশ্লেষিত হয়েছিল, যা মানব ইমেজ ম্যাটের বিস্তৃত সংগ্রহের জন্য পরিচিত। আমরা একক-ব্যক্তির ছবি ফিল্টার করতে COCO ডেটাসেটে প্রশিক্ষিত একটি MaskRCNN [14] Resnet-50 FPN 3x মডেল ব্যবহার করেছি, যার ফলে ৩৫,০৫৩টি ছবির একটি উপসেট পাওয়া গেছে। InstMatt [49] পদ্ধতি অনুসরণ করে, এই ছবিগুলি BG20K [29] ডেটাসেট থেকে বিভিন্ন পটভূমির বিপরীতে কম্পোজিট করা হয়েছিল, প্রতিটি ছবিতে ২-৫টি বিষয় সহ মাল্টি-ইনস্ট্যান্স পরিস্থিতি তৈরি করে। বিষয়গুলি একটি বাস্তবসম্মত স্কেল বজায় রাখতে এবং অতিরিক্ত ওভারল্যাপ এড়াতে আকার পরিবর্তন এবং অবস্থান করা হয়েছিল, যেমন ইনস্ট্যান্স IoU ৩০% অতিক্রম করে না। এই প্রক্রিয়াটি ৪৯,৭৩৭টি ছবি তৈরি করেছে, প্রতিটি ছবিতে গড়ে ২.২৮টি ইনস্ট্যান্স রয়েছে। ট্রেনিংয়ের সময়, আলফা ম্যাট বাইনারাইজ করে এবং এলোমেলো ড্রপআউট, ডাইলেশন এবং ইরোশন অপারেশন প্রয়োগ করে গাইডেন্স মাস্ক তৈরি করা হয়েছিল। I-HIM50K থেকে নমুনা ছবি চিত্র ১০-এ প্রদর্শিত হয়েছে।
\ M-HIM2K ডেটাসেট বিভিন্ন মাস্ক গুণমানের বিপরীতে মডেল দৃঢ়তা পরীক্ষা করার জন্য ডিজাইন করা হয়েছিল। এটি বিভিন্ন MaskRCNN মডেল ব্যবহার করে তৈরি প্রতিটি ইনস্ট্যান্সে দশটি মাস্ক নিয়ে গঠিত। এই তৈরি প্রক্রিয়ার জন্য ব্যবহৃত মডেল সম্পর্কে আরও তথ্য সারণি ৮-এ দেখানো হয়েছে। মাস্কগুলি গ্রাউন্ড ট্রুথ আলফা ম্যাটের সাথে সর্বোচ্চ IoU এর ভিত্তিতে ইনস্ট্যান্সের সাথে মিলানো হয়েছিল, ন্যূনতম IoU থ্রেশহোল্ড ৭০% নিশ্চিত করে। যে মাস্কগুলি এই থ্রেশহোল্ড পূরণ করেনি সেগুলি গ্রাউন্ড ট্রুথ থেকে কৃত্রিমভাবে তৈরি করা হয়েছিল। এই প্রক্রিয়াটি ১,৩৪,২৪০টি মাস্কের একটি ব্যাপক সেট তৈরি করেছে, যার মধ্যে কম্পোজিটের জন্য ১,১৭,৬৬০টি এবং প্রাকৃতিক ছবির জন্য ১৬,৬০০টি, মাস্কড গাইডেড ইনস্ট্যান্স ম্যাটিং মূল্যায়নের জন্য একটি শক্তিশালী বেঞ্চমার্ক প্রদান করে। সম্পূর্ণ ডেটাসেট I-HIM50K এবং M-HIM2K এই কাজের গ্রহণযোগ্যতার পরে প্রকাশ করা হবে।
\ 
\ 
\
:::info লেখকগণ:
(১) Chuong Huynh, ইউনিভার্সিটি অফ মেরিল্যান্ড, কলেজ পার্ক ([email protected]);
(২) Seoung Wug Oh, Adobe Research (seoh,[email protected]);
(৩) Abhinav Shrivastava, ইউনিভার্সিটি অফ মেরিল্যান্ড, কলেজ পার্ক ([email protected]);
(৪) Joon-Young Lee, Adobe Research ([email protected])।
:::
:::info এই গবেষণাপত্রটি CC by 4.0 Deed (Attribution 4.0 International) লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
:::
\


