EfficientDet: Хэмжээтэй, үр ашигтай объектыг илрүүлэх чиглэлд

Агуулгын хүснэгт:

EfficientDet: Хэмжээтэй, үр ашигтай объектыг илрүүлэх чиглэлд
EfficientDet: Хэмжээтэй, үр ашигтай объектыг илрүүлэх чиглэлд

Видео: EfficientDet: Хэмжээтэй, үр ашигтай объектыг илрүүлэх чиглэлд

Видео: EfficientDet: Хэмжээтэй, үр ашигтай объектыг илрүүлэх чиглэлд
Видео: EfficientDet: Scalable and Efficient Object Detection 2024, May
Anonim

Компьютерийн алсын хараатай холбоотой гол хэрэглээний нэг болох объект нь өндөр нарийвчлалтай байхыг шаарддаг боловч робот, жолоочгүй машин гэх мэт хязгаарлагдмал тооцооллын нөөцтэй хувилбаруудад объект илрүүлэх нь улам бүр чухал болж байна. Харамсалтай нь орчин үеийн өндөр нарийвчлалтай детекторууд эдгээр хязгаарлалтыг хангаж чадахгүй байна. Илүү чухал зүйл бол бодит объект илрүүлэх програмууд нь өөр өөр платформ дээр ажилладаг бөгөөд энэ нь ихэвчлэн өөр өөр нөөц шаарддаг.

Өргөтгөх боломжтой, үр ашигтай объектыг илрүүлэх
Өргөтгөх боломжтой, үр ашигтай объектыг илрүүлэх

Тэгэхээр олон янзын нөөцийн хязгаарлалтад дасан зохицож чадахуйц нарийвчлалтай, үр дүнтэй объект илрүүлэгчийг хэрхэн бүтээх вэ гэдэг нь зүй ёсны асуудал юм.

EfficientDet: CVPR 2020-д батлагдсан өргөтгөсөн, үр ашигтай объектыг илрүүлэх нь шинэ масштабтай, үр ашигтай объект илрүүлэгч гэр бүлийг танилцуулж байна. Мэдрэлийн сүлжээг (EfficientNet) өргөжүүлэх, шинэ хоёр чиглэлт функциональ сүлжээ (BiFPN) болон масштабын шинэ дүрмийг нэвтрүүлэх талаар өмнөх ажлууд дээр үндэслэн орчин үеийн нарийвчлалыг 9 дахин бага болгож, орчин үеийн мэдэгдэж байгаа детекторуудаас хамаагүй бага тооцооллыг ашигладаг. Дараахь зураг дээр загваруудын ерөнхий сүлжээний архитектурыг харуулав.

Зураг
Зураг

Загварын архитектурыг оновчтой болгох

EfficientDet-ийн цаад санаа нь илрүүлэлтийн өмнөх орчин үеийн загваруудыг системтэйгээр судалж тооцооллын үр ашгийг дээшлүүлэх шийдлүүдийг олох гэсэн хүчин чармайлтаас үүдэлтэй юм. Ерөнхийдөө объект илрүүлэгч нь гурван үндсэн бүрэлдэхүүн хэсэгтэй байдаг: өгөгдсөн зургаас онцлог шинж чанарыг гаргаж авдаг нуруу; нурууны шугамаас олон түвшний функцийг оролт болгон авч, дүрсний онцлог шинж чанарыг харуулсан хосолсон функцуудын жагсаалтыг гаргадаг объектуудын сүлжээ; болон объект бүрийн анги, байршлыг урьдчилан таамаглахад хосолсон функцуудыг ашигладаг эцсийн анги / хайрцаг сүлжээ.

Эдгээр бүрэлдэхүүн хэсгүүдийн дизайны сонголтыг судалсны дараа бид гүйцэтгэл, үр ашгийг дээшлүүлэх хэд хэдэн гол оновчлолыг тодорхойлсон. Өмнөх детекторууд ResNets, ResNeXt эсвэл AmoebaNet-ийг гол төлөв нуруу болгон ашигладаг байсан бөгөөд энэ нь EfficientNets-ээс бага хүч чадалтай эсвэл үр ашиг багатай байдаг. EfficientNet нурууг анх хэрэгжүүлснээр илүү их үр дүнд хүрэх боломжтой болно. Жишээлбэл, ResNet-50 нурууг ашигладаг RetinaNet-ийн суурь шугамаас эхлээд бидний абляцийн судалгаагаар ResNet-50-ийг EfficientNet-B3 -ээр солих нь нарийвчлалыг 3% -иар сайжруулж, тооцооллыг 20% -иар бууруулж болохыг харуулж байна. Өөр нэг оновчлол нь функциональ сүлжээний үр ашгийг дээшлүүлэх явдал юм. Өмнөх детекторуудын ихэнх нь Downlink Pyramid Network (FPN) ашигладаг байсан бол FPN доод урсгал нь угаасаа нэг талын мэдээллийн урсгалаар хязгаарлагддаг болохыг олж мэдсэн. PANet гэх мэт өөр FPN-үүд нэмэлт тооцооллын зардлаар нэмэлт урсгал нэмж өгдөг.

Мэдрэлийн архитектурын хайлтыг (NAS) ашиглах сүүлийн оролдлогууд нь илүү төвөгтэй NAS-FPN архитектурыг олж илрүүлжээ. Гэсэн хэдий ч энэхүү сүлжээний бүтэц үр дүнтэй байхын зэрэгцээ тогтмол бус бөгөөд тодорхой даалгаварт өндөр оновчлогдсон тул бусад ажлуудад дасан зохицоход хэцүү болгодог. Эдгээр асуудлыг шийдвэрлэхийн тулд бид олон давхар функцийг FPN / PANet / NAS-FPN-ээс нэгтгэх санааг хэрэгжүүлдэг BiFPN хоёр чиглэлтэй шинэ функцийг санал болгож байгаа бөгөөд энэ нь мэдээллийг дээрээс доош, хоёуланг нь дамжуулах боломжийг олгодог. доороос дээш. тогтмол, үр дүнтэй холболтыг ашиглах.

Зураг
Зураг

Үр ашгийг дээшлүүлэхийн тулд бид шинэ хурдан хэвийн синтезийн техникийг санал болгож байна. Уламжлалт хандлагууд нь ихэвчлэн FPN-д оруулах бүх оролтыг өөр өөр шийдвэртэй байсан ч адилхан харьцдаг. Гэсэн хэдий ч, өөр өөр нарийвчлалтай оролтын шинж чанарууд нь гаралтын функцуудад ихэвчлэн тэгш бус хувь нэмэр оруулдаг болохыг бид ажиглаж байна. Тиймээс бид оролтын функц бүрт нэмэлт жинг нэмж, сүлжээ тус бүрийн ач холбогдлыг мэдэж аваарай. Мөн бид бүх тогтмол эргэлтийг хямд өртөгтэй, гүнзгий салгаж болохуйц хурдаар солих болно. Энэхүү оновчлолын ачаар манай BiFPN нь нарийвчлалыг 4% -иар сайжруулж, тооцоолох зардлыг 50% -иар бууруулдаг.

Гурав дахь оновчлол нь янз бүрийн нөөцийн хязгаарлалтын дор нарийвчлал, үр ашиг хоёрын хооронд хамгийн сайн тохиролцоонд хүрэхийг хэлнэ. Сүлжээний гүн, өргөн, нарийвчлалыг зэрэгцүүлэн масштабжуулах нь зураг таних чадварыг ихээхэн сайжруулж болохыг бидний өмнөх ажил харуулсан. Энэхүү санаанаас санаа аван бид нарийвчлал / гүн / өргөнийг хамтад нь нэмэгдүүлэх обьект илрүүлэгчдэд зориулсан нийлмэл масштабтай шинэ аргыг санал болгож байна. Сүлжээний бүрдэл хэсэг, өөрөөр хэлбэл нуруу, объект ба блок / ангийн урьдчилан таамагласан сүлжээ нь бүх хэмжээсийг эвристик дүрмийг ашиглан хянах нэг цогц масштабын хүчин зүйлтэй байх болно. Энэхүү хандлага нь тухайн зорилтот нөөцийн хязгаарлалтын масштабын коэффициентийг тооцоолох замаар загварыг хэрхэн хэмжихийг тодорхойлоход хялбар болгодог.

Шинэ нуруу болон BiFPN-ийг хослуулснаар бид эхлээд бага хэмжээний EfficientDet-D0 суурийн зураг төслийг боловсруулж дараа нь нийлмэл масштабыг ашиглан E7DD-D1-ийг D7 болгоно. Цуврал загвар бүр нь тооцооллын өртөг өндөр бөгөөд 3 тэрбум FLOP-ээс 300 тэрбум FLOPS хүртэлх өргөн хүрээний нөөцийн хязгаарыг хамарч, илүү нарийвчлалтай болгодог.

Гүйцэтгэлийн загвар

Объект илрүүлэхэд өргөн хэрэглэгддэг лавлагаа мэдээллийн багц болох COCO өгөгдлийн багц дээр EfficientDet-ийг үнэлэх. EfficientDet-D7 нь 4 дахин бага параметр, 9,4 дахин бага тооцоо ашиглан дундаж дундаж нарийвчлалыг (mAP) 52.2 болгосон нь өмнөх орчин үеийн загвараас 1.5 пунктээр өндөр байна.

Зураг
Зураг

Түүнчлэн параметрийн хэмжээ ба CPU / GPU-ийн хоцрогдолыг EfficientDet болон өмнөх загваруудын хооронд харьцуулсан болно. Үүнтэй ижил нарийвчлалтай хязгаарлалтын үед EfficientDet загварууд нь бусад детекторуудтай харьцуулахад GPU дээр 2-4 дахин, процессор дээр 5-11 дахин хурдан ажилладаг. EfficientDet загварууд нь голчлон объект илрүүлэхэд зориулагдсан байдаг бол бид семантик сегментчилэл зэрэг бусад ажлуудад тэдгээрийн үр ашгийг шалгадаг. Сегментчлэлийн ажлуудыг гүйцэтгэхийн тулд бид ижил масштабтай нуруу болон BiFPN-ийг хадгалахын зэрэгцээ илрүүлэлтийн толгой ба толгойны алдагдал, алдагдлыг орлуулах замаар EfficientDet-D4-ийг бага зэрэг өөрчилнө. Энэхүү загварыг өргөн хэрэглэгддэг сегментчиллийн тестийн өгөгдлийн багц болох Paskal VOC 2012-ийн өмнөх орчин үеийн сегментчилэлтийн загваруудтай харьцуулж үзье.

Зураг
Зураг

Онцгой гүйцэтгэлийг харгалзан EfficientDet нь ирээдүйн объект илрүүлэх судалгааны шинэ үндэс суурь болж, өндөр нарийвчлалтай объект илрүүлэх загварыг олон бодит хэрэглээнд ашиглах боломжтой болгох төлөвтэй байна. Тиймээс Github.com дээр код болон урьдчилсан загвар бүхий бүх зөрчлийг нээв.

Зөвлөмж болгож буй: