See artikkel käsitleb YOLO (You Only Look Once) algoritmi – ülitõhusat objektide tuvastamise meetodit, mida kasutatakse laialdaselt sellistes valdkondades nagu valve, isejuhtivad autod ja robootika.
Kasutades täielikult konvolutsioonilist närvivõrku, võimaldab YOLO reaalajas objektide tuvastamist, muutes selle sobivaks ressurssidega piiratud keskkondades.
Artiklis uuritakse YOLO arengut erinevate versioonide kaudu, tuues esile täiustused, nagu ankrukastid, erinevad CNN-i arhitektuurid ja dünaamilised ankrukastid.
Samuti käsitletakse peamisi hindamismõõdikuid objekti tuvastamise mudeli jõudluse mõõtmiseks.
Neile, kes soovivad põhjalikult mõista YOLO edusamme, pakub see artikkel väärtuslikke teadmisi ja näiteid.
Võtmed kaasavõtmiseks
- YOLO (You Only Look Once) on populaarne ühe kaadriga objektituvastusalgoritm objektide tuvastamiseks ja asukoha määramiseks piltidel või videotes.
- YOLO versioone on aastate jooksul pidevalt täiustatud, kusjuures igas versioonis on täpsuse ja jõudluse suurendamiseks lisatud uusi funktsioone ja arhitektuure.
- Ühekordse objekti tuvastamise algoritmid, nagu YOLO, on arvutuslikult tõhusad ja sobivad reaalajas rakenduste ja ressurssidega piiratud keskkondade jaoks.
- Kahe võttega objektituvastusalgoritmid seevastu pakuvad suuremat täpsust, kuid on arvutuslikult kallimad ja sobivad rakendustele, kus täpsus on olulisem kui reaalajas jõudlus.
Objektide tuvastamise põhitõed
Objektide tuvastamine, mis on arvutinägemises ülioluline ülesanne, hõlmab objektide tuvastamist ja lokaliseerimist piltidel või videotes. See mängib olulist rolli mitmesugustes rakendustes, nagu valve, isejuhtivad autod ja robootika.
Objektide tuvastamisel on aga mitmeid väljakutseid, millega tuleb tegeleda. Need väljakutsed hõlmavad oklusioonide käsitlemist, objektide välimuse variatsioone ja segase tausta olemasolu. Lisaks peavad objektituvastusalgoritmid olema tõhusad ja täpsed, et vastata reaalajas rakenduste nõudmistele.
Nendest väljakutsetest hoolimata on objektide tuvastamise rakendused tohutud ja laienevad jätkuvalt. Alates turvasüsteemide täiustamisest kuni autonoomsete sõidukite võimaldamiseni võib objektide tuvastamise tehnoloogia muuta revolutsiooni erinevatesse tööstusharudesse.
Single Shot vs. Kahe võttega objekti tuvastamine
Objektituvastusalgoritmide võrdlemisel on üks oluline erinevus, mida tuleb arvesse võtta, valik ühe- ja kahevõtmeliste tuvastamismeetodite vahel.
Ühe kaadriga objektituvastusalgoritmid, nagu YOLO, pakuvad arvutusliku efektiivsuse eelist, tehes ennustusi sisendpildi ühe käiguga. See muudab need sobivaks reaalajas rakenduste ja ressurssidega piiratud keskkondade jaoks. Siiski võivad ühe lasuga tuvastusmeetoditel olla piiranguid väikeste objektide täpsel tuvastamisel ja need võivad üldiselt olla vähem täpsed võrreldes kahe lasuga tuvastamismeetoditega.
Kahe võttega objektituvastusmeetodid seevastu hõlmavad sisendpildi kahte läbimist, kusjuures esimene läbimine genereerib objekti ettepanekuid ja teine käik täpsustab neid ettepanekuid. Kuigi need pakuvad suuremat täpsust, on need arvutuslikult kallimad ja ei pruugi reaalajas rakenduste jaoks sobida.
Valik ühe ja kahe kaadri objektituvastuse vahel sõltub rakenduse spetsiifilistest nõuetest ja piirangutest, tasakaalustades täpsust ja arvutuslikku efektiivsust.
Põhimõõdikud objektide tuvastamise mudelite hindamiseks
Üks oluline aspekt, mida objektide tuvastamise mudelite hindamisel arvesse võtta, on nende toimivuse mõõtmiseks vajalike põhimõõdikute valik. Objektide tuvastamise mudelite hindamine esitab mitmeid väljakutseid, sealhulgas vajadus objektide täpse ja tõhusa tuvastamise järele erinevates keskkondades ning võime käsitleda mitmesuguseid objektide suurusi ja oklusioone.
Nende probleemide lahendamiseks on objektide tuvastamise algoritmide jaoks välja pakutud erinevad hindamismõõdikud. Üks sagedamini kasutatav mõõdik on ristmik üle liidu (IoU), mis mõõdab prognoositud piirdekastide lokaliseerimise täpsust. Keskmine täpsus (AP) on veel üks oluline mõõdik, mis mõõdab mudeli jõudlust erinevates klassides. Objektituvastusmudelite otsustusvõime hindamiseks kasutatakse tavaliselt ka täpsust ja meeldetuletust.
YOLO areng: versioonid ja täiustused
Objektide tuvastamiseks laialdaselt kasutatava algoritmi YOLO arengut saab näha selle versioonide ja pidevate täiustuste kaudu. Kinnitatud väljalase YOLO v8 peaks tooma uusi funktsioone ja paremat jõudlust. Uue API ja varasemate YOLO versioonide toega on selle eesmärk parandada algoritmi võimalusi.
Teiste objektituvastusalgoritmidega võrdlevas analüüsis on YOLO näidanud oma tugevaid külgi reaalajas jõudluse ja tõhususe osas. Siiski on seda üldiselt peetud kahelasuliste detektoritega võrreldes vähem täpseks. Eeldatakse, et YOLO v8 kõrvaldab need piirangud ja vähendab veelgi täpsuse puudujääke oma kolleegidega.
Parema jõudluse ja uute funktsioonide lubadusega on YOLO v8 seatud kindlustama oma positsiooni objektide tuvastamise juhtiva algoritmina.
YOLO V2: ankurkastid ja uus kadumise funktsioon
YOLO V2 muutis objektide tuvastamise revolutsiooni, lisades ankurduskastid ja tuues kasutusele uue kadufunktsiooni. See edasiminek tõi YOLO algoritmi jõudlusesse olulisi täiustusi.
Vaatame lähemalt nende muudatuste mõju:
Ankurduskastide eelised:
- Ankrukastid on erineva suuruse ja kuvasuhtega eelmääratletud piirdekastid.
- Need võimaldavad mudelil erineva kuju ja suurusega objekte täpsemalt ennustada.
- Ankrukastid annavad eelteadmisi objektide kohta, aidates kaasa täpsele lokaliseerimisele.
Kaofunktsiooni mõju YOLO v2 jõudlusele:
- Uus kadufunktsioon võtab arvesse nii klassifitseerimis- kui ka lokaliseerimisvigu.
- See karistab ebaõigete ennustuste eest tõhusamalt, mis tagab parema täpsuse.
- Kaofunktsioon julgustab mudelit keskenduma ka erineva ulatuse ja kuvasuhtega objektide ennustamisele.
YOLO V3: CNN-i arhitektuuri- ja funktsioonipüramiidvõrgud
YOLO V3 algoritm tutvustas konvolutsioonilise närvivõrgu (CNN) arhitektuuri ja püramiidvõrke, tuues objektide tuvastamisse olulisi edusamme. YOLO V3 on oma tõhususe ja täpsuse tõttu leidnud laialdasi rakendusi objektide reaalajas tuvastamisel. See ületab kiiruse ja tuvastamise jõudluse poolest YOLO ja teiste objektituvastusalgoritmide eelmisi versioone.
YOLO V3 CNN-i arhitektuur võimaldab võrgul õppida keerulisi funktsioone ja teha ennustusi mitmel skaalal. See võimaldab YOLO V3-l tuvastada erineva suurusega objekte täpselt.
Funktsioonipüramiidvõrgud täiustavad veelgi tuvastamisvõimalusi, kaasates võrgu erinevate kihtide mitmemõõtmelisi funktsioone. See võimaldab YOLO V3-l tõhusamalt käsitleda objekte erineva skaala ja kuvasuhtega.
YOLO V4 kuni V7: edusammud ja uusimad arendused
Pärast YOLO v4 väljalaskmist 2020. aastal on järgnevad versioonid (v5, v6 ja v7) toonud kaasa olulisi edusamme ja uusimaid arenguid YOLO objektide tuvastamise algoritmi. Need edusammud on avaldanud sügavat mõju reaalajas kasutatavatele rakendustele, muutes revolutsiooniliselt arvuti nägemisvälja.
Siin on mõned peamised esiletõstmised:
- Täiustatud täpsus ja kiirus: YOLO v4 tutvustas uut CNN-i arhitektuuri, genereeris ankurduskastid k-keskmiste klastrite abil ja kasutas GHM-i kadu. Need täiustused suurendasid täpsust ja kiirendasid töötlemisaega, muutes YOLO reaalajas rakenduste jaoks tõhusamaks.
- Täiustatud objektide tuvastamise võimalused: YOLO v5 sisaldas EfficientDet arhitektuuri, dünaamilisi ankurduskaste ja ruumilise püramiidi ühendamist (SPP), mis parandab veelgi objektide tuvastamise jõudlust, eriti väikeste objektide puhul.
- Tipptasemel jõudlus: YOLO v7, uusim versioon, kasutab üheksat ankurduskasti, fookuse kadu ja suuremat eraldusvõimet, et saavutada veelgi parem täpsus ja kiirus.
Need objektide tuvastamise edusammud on avanud uusi võimalusi paljude rakenduste jaoks, sealhulgas seire, autonoomsed sõidukid ja robootika, andes kasutajatele täiustatud võimalused objektide reaalajas tuvastamiseks.
Korduma kippuvad küsimused
Kuidas on YOLO täpsuse ja arvutusliku efektiivsuse poolest võrreldav teiste objektituvastusalgoritmidega?
Täpsuse ja arvutusliku efektiivsuse poolest on YOLO (You Only Look Once) teiste objektituvastusalgoritmidega võrreldes soodne. Võrreldes Faster R-CNN-iga pakub YOLO kiiremat järelduste kiirust tänu ühekordse tuvastusmeetodile.
Siiski võib YOLO ohverdada teatud täpsust, eriti väikeste objektide tuvastamisel. See kompromiss täpsuse ja kiiruse vahel on objektide tuvastamise algoritmides tavaline kaalutlus.
Lõppkokkuvõttes sõltub valik YOLO ja muude algoritmide vahel rakenduse spetsiifilistest nõuetest ja piirangutest.
Millised on ühe võttega objektituvastuse eelised ja puudused võrreldes kahe kaadriga objektituvastusega?
Objekti ühe kaadriga tuvastamise eelised hõlmavad järgmist:
- Reaalajas jõudlus
- Sobivus piiratud ressurssidega keskkondadesse
Objekti ühe kaadriga tuvastamine kasutab sisendkujutise ühte läbimist, muutes selle arvutuslikult tõhusaks. See võib aga olla vähem täpne, eriti väikeste objektide tuvastamisel.
Teisest küljest pakub kahe võttega objektituvastus järgmist:
- Suurem täpsus kahe läbimise abil
- Objektiettepanekute täpsustamine
Kahe võttega objektituvastus sobib paremini rakendustele, kus täpsus on reaalajas jõudluse ees prioriteet.
Valik nende kahe vahel sõltub konkreetsetest nõuetest ja piirangutest.
Kas saate selgitada liite (Iou) mõõdiku ristmikku ja seda, kuidas seda kasutatakse objektide tuvastamise mudelite hindamiseks?
Objektide tuvastamise mudelite täpsuse hindamiseks kasutatakse tavaliselt ristmikku üle ühenduse (IoU). See mõõdab kattuvust objekti ennustatud piirdekasti ja põhitõe piirdekasti vahel. Kõrge IoU näitab paremat lokaliseerimise täpsust.
Lisaks objektituvastusmudelite hindamisele on IoU mõõdikul rakendusi ka muudes valdkondades, nagu piltide segmenteerimine ja jälgimine.
Objektide tuvastamise mudelite täpsuse parandamiseks saab IoU mõõdiku alusel kasutada selliseid tehnikaid nagu mittemaksimaalne summutus ja ankurduskasti täpsustamine.
Millised on peamised erinevused ja täiustused, mis on igas YOLO versioonis (V2, V3, V4, V5, V6, V7) kasutusele võetud?
Peamised erinevused ja täiustused, mis on igas YOLO versioonis (v2, v3, v4, v5, v6, v7) kasutusele võetud, on märkimisväärsed.
YOLO v2 sisaldas ankurduskaste ja uut kadufunktsiooni.
YOLO v3 tutvustas uut CNN-i arhitektuuri, erineva skaala ja kuvasuhtega ankurduskaste ning funktsioonipüramiidvõrke (FPN).
YOLO v4 tutvustas uut CNN-i arhitektuuri, genereeris ankurduskastid k-keskmiste klastrite abil ja kasutas GHM-i kadu.
YOLO v5 kasutas EfficientDeti arhitektuuri, dünaamilisi ankurduskaste ja ruumilise püramiidi ühendamist (SPP).
YOLO v6 kasutas EfficientNet-L2 arhitektuuri ja tutvustas tihedaid ankurduskaste.
YOLO v7, uusim versioon, kasutab täpsuse ja kiiruse parandamiseks üheksat ankurduskasti, fookuse kadu ja suuremat eraldusvõimet.
Need YOLO versioonid on varasemate versioonide ja muude objektituvastusalgoritmidega võrreldes teinud olulisi täiustusi nii täpsuse kui ka tõhususe osas.
Valik ühe ja kahe kaadri objektituvastuse vahel sõltub rakenduse spetsiifilistest nõuetest ja piirangutest.
Kas YOLO järgmises versioonis (V8) on oodata mingeid eelseisvaid funktsioone või täiustusi?
Tulevasi funktsioone ja täiustusi võib oodata YOLO järgmises versioonis, nimelt YOLO v8.
Väga oodatud väljalasena lubab YOLO v8 tuua uusi funktsioone ja paremat jõudlust.
Uue API ja varasemate YOLO versioonide toega saavad kasutajad oodata täiustatud funktsioone ja suuremat paindlikkust objektide tuvastamise ülesannetes.
Lisaks võib YOLO v8 tuua kaasa edusamme sellistes valdkondades nagu täpsus, kiirus ja mudeliarhitektuur, nihutades veelgi objektituvastusalgoritmide piire.
Järeldus
Kokkuvõtteks võib öelda, et YOLO objektide tuvastamise algoritm on aastate jooksul märkimisväärselt arenenud, võttes kasutusele täiustusi, nagu ankurkastid, erinevad CNN-i arhitektuurid, funktsioonipüramiidvõrgud ja dünaamilised ankrukastid.
Need edusammud on võimaldanud YOLO-l saavutada reaalajas jõudlust ja muuta selle sobilikuks piiratud ressurssidega keskkondades.
Oma jätkuva arenduse ja YOLO v7 väljalaskmisega täiustab algoritm jätkuvalt objektide tuvastamise võimalusi, muutes selle väärtuslikuks tööriistaks erinevates valdkondades, nagu valve, isejuhtivad autod ja robootika.