Automatizálják a képszövegezést (is)

vajon hova vezetnek az új technológiák?

Emberi szöveg: Férfiak csoportja frizbit játszik a parkban. Gépi szöveg: “Egy csoport fatal ember frizni játékot játszik

Emberi szöveg: Férfiak csoportja frizbit játszik a parkban.
Gépi szöveg: “Egy csoport fiatal ember frizbi játékot játszik. Készítő ismeretlen

A Google újabb hihetetlennek tűnő fejlesztéssel állt elő. Egyre elképesztőbb pontossággal képesek automatizálni a képek leírását, ami hamarosan újabb területeken lesz majd képes kiváltani az emberi munkát.

Gépesítés minden területen
A túlbuzgó könyvtárosként viselkedő keresőóriás már eddig is számos fejlesztéssel rukkolt elő. Míg a képi karakterfelismerés, az OCR technológiáról még mindig sokan nem is tudják, hogy létezik, sok más területen is egyre nagyobb hatékonysággal dolgoznak az automatikus gépi konverziók. Ma már szinte minden okostelefon képes írott szövegeket szinte teljesen emberien felolvasni, diktálás alapján egyre elképesztőbb pontossággal gépelni. Egyre nagyobb rutinnal és pontossággal talál meg képeket a neten szöveg alapján és már jó ideje lehet képek alapján hasonló fotókat keresni, vagy éppen egy képen felismerni arcokat. A YouTube egy ideje már automatikusan generál feliratokat a feltöltött videókban elhangzó szöveghez és jó ideje szinte létezni se tud senki a még mindig elég pontatlan, de azért jobbára használható gépi fordító nélkül, ami egyre több alkalmazásba épül bele, hogy ne okozzon gondot megérteni a külföldi weboldalakat, vagy épp Facebook posztokat.

Emberi szöveg: Egy fatal hoki játékos játszik a jégen. Gépi szöveg: “Két hoki játékos küzd a korongért

Emberi szöveg: Egy fiatal hoki játékos játszik a jégen.
Gépi szöveg: “Két hoki játékos küzd a korongért.
Készítő ismeretlen

Mire való a képaláírás?
A legtöbb hobbi fotós talán nem nagyon lát fantáziát benne, hogy egy gép képes leírni, hogy mit is látunk a képen. Leginkább talán, mert ők úgyis emlékeznek a képeik zömére és keresni sem biztos, hogy úgy fognak köztük, mint egy idegen. Az újságok képszerkesztőségében és különösen a hír-, stock-, és egyéb fotó ügynökségeknél viszont a napi rutin része minél részletesebben leírni, hogy mi látható egy képen, hiszen az ügyfelek, az újságok képszerkesztői ezek alapján a leírások alapján találják meg a munkájukhoz szükséges fotókat. Ma még vagy az archívum kezelők (ahol még alkalmaznak ilyet), vagy a képszerkesztők, netán a fotósok feladata minél részletesebb leírással szoglálni, hogy mi látható egy képen. Viszont ha sikerülni fog ezt is kellő mértékben gépesíteni, azzal újabb teher alól szabadulhatnak fel az emberek és tovább nőhet a képkeresések találati pontossága.

Emberi szöveg: Egy személy motorozik egy sár borította motoron” Gépi szöveg: </ Egy személy motorozik egy földúton

Emberi szöveg: Egy személy motorozik egy sáros motoron”.
Gépi szöveg: Egy személy motorozik egy földúton.
Készítő ismeretlen

Mire jó ez a Google-nek?
Sok esetben csak az a képaláírás célja, hogy kiderüljön, mit látunk a képen. Kiegészítő információval szolgáljon a néző számára. Az igazán jól szerkesztett képaláírás viszont a hír- és képügynökségek esetében sem csak akkor informál, amikor már látod a képet, hanem minél több kulcsszót is tartalmaz, hogy aki egy adott téma illusztrálására keres fotót, az minél könnyebben megtalálja a legmefelelőbb képet.
Pont ugyanúgy, mint ahogyan a Google képkereső is működik. Beírod, hogy milyen képet szeretnél és reménykedsz benne, hogy a találatok között minél hamarabb lesz egy neked megfelelő.
A Google már eddig is olyan hatékonysággal működött ezen a területen, hogy sok szereksztőségben (nem is annyira viccesen) mondják, hogy “nekünk a Google a képügyökségünk”. Hiszen a Google (szinte?) minden netre feltöltött képet lát és ha akarja, akkor meg is találja neked. Ez persze állandóan felvet szerzőjogi kérdéseket, de erre most nem térek ki részletesebben.

Itt jön képbe az automatizálás. Voltak idők, amikor még lehetett a Google képkeresővel olyan “játékot” játszani, hogy ő képeket mutat neked (meg még sok másik felhasználónak) és egyszerű szavakkal be kellett írnod, hogy miket látsz a képen. Amit egy képhez minél többen beírtak, azt komolyan vette a rendszer és a kép az alapján jelent meg a keresési találatokban. Elvégre, ha nem csak egy valaki szerint vonatkozik a képre, akkor biztos van köze hozzá. Bevallom, hogy én csak 1-2 alkalommal szórakoztam ezzel a játékkal, de ha minden net használó csak egy pár képpel szórakozott, már az is elég szép adatbázist épített nekik. Nade mennyivel hatékonyabb, ha mindezt az unalomra és figyelmetlenségre képtelen számítógépek végzik elnyűhetetlenül a fáradékony emberek helyett.

A gép felismeri a kézfogást

A gép felismeri a kézfogást

Elképesztő, hol tart a technika
A NY Times pár napja írt róla, hogy a Google és több amerikai egyetem kutatói hol is tartanak a szoftveres képfelismerés és képszövegezési technológiák terén. A cikk azt írja, hogy korábban az ilyen képi felismerés viszonylag primitív volt, csak tárgyakat volt képes beazonosítani a képeken. Az újonnan bemutatott szoftverek viszont már képesek összetett kontextusokat felismerni a képeken és kerek mondatokban leírni azokat. Ez pedig elképesztő mértékben tovább fejlesztheti a Google kereső képességét, hiszen minden eddiginél eredményesebben kereshet majd a képek között és valószínűleg a videókkal is ugyanígy működni fog majd.

Szinte bármit felismer

Szinte bármit felismer

Az emberi agy a minta
Általában nem nagyon foglalkozzunk vele, hogy ez a technika hogyan működik, mi csak hasznaljuk. Pedig nagyon érdekes, hogy a kutatók jobbára az emberi agyban található neuron hálózat működését próbálják programokkal lemásolni, hogy a program az emberhez hasonlóan tanulóképessé váljon. Ez a tanuló képesség segíti a programokat, hogy akkor is felismerjék az adatok közötti kapcsolatokat és mintákat, amikor a készítőik képtelenek volnának azokat a kapcsolatokat leírni nekik, sőt talán maguk sem tudnak ezekről a mintákról. Az emberi agy minden más számítógép teljesítményét felülmúlja, de sokan gondolják úgy, hogy az agy működésének lemásolásával egyre gyorsabban zárkóznak fel hozzánk a műszaki eszközök.

Emberi szöveg: “Egy zöld sárkány szörny repül a napos égbolton.” Gépi szöveg: “Egy férfi repül a levegőben  szörfözés közben.” Készítő ismeretlen.

Emberi szöveg: “Egy zöld sárkány szörny repül a napos égen.”
Gépi szöveg: “Egy férfi repül a levegőben szörfözés közben.”
Készítő ismeretlen.

A képek leírására használt programokban két külön neuron hálót kombináltak. Az egyik a képek mintáinak felismerésével foglalkozik, a másik pedig az emberi nyelv mintáit tanuta meg, így lett képes elmondani, mi látható a képeken. Előbb csak néhány előre megszövegezett képet ismertettek meg a rendszerrel. Aztán, mikor a program ezeket a képeket már megismerte és megtanulta azok képi és szöveges jellegzetességeit, akkor korábban még nem látott képekkel próbálkoztak. A tanulási folyamat után a program közel kétszeres pontossággal volt képes azonosítani a fotókon látható tárgyakat és cselekvéseket. Persze még mindig nem volt sehol az emberi felismerő képességhez, de a kutatások folyamatosan zajlanak és akárcsak az emberi agy, a számítógépek is folyamatosan fejlődnek, így a kutatók bizakodóak.

Ugyanez a technológia a tévében Forrás: Célszemély soroazt

Ugyanez a technológia a tévében
Forrás: Célszemély sorozat

Kinek mi juttat eszébe
Nekem ugye rögtön a képaláírások és a keresés jutott eszembe. A kutatók tervei elsősorban azt célozzák, hogy az új technológia a vakoknak és robotoknak segítsen eligazodni a világban, de egy csomó más, hétköznapi felhasználásra is alkalmasak lesznek. Ugyanakkor adja magát a megfigyelési alkalmazás is. Az egyre gyakoribb térfigyelő kamerákra kötve nem csak az arcfelismerésben segíthet, hanem akár különféle viselkedés típusokat is felismerhet. Képes lehet akár emberi beavatkozás nélkül értesíteni a hatóságokat, amikor baleseteket, vagy bűncselekményeket észlel. Nem csak ez az utóbbi elgondolás, hanem az erre a technológiára épülő alkalmazások képei is nagyon emlékeztetnek a Célszemély című sorozatra, ami azért egy kicsit aggasztó jövőképet vázol fel.

VMX-visual-recognition-API4

Hétközbnapi alkalmazás

Bárki használhatja majd
A VMX projekt azt célozza, hogy a számítógépes képfelismerés lehetőségeivel bárki kísérletezni tudjon otthon, a saját számítógépén. A bostoni Vision.ai Kickstarteren gyűjt programja elkészítésére, amivel önálló programot és API támogatást kínálnának minden számítógép felhasználónak. Így programozási tudás nélkül is bárki használni tudná ezeket az új képfelismerési technológiákat és saját céljainak megfelelően alkalmazhatná őket. Mint a projektet bemutató szövegben írják: “Mi lenne, ha a számítógéped egy kicsit okosabbá válna? Mi lenne, ha a készülékeid tudnák, hogy mi zajlik körülöttük, mert látnának a kameráikkal? A VMX látásra képessé teszi a számítógéped. A VMX-el a játékok még érdekesebbé válhatnak, fokozható az interaktivitás a gépekkel és lehetővé teszi a napi feladatok egy jó részének automatizálását.”
A VMX program bármilyen képi információból képes dolgozni, legyen az egy fotó, webkamera kép, YouTube videó, vagy térkép. A programot megtaníthatod képelemek felismerésére és aztán megmondhatod neki, hogy mit kezdjen az így szerzett információval. Az alábbi bemutató videóban jól látható, hogy a program képes megkülönböztetni személyeket, végtagokat, cselekvéseket, megkülönböztetni foglalt és szabad helyeket egy parkolóban, sőt akár az autók tulajdonosait is felsimeri, amik valóban egy sor hétköznapi helyzet automatizálását lehetővé teszik.

Te mire használnál egy ilyen technológiát?

Kiegészítés: A képaláírásokban vétett helyesírási és fordítási hibák tőlem származnak, nem az írásban emlegetett kísérleti szoftver tehet róluk.

Oszd meg az ismerőseiddel és iratkozz fel a blog hírlevelére! Ne maradj le az újdonságokról!

Címkék