in

Chápou počítače opravdu obrázky? A co rozpoznávání videa a samořídící auta?

V posledních letech došlo k bouřlivému rozvoji architektury konvolučních neuronových sítí. Ty se postupně zjednodušují a jejich přesnost se zvyšuje. Současné algoritmy se dostaly až tak daleko, že například v roce 2015 představil Microsoft algoritmus, který podle něj dosáhl při identifikaci objektů na obrázcích vyšší přesnosti než lidé. O něco později oznámil podobný výsledek také Google.

U konvolučních neuronových sítí, jak už název napovídá, se opět setkáváme s operací konvoluce (zmíněnou v předchozím článku). V podstatě se jedná o vícevrstvé umělé neuronové sítě, které tuto operaci používají alespoň na jedné ze svých vrstev.

Stejně jako u vizuálního kortexu, také zde umělé neurony na nejnižší vrstvě analyzují pouze část celkového obrazu. A podobně jako u této části mozku nejnižší vrstvy jsou schopné rozpoznat jednotlivé hrany, vyšší vrstvy pak jednoduché tvary. Čím výše v těchto vrstvách jdeme, tím abstraktnější vlastnosti dokáží tyto vrstvy detekovat. A nahoře, na základě informací přicházejících z nižších vrstev, pak dokáží neurony odhadnout, zda se na obrázku nachází například kočka či pes.

FOTO: Na tomto obrázku můžete vidět obecnou strukturu konvolučních neuronových sítí, s postupnou aplikací operace konvoluce a použitím několika vrstev umělých neuronů pro rozhodování (Zdroj: wikipedia.org)

Je toho ale více, co můžeme pro zpracování obrazu použít

Konvoluční neuronové sítě ale mají také svá úskalí, a jedním z nich je například to, že se při průchodu signálu jednotlivými vrstvami postupně ztrácí další užitečné informace – například prostorová informace jednotlivých částí obrazu. Proto tak mohou v obraze, u kterého bychom to neřekli, detekovat například tváře či jiné věci.

Tento problém se se snaží vyřešit tzv. kapsulové neuronové sítě. Ty se snaží během zpracování určitého obrázku uchovat více informací a obsahují tak i informace o orientaci a umístění jednotlivých objektů v prostoru.

Nevýhodou tohoto přístupu je potřeba manuální tvorby složitějších trénovacích dat. Zatím také nedosahují oslňujících výkonů při zpracování větších souborů dat.

Ulehčit trénování neuronových sítí nám obecně umožňuje tzv. transfer learning. Jde v podstatě o využití již natrénovaných nižších vrstev hluboké neuronové sítě, která již byla použita při řešení obdobného problému. Tyto nižší vrstvy již mají naučeny základní koncepty podobného problému, a nám zbývá pouze dotrénovat vyšší vrstvy pro specializaci k práci s nově řešeným problémem.

A co taková analýza videa? Zde lze použít upravenou architekturu konvolučních neuronových sítí, využívající principy jiné architektury neuronových sítí, tzv. rekurentních.

Tato architektura je schopna za pomoci zpětné vazby, vedoucí z vyšších vrstev sítě do nižších, zapamatovat si informace, extrahované z předchozích snímků videa a ovlivnit tak výsledný výstup sítě.

Rekurentní neuronové sítě se obecně hodí na práci s daty, u kterých potřebujeme analyzovat vztah mezi jednotlivými vzorky sekvenčně postupujících dat. Nemusí se nutně jednat o obrazový signál.

Pro pochopení toho, co se na vnímané scéně děje, nám může pomoci tzv. sémantická segmentace obrazu. Ta nám umožňuje obraz rozdělit do více částí a pomoci nám s porozuměním zobrazené situace.

VIdeo: Fei-Fei Li: Jak učíme počítače chápat obrázky

Tyto informace pak můžeme postoupit výše a ve spojení s dalšími informacemi tak můžeme vytvořit systém, který dokáže na základě analyzované scény například rozhodnout o provedení nějaké akce.

Dobrým příkladem takového systému mohou být samořídící auta. Ta dokáží na základě syntézy dat z různých senzorů (například prostorových informací z LIDARu či informací o své aktuální poloze) spolu se zpracovaným obrazovaným signálem (jehož součástí je například detekce dopravních značek či okolních vozidel a jejich umístění v prostoru) a následně provedenými akcemi ve výsledku dopravit člověka či náklad za měnících se podmínek z bodu A do bodu B.

U samořídících automobilů a dalších autonomních zařízení ale využití těchto technologií nekončí a budoucnost nám jistě přinese další velmi zajímavá řešení.

Úvodní foto ilustrační, zdroj: https://pixabay.com/cs/illustrations/inteligence-mozek-mysl-my%C5%A1len%C3%AD-544406/

What do you think?

0 points
Upvote Downvote

Comments

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Loading…

0

Comments

0 comments

Co je za technologiemi pro rozpoznávání tváří? Inspirací je biologie

Co jsou velká data a jakým problémům čelíme při jejich zpracování?