in

Co jsou velká data a jakým problémům čelíme při jejich zpracování?

 “Data jsou novou ropou (Data is the new oil)”

– Clive Humby, Britský matematik

V dnešní době všudypřítomná data lze, podobně jako ropu, považovat za zdroj. Zdroj, skrývající mnoho užitečných informací, které stačí objevit a zpeněžit. Tím, jak naše civilizace generuje obrovské, a čím dál tím více narůstající množství dat, objevují se další a další možnosti, jak tato všudypřítomná data využít.

Od devadesátých let minulého století se pro určité scénáře, týkající se dat, objevuje anglický termín big data – čili česky veledata, nebo velká data.

Tento termín se snaží popsat situaci, kdy je jich pro určitý subjekt dostupné velké množství. Toto množství je ale už na hraně schopností nástrojů, používaných pro jejich sběr, správu a zpracování, to vše provedené v rozumném čase a za rozumné náklady. Neexistuje ale statická veličina, limit, který určuje od kdy se již dá hovořit o velkých datech. Jedná se dynamickou hranici, která v průběhu času narůstá (a to díky neustále rostoucímu výkonu hardwaru a nově objevujícím se možnostem, jak s těmito daty zacházet), a je také dána schopnostmi a možnostmi toho určitého subjektu.

Některé firmy mohou mít problém se zpracováním pouhých několika gigabytů dat, pro jiné může být zase rychlé zpracování a analýza terabytů dat hračkou.

Velikost souboru dat, se kterými chce daný subjekt pracovat, není jedinou charakteristikou, řadící daná data mezi velká data. Jako další charakteristiku lze zahrnout i „komplikovanost“ a různorodost dat.

Větší množství dat může nabízet větší přesnost z pohledu jejich analýzy, ale pokud jsou tato data složitější, mohou ve výsledku vést k větším nepřesnostem.

Rostoucí množství zdrojů dat přináší, kromě zvětšující se různorodosti, také problémy s jejich kvalitou. A s případnou syntézou dat, přicházejících z různých nezávislých zdrojů. Data se stávají méně jasnými.

Pro popis obecných charakteristik, reprezentujících velká data, se používají anglická slova, začínající na V:

Volume (množství)

První vlastností velkých dat je vygenerované a uložené množství. Tento objem narůstá exponenciálně. Velikost dat nám umožňuje rozhodnout, zda už lze danou množinu dat považovat za velká data, nebo ne.

Velocity (rychlost)

Vysoká rychlost, s jakou jsou data generována a zpracována pro splnění požadavků podnikání, je další vlastností. Existují případy, kdy je třeba okamžitě zpracovat velké množství průběžně generovaných dat.

Variety (různorodost)

Typ a původ dat. Nestrukturovaný text, či multimediální data ve formě obrázků, audio, video, a jejich následná kombinace. Data, která nejsou uspořádána, a mohou podstatně ztížit jejich analýzu. Může se například jednat o nestrukturovaný text ze sociálních médií.

Veracity (věrohodnost)

Velké množství a rychlost kontinuálně vytvářených dat, pocházejících z různých zdrojů, může vést k jejich různorodé úrovni konzistence, úplnosti, validitě atd. Kvalita dat může významně ovlivnit přesnost analýz. Velká data často znamenají nevěrohodná data a jejich nepřesnost se může zvyšovat s jejich velikostí.

Problémy, kterým je třeba čelit

Většina dat, která je vygenerována v rámci firemních operací, je často ignorována, či je použita pouze za jedním účelem.

Pod operacemi, zabývajícími se daty, se skrývá například jejich sběr, ukládání, sdílení, přenos, vyhledávání, zobrazování atd.

S některými daty se pracuje špatně, zvláště pokud mají složitější strukturu, a je potřeba je například převést do jiného formátu, vhodnějšího pro další analýzu.

Tyto operace ale umožňují využít potenciál v datech ukrytý, objevit informace, které se v jednotlivých dílčích souborech dat nevyskytují (například nové informace, které se mohou ukrývat v kombinaci informací o pohybu mobilních telefonů s informacemi o počasí či dopravě).

Obrovský potenciál skrývají zdroje průběžně generovaných dat, jejichž zdroji mohou být například mobilní zařízení, různé senzory či sociální sítě.

Více analýz nad větším množstvím dat umožňuje získat nové poznatky, použitelné dále v podnikání. Umožňují objevit nové obchodní modely a možnosti, jak zvýšit zisk.

Nové informace také umožňují zefektivnit podnikové operace a integrovat získané poznatky do jednotlivých operací. Vhodně navržené systémy pro práci s různými daty mohou poskytnout zaměstnancům unifikovaný přístup k informacím, obsaženým v dostupných datech.

Mnoho organizací provádí analýzu velkých dat, aby nalezlo průlomové poznatky, které jim poskytnou konkurenční výhodu.

Aplikací nových způsobů analýzy, například za pomocí umělé inteligence, lze v reálném čase získávat důležité informace.

Na některé z případů, ve kterých přináší zpracování velkých dat velký přínos, se podíváme příště.

Zdroj fotografie: https://pixabay.com/cs/photos/velk%C3%A9-%C3%BAdaje-kl%C3%A1vesnice-po%C4%8D%C3%ADta%C4%8D-3520096/

What do you think?

1 point
Upvote Downvote

Comments

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Loading…

0

Comments

0 comments

Chápou počítače opravdu obrázky? A co rozpoznávání videa a samořídící auta?

Jak vypadají systémy pro práci s velkými daty a jaké jsou oblasti, ve kterých velká data využijeme