in

Jak vypadají systémy pro práci s velkými daty a jaké jsou oblasti, ve kterých velká data využijeme

Dnešní společnost dokáže vyprodukovat neuvěřitelné množství dat. Tento drahocenný zdroj ale v mnoha případech pouze leží ladem. Analýza těchto dat (velkých dat – které jsme si v předchozím článku charakterizovali za pomoci čtyř anglických slov, začínajících na V – Volume, Velocity, Variety, Veracity), ale dokáže společnostem, které jsou schopné tato data podchytit a v dostatečně rychlém čase zpracovat, přinést velkou konkurenční výhodu.

Ukázkové případy

Kde všude se s velkými daty můžeme setkat? Jedním z klasických případů analýzy velkých dat může být analýza dat o zákaznících firmy. Může pomoci objevit více informací o jejich chování, preferencích, a zlepšit s nimi například komunikaci.

Další užitečné informace lze získat z aktivity uživatelů na sociálních sítích, z obsahu emailové komunikace a různých dokumentů. Zde se může uplatnit zpracování přirozeného jazyka a případně analýza sentimentu, obsaženého v analyzovaném textu.

Zpracování komplexnějších dat také může pomoci s problémy, vyskytujícími se v medicíně, nezaměstnanosti, kriminalitě, bezpečnosti atd.

Například v medicíně nám může pomoci s její personalizací a například také se zpřesněním odhadu zdravotních rizik či předvídáním následků medikace a lékařských procedur, a to na základě většího množství dat z různých zdrojů (například data z nositelné elektroniky či digitálních snímků z medicínských zařízení).

Pojišťovací společnosti mohou například analyzovat data, jako jsou strava, velikost oblečení, množství času stráveného u televize či pohybem a ušít tak pojištění na míru pro jednotlivé zákazníky.

Další oblastí zájmu je například zpracování senzorových dat, generovaných v průmyslu a různých službách. Velké množství senzorických dat spolu s daty historickými vytváří velká data ve výrobě. Analýza těchto dat může pomoci se zlepšením dodávek výrobků a se zvýšením jejich kvality. Správný přístup ke zpracování velkých dat v průmyslu může vést k větší transparentnosti celého procesu a pomoci s odhalováním případných nekonzistencí a neefektivnosti při výrobě. Prediktivní výroba může v ideálním případě vést k nulovým prostojům a vysoké kvalitě výrobků, vyžaduje ale obrovské množství dat a pokročilé nástroje pro predikci a jejich zpracování. 

Zpracování velkých dat internetu věcí – různých kontinuálních dat, zaznamenaných mobilními zařízeními, anténami, kamerami, mikrofony, čtečkami RFID čipů, atd. – dokáže zlepšit také jiné oblasti, než je průmysl. Může pomoci s efektivnější distribucí produktů na pobočky prodejních sítí či s monitorováním životního prostředí. 

Data, zaznamenaná v energetických sítích zase mohou pomoci s předpovídáním spotřeby energie, s jejich optimalizací či s detekcí anomálií ve spotřebě.

A v neposlední řadě analýza strojových dat pomáhá přímo v oblasti IT. Prediktivní analytika záznamů logů, databázových transakcí či stavů jednotlivých sledovaných serverů může pomoci předpovídat potenciální problémy a pomoci s jejich řešením ještě předtím, než vůbec nastanou.

V dnešním více a více propojeném světě může analýza velkých dat také pomoci s rozšířením a zdokonalením tradičních bezpečnostních řešení na síti. 

Nutno dodat, že analýza velkých dat pomáhá i s novými objevy ve vědě – ukázkovými příklady mohou být data vyprodukovaná velkým hadronovým urychlovačem (generující během experimentálních srážek až 1 petabajt dat za sekundu), data generovaná astronomickými teleskopy (například projekt Pan-STARRS uvolnil ve svém druhém vydání přibližně 1,6 petabajtů dat) či například analýza lidského genomu.

Systém pro práci s velkými daty

A jak vypadají systémy umožňující práci s velkými daty?

Takový systém musí být schopen přijímat či přistupovat k datům z několika různých zdrojů. Musí být schopen dovolit uživateli k datům přistupovat v reálném čase. Vytvářet nad daty dotazy, vizualizovat výsledky a pomoci tak odhalit užitečné informace. Je také třeba myslet na soukromá data uživatelů a jejich ochranu.

Škálovatelnost takových systémů je velmi důležitá, spolu s jejich rozšiřitelností.

Pro manipulaci s daty jsou zapotřebí nástroje pro jejich paralelní zpracování. V některých případech je třeba software běžící paralelně na desítkách, stovkách či dokonce tisících serverů.

Jen pro obrázek, například mechanismus MapReduce, představený společností Google v roce 2004, umožňuje vytvořit nad daty dotaz, rozdělit jej na poddotazy, běžící paralelně na jednotlivých serverech systému, a poté všechny výsledky spojit dohromady a vrátit.

Tento mechanismus je implementován ve volně dostupném frameworku Apache Hadoop. Ten dokáže pracovat jako distribuovaný souborový systém, umožňující provádět operace nad uloženými daty (a to nejen MapReduce). Slouží jako základ pro implementaci dalších systémů pro práci s velkými daty. Díky tomu, že se jedná o open source projekt, lze ho nasadit i na vlastním hardwaru, s vlastními optimalizacemi, a vytvořit tak například privátní cloud.

Mezi open-source systémy, postavené na Hadoopu či rozšiřující jeho možnosti, patří například Apache Spark, Apache HBase, Apache Hive či Apache Pig.

Pro ukládání velkých dat existují samozřejmě i další technologie, umožňující pracovat s různě strukturovanými daty. Kromě klasických databází se používají třeba řešení, která nemusí plně odpovídat klasickému databázovému modelu (s daty nacházejícími se v tabulkách), ale na druhou stranu umožňují ve specifických případech pracovat s určitými daty efektivněji. Jedná se o takzvaný koncept NoSQL – zde mohou například, kromě jiných řešení, ne úplně odpovídajících konceptu SQL, patřit grafové databáze, kde jsou data reprezentována ve formě uzlů, spojených hranami.

Objevují se také řešení, ulehčující masivní škálování a paralelizaci operací nad velkými daty (můžete se zde setkat s termíny, jako jsou kontejnerizace, Docker, Kubernetes, cloud atd.).

Ekosystém těchto nástrojů se neustále vyvíjí a jistě se objeví další a další řešení, protože množství dat pro zpracování bude neustále narůstat a tento růst se jen tak nezastaví.

Zdroj fotografie: https://pixabay.com/cs/photos/s%C3%AD%C5%A5-server-syst%C3%A9m-infrastruktura-2402637/

What do you think?

0 points
Upvote Downvote

Comments

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Loading…

0

Comments

0 comments

Co jsou velká data a jakým problémům čelíme při jejich zpracování?

Jak vnímáme náš svět? A kolik rozměrů má vesmír?