Programování

Co je to analýza velkých dat? Rychlé odpovědi z různých datových sad

K dispozici jsou data a poté velká data. V čem je tedy rozdíl?

Jsou definována velká data

Jasnou definici velkých dat může být obtížné určit, protože velká data mohou pokrýt mnoho případů použití. Obecně se však tento termín vztahuje na soubory dat, které mají tak velký objem a jsou tak složité, že tradiční softwarové produkty pro zpracování dat nejsou schopny zachytit, spravovat a zpracovat data v rozumném čase.

Tyto velké datové sady mohou zahrnovat strukturovaná, nestrukturovaná a polostrukturovaná data, z nichž každou lze získat pro přehledy.

O tom, kolik dat ve skutečnosti představuje „velká“, se dá diskutovat, ale obvykle to může být v násobcích petabajtů - a pro největší projekty v rozsahu exabajtů.

Velká data se často vyznačují třemi V:

  • extrém objem dat
  • do zahraničí odrůda typů dat
  • the rychlost kdy je třeba data zpracovat a analyzovat

Data, která tvoří velká úložiště dat, mohou pocházet ze zdrojů, které zahrnují webové stránky, sociální média, počítače a mobilní aplikace, vědecké experimenty a - stále častěji - senzory a další zařízení v internetu věcí (IoT).

Koncept velkých dat přichází se sadou souvisejících komponent, které organizacím umožňují praktické využití dat a řešení řady obchodních problémů. Patří mezi ně IT infrastruktura potřebná k podpoře big data technologií, analytika aplikovaná na data; platformy velkých dat potřebné pro projekty, související sady dovedností a skutečné případy použití, které mají smysl pro velká data.

Co je to datová analytika?

To, co skutečně přináší hodnotu ze všech velkých datových organizací, které shromažďují, je analytika aplikovaná na data. Bez analytiky, která zahrnuje zkoumání dat za účelem objevování vzorů, korelací, poznatků a trendů, jsou data jen hromadou jedniček a nul s omezeným obchodním využitím.

Díky aplikaci analytiky na velká data mohou společnosti vidět výhody, jako je vyšší prodej, lepší služby zákazníkům, vyšší efektivita a celkové zvýšení konkurenceschopnosti.

Analýza dat zahrnuje prozkoumání datových sad s cílem získat přehled nebo vyvodit závěry o tom, co obsahují, například trendy a předpovědi o budoucí činnosti.

Analýzou informací pomocí nástrojů pro analýzu velkých dat mohou organizace přijímat lépe informovaná obchodní rozhodnutí, například kdy a kde spustit marketingovou kampaň nebo představit nový produkt nebo službu.

Analytics může odkazovat na základní aplikace business intelligence nebo pokročilejší prediktivní analýzy, jaké používají vědecké organizace. Mezi nejpokročilejší typy datových analytik patří dolování dat, kde analytici vyhodnocují velké datové sady za účelem identifikace vztahů, vzorů a trendů.

Analýza dat může zahrnovat průzkumnou analýzu dat (k identifikaci vzorců a vztahů v datech) a potvrzovací analýzu dat (použití statistických technik ke zjištění, zda je předpoklad o konkrétní sadě dat pravdivý.

Dalším rozdílem je kvantitativní analýza dat (nebo analýza numerických dat, která má kvantifikovatelné proměnné, které lze statisticky porovnat) vs. kvalitativní analýza dat (která se zaměřuje na nečíselná data, jako je video, obrázky a text).

IT infrastruktura pro podporu velkých dat

Aby koncept velkých dat fungoval, musí organizace mít zavedenou infrastrukturu pro shromažďování a uchovávání dat, poskytování přístupu k nim a zabezpečení informací během skladování a přenosu. To vyžaduje nasazení analytických nástrojů pro velká data.

Na vysoké úrovni mezi ně patří úložné systémy a servery určené pro velká data, software pro správu a integraci dat, software pro business intelligence a analýzu dat a aplikace pro velká data.

Velká část této infrastruktury bude pravděpodobně místní, protože společnosti budou i nadále využívat své investice do datových center. Organizace se však stále častěji spoléhají na služby cloud computingu, aby zvládly většinu svých požadavků na velká data.

Shromažďování dat vyžaduje zdroje ke shromažďování dat. Mnoho z nich - například webové aplikace, kanály sociálních médií, mobilní aplikace a e-mailové archivy - již existuje. Ale jak se IoT zakořenilo, společnosti možná budou muset nasadit senzory na nejrůznějších zařízeních, vozidlech a produktech, aby shromažďovaly data, stejně jako nové aplikace, které generují data uživatelů. (Analýza velkých dat zaměřená na internet věcí má své vlastní specializované techniky a nástroje.)

Aby organizace mohla ukládat všechna příchozí data, musí mít k dispozici odpovídající úložiště dat. Mezi možnosti úložiště patří tradiční datové sklady, datová jezera a cloudové úložiště.

Mezi nástroje bezpečnostní infrastruktury patří šifrování dat, ověřování uživatelů a další řízení přístupu, monitorovací systémy, brány firewall, správa podnikové mobility a další produkty na ochranu systémů a dat,

Technologie velkých dat

Kromě výše uvedené IT infrastruktury používané pro data obecně. Existuje několik technologií specifických pro velká data, která by měla vaše IT infrastruktura podporovat.

Ekosystém Hadoop

Hadoop je jednou z technologií, která je nejvíce spojena s velkými daty. Projekt Apache Hadoop vyvíjí software s otevřeným zdrojovým kódem pro škálovatelné distribuované výpočty.

Softwarová knihovna Hadoop je rámec, který umožňuje distribuované zpracování velkých datových sad napříč klastry počítačů pomocí jednoduchých programovacích modelů. Je navržen tak, aby se mohl škálovat z jednoho serveru na tisíce, z nichž každý nabízí místní výpočet a úložiště.

Projekt zahrnuje několik modulů:

  • Hadoop Common, běžné nástroje, které podporují další moduly Hadoop
  • Systém distribuovaných souborů Hadoop, který poskytuje vysoce propustný přístup k datům aplikací
  • Hadoop YARN, rámec pro plánování úloh a správu prostředků klastru
  • Hadoop MapReduce, systém založený na PŘÍZE pro paralelní zpracování velkých datových sad.

Apache Spark

Součástí ekosystému Hadoop je Apache Spark otevřený clusterový výpočetní rámec, který slouží jako motor pro zpracování velkých dat v rámci Hadoop. Spark se stal jedním z klíčových frameworků pro zpracování velkých objemů dat distribuovaných a lze jej nasadit různými způsoby. Poskytuje nativní vazby pro programovací jazyky Java, Scala, Python (zejména distrakce Anaconda Python) a R (R je zvláště vhodný pro velká data) a podporuje SQL, streamování dat, strojové učení a zpracování grafů.

Datová jezera

Data lakes jsou úložiště, která uchovávají extrémně velké objemy nezpracovaných dat v nativním formátu, dokud data nepotřebují obchodní uživatelé. Iniciativy digitální transformace a růst IoT pomáhají podporovat růst datových jezer. Data lakes jsou navržena tak, aby uživatelům usnadnila přístup k obrovskému množství dat, když to bude potřeba.

NoSQL databáze

Konvenční databáze SQL jsou navrženy pro spolehlivé transakce a dotazy ad hoc, ale přicházejí s omezeními, jako je rigidní schéma, které je činí méně vhodnými pro některé typy aplikací. Databáze NoSQL řeší tato omezení a ukládají a spravují data způsoby, které umožňují vysokou provozní rychlost a velkou flexibilitu. Mnohé z nich byly vyvinuty společnostmi, které hledaly lepší způsoby ukládání obsahu nebo zpracování dat pro rozsáhlé webové stránky. Na rozdíl od databází SQL lze mnoho databází NoSQL horizontálně škálovat přes stovky nebo tisíce serverů.

Paměťové databáze

Databáze v paměti (IMDB) je systém správy databáze, který se při ukládání dat primárně spoléhá na hlavní paměť, nikoli na disk. Databáze v paměti jsou rychlejší než databáze optimalizované pro disk, což je důležitý faktor pro použití analýzy velkých dat a vytváření datových skladů a datových trhů.

Velké datové dovednosti

Snaha o big data a analýzu velkých dat vyžaduje specifické dovednosti, ať už pocházejí zevnitř organizace nebo prostřednictvím externích odborníků.

Mnoho z těchto dovedností souvisí s klíčovými komponenty velkých datových technologií, jako jsou Hadoop, Spark, databáze NoSQL, databáze v paměti a analytický software.

Jiné jsou specifické pro disciplíny, jako je datová věda, dolování dat, statistická a kvantitativní analýza, vizualizace dat, programování pro všeobecné účely a datová struktura a algoritmy. Je také nutné, aby lidé s celkovými manažerskými dovednostmi mohli projekty big data vidět až do dokončení.

Vzhledem k tomu, jak se staly běžné projekty velké analýzy dat a nedostatku lidí s těmito typy dovedností, může být hledání zkušených odborníků jednou z největších výzev pro organizace.

Případy použití analýzy velkých dat

Big data a analýzy lze použít na mnoho obchodních problémů a případů použití. Zde je několik příkladů:

  • Analýza zákazníků. Společnosti mohou zkoumat údaje o zákaznících za účelem zlepšení zákaznické zkušenosti, zlepšení konverzních poměrů a zvýšení retence.
  • Provozní analytika. Cíle mnoha společností jsou zlepšení provozního výkonu a lepší využití podnikových aktiv. Nástroje pro analýzu velkých dat mohou podnikům pomoci najít způsoby, jak pracovat efektivněji a zlepšit výkon.
  • Prevence podvodů. Nástroje a analýza velkých dat mohou organizacím pomoci identifikovat podezřelou aktivitu a vzory, které by mohly naznačovat podvodné chování a pomáhat zmírňovat rizika.
  • Optimalizace cen. Společnosti mohou pomocí analýzy velkých dat optimalizovat ceny, které účtují za produkty a služby, a pomáhat tak zvyšovat příjmy.