Rychlá data: Další krok po velkých datech

Způsob, jakým se velká data zvětšují, je neustálý proud příchozích dat. Ve velkoobjemových prostředích tato data přicházejí neuvěřitelnou rychlostí, přesto je třeba je analyzovat a ukládat.

John Hugg, softwarový architekt společnosti VoltDB, navrhuje, že místo toho, abychom tato data jednoduše ukládali, abychom je mohli později analyzovat, možná jsme dospěli do bodu, kdy je lze analyzovat, jak jsou přijímány, a přitom stále udržovat extrémně vysokou míru příjmu pomocí nástrojů, jako je Apache Kafka.

- Paul Venezia

Před méně než tuctem let bylo téměř nemožné si představit analýzu petabajtů historických dat pomocí komoditního hardwaru. Dnes jsou klastry Hadoop vytvořené z tisíců uzlů téměř běžné. Technologie otevřeného zdroje, jako je Hadoop, znovu představily, jak efektivně zpracovávat petabajty na petabajty dat pomocí komodit a virtualizovaného hardwaru, což tuto možnost levně zpřístupní vývojářům všude. Ve výsledku se objevilo pole velkých dat.

Podobná revoluce se děje s takzvanými rychlými daty. Nejprve definujme rychlá data. Velká data jsou často vytvářena daty, která se generují neuvěřitelnou rychlostí, jako jsou data o kliknutí, finanční ticker, agregace protokolů nebo data ze senzorů. Tyto události se často vyskytují tisíce až desítky tisíckrát za sekundu. Není divu, že tento typ dat se běžně označuje jako „požární hadice“.

Když mluvíme o požárních hadicích ve velkých datech, neměříme objem v typických gigabajtech, terabajtech a petabajtech známých v datových skladech. Měříme objem z hlediska času: počet megabajtů za sekundu, gigabajty za hodinu nebo terabajty za den. Mluvíme o rychlosti i objemu, který je jádrem rozdílu mezi velkými daty a datovým skladem. Velká data nejsou jen velká; je to také rychlé.

Výhody velkých dat jsou ztraceny, pokud jsou nová, rychle se pohybující data z požární hadice uložena do HDFS, analytického RDBMS nebo dokonce plochých souborů, protože schopnost jednat nebo varovat právě teď, když se věci dějí, je ztracen. Požární hadice představuje aktivní data, okamžitý stav nebo data s průběžným účelem. Datový sklad je naopak způsob, jak se dívat na historická data, abychom porozuměli minulosti a předpovídali budoucnost.

Působení na data, jak přicházejí, je považováno za nákladné a nepraktické, ne-li nemožné, zejména u komoditního hardwaru. Stejně jako hodnota ve velkých datech se hodnota v rychlých datech odemyká díky reimagined implementaci front zpráv a streamovacích systémů, jako jsou open source Kafka a Storm, a reimagined implementaci databází se zavedením open source nabídek NoSQL a NewSQL .

Zachycení hodnoty v rychlých datech

Ke zpracování dat přicházejících v řádu desítek tisíc až milionů událostí za sekundu budete potřebovat dvě technologie: Za prvé, streamovací systém schopný doručovat události tak rychle, jak přicházejí; a za druhé, datové úložiště schopné zpracovávat každou položku tak rychle, jak ji dorazí.

Poskytování rychlých dat

Kafka byla navržena jako fronta zpráv a pro řešení vnímaných problémů stávajících technologií. Je to taková fronta s neomezenou škálovatelností, distribuovaným nasazením, multitenancí a silnou vytrvalostí. Organizace by mohla nasadit jeden kafkovský klastr, aby uspokojila všechny své potřeby ve frontě zpráv. Přesto Kafka v jádru doručuje zprávy. Nepodporuje zpracování ani dotazování jakéhokoli druhu.

Mohlo by se Vám také líbit