Programování

Recenze sněhové vločky: Datový sklad byl v cloudu vylepšen

Datové sklady, nazývané také podnikové datové sklady (EDW), jsou vysoce paralelní databáze SQL nebo NoSQL určené pro analýzu. Umožní vám importovat data z více zdrojů a rychle generovat komplikované zprávy z petabajtů dat.

Rozdíl mezi datovým skladem a datovým trhem spočívá v tom, že datový trh je obvykle omezen na jedno téma a jedno oddělení. Rozdíl mezi datovým skladem a datovým jezerem spočívá v tom, že datové jezero ukládá data v přirozeném formátu, často objekty blob nebo soubory, zatímco datový sklad ukládá data jako databázi.

Sněhová vločka ve zkratce

Snowflake je plně relační datový sklad ANSI SQL, který byl postaven od základu pro cloud. Jeho architektura odděluje výpočetní prostředky od úložiště, takže můžete průběžně škálovat nahoru a dolů bez zpoždění nebo narušení, i když jsou spuštěny dotazy. Výkon, který potřebujete, získáte přesně tehdy, když ho potřebujete, a platíte pouze za výpočet, který používáte. Sněhová vločka aktuálně běží na Amazon Web Services a Microsoft Azure.

Snowflake je plně sloupcová databáze s vektorizovaným prováděním, díky čemuž je schopna řešit i ty nejnáročnější analytické úlohy. Adaptivní optimalizace Snowflake zajišťuje, že dotazy automaticky získají nejlepší možný výkon bez správy indexů, distribučních klíčů nebo ladění.

Snowflake může podporovat neomezenou souběžnost s jedinečnou víceklastrovou sdílenou datovou architekturou. To umožňuje více výpočetním clusterům pracovat současně na stejných datech bez snížení výkonu. Sněhová vločka může dokonce automaticky škálovat, aby zvládla různé požadavky na souběžnost s funkcí víceklastrového virtuálního skladu, transparentně přidávat výpočetní zdroje během období špičkového zatížení a zmenšovat, když zatížení klesne.

Sněhová vločka konkurenti

Mezi konkurenty Snowflake v cloudu patří Amazon Redshift, Google BigQuery a Microsoft Azure SQL Data Warehouse. Ostatní hlavní konkurenti, jako jsou Teradata, Oracle Exadata, MarkLogic a SAP BW / 4HANA, mohou být nainstalováni v cloudu, v prostorách a na zařízeních.

Amazon Redshift

Amazon Redshift je rychlý a škálovatelný datový sklad, který vám umožní analyzovat všechna vaše data v datovém skladu a datovém jezeře Amazon S3. Dotazujete se na Redshift pomocí SQL. Datový sklad Redshift je klastr, který může automaticky nasadit a odebrat kapacitu se současným načtením dotazu. Všechny uzly clusteru jsou však zřízeny ve stejné zóně dostupnosti.

Microsoft Azure SQL Data Warehouse

Microsoft Azure SQL Data Warehouse je cloudový datový sklad, který využívá stroj Microsoft SQL a MPP (masivně paralelní zpracování) k rychlému spouštění složitých dotazů napříč petabajty dat. Azure SQL Data Warehouse můžete použít jako klíčovou součást řešení pro velká data importem velkých dat do SQL Data Warehouse pomocí jednoduchých dotazů PolyBase T-SQL a poté pomocí výkonu MPP ke spuštění vysoce výkonné analýzy.

Azure SQL Data Warehouse je k dispozici ve 40 oblastech Azure po celém světě, ale daný server skladu existuje pouze v jedné oblasti. Výkon datového skladu můžete škálovat na vyžádání, ale všechny spuštěné dotazy budou zrušeny a vráceny zpět.

Google BigQuery

Google BigQuery je bezserverový, vysoce škálovatelný a nákladově efektivní cloudový datový sklad s dotazy GIS, vestavěným BI Engine a strojovým učením. BigQuery spouští rychlé dotazy SQL na gigabajty až petabajty dat a usnadňuje připojení k veřejným nebo komerční datové sady s vašimi daty.

Můžete nastavit geografické umístění datové sady BigQuery pouze v době vytvoření. Všechny tabulky odkazované v dotazu musí být uloženy v datových sadách ve stejném umístění. To platí také pro sady externích dat a segmenty úložiště. Existují další omezení týkající se umístění externích dat Google Cloud Bigtable. Ve výchozím nastavení se dotazy spouštějí ve stejné oblasti jako data.

Místy mohou být konkrétní místa, například Severní Virginie, nebo velké zeměpisné oblasti, jako je EU nebo USA. Chcete-li přesunout datovou sadu BigQuery z jedné oblasti do druhé, musíte ji exportovat do segmentu úložiště Google Cloud Storage ve stejném umístění jako vaše datová sada, zkopírovat segment do nového umístění a načíst jej do BigQuery v novém umístění.

Sněhová vločka architektura

Snowflake používá pro své výpočetní potřeby instance virtuálního výpočtu a službu úložiště pro trvalé ukládání dat. Sněhová vločka nemůže být spuštěna na privátních cloudových infrastrukturách (místní nebo hostované).

Není třeba provádět žádnou instalaci ani konfiguraci. Veškerou údržbu a ladění zajišťuje Snowflake.

Snowflake používá centrální úložiště dat pro trvalá data, která jsou přístupná ze všech výpočetních uzlů v datovém skladu. Současně Snowflake zpracovává dotazy pomocí MPP (masivně paralelní zpracování) výpočetních klastrů, kde každý uzel v klastru ukládá lokálně část celé datové sady.

Když jsou data načtena do Snowflake, Snowflake reorganizuje tato data do svého interního komprimovaného, ​​sloupcového formátu. Interní datové objekty jsou přístupné pouze prostřednictvím dotazů SQL. Můžete se připojit k Snowflake prostřednictvím jeho webového uživatelského rozhraní, prostřednictvím CLI (SnowSQL), prostřednictvím ovladačů ODBC a JDBC z aplikací, jako je Tableau, prostřednictvím nativních konektorů pro programovací jazyky a prostřednictvím konektorů třetích stran pro nástroje BI a ETL.

Sněhová vločka

Funkce sněhové vločky

Zabezpečení a ochrana údajů. Bezpečnostní funkce nabízené ve Snowflake se liší podle vydání. I standardní vydání nabízí automatické šifrování všech dat a podporu vícefaktorového ověřování a jednotného přihlášení. Přidání Enterprise přidává periodické překódování šifrovaných dat a edice Enterprise for Sensitive Data přidává podporu pro HIPAA a PCI DSS. Můžete si vybrat, kde jsou vaše data uložena, což pomáhá dodržovat předpisy EU GDPR.

Standardní a rozšířená podpora SQL. Snowflake podporuje většinu DDL a DML definovaných v SQL: 1999, plus transakce, některé pokročilé funkce SQL a části analytických rozšíření SQL: 2003 (funkce okna a seskupovací sady). Podporuje také boční a materializované pohledy, agregační funkce, uložené procedury a uživatelem definované funkce.

Nástroje a rozhraní. Snowflake vám zejména umožňuje ovládat virtuální sklady z grafického uživatelského rozhraní nebo příkazového řádku. To zahrnuje vytváření, změnu velikosti (s nulovými prostoji), pozastavení a vyřazení skladů. Změna velikosti skladu za běhu dotazu je velmi pohodlná, zvláště když potřebujete zrychlit dotaz, který trvá příliš dlouho. Pokud je mi známo, není implementováno v žádném jiném softwaru EDW.

Konektivita Snowflake má konektory a / nebo ovladače pro Python, Spark, Node.js, Go, .Net, JDBC, ODBC a dplyr-snowflakedb, což je na GitHubu udržovaný open-source balíček dplyr.

Import a export dat. Sněhová vločka může načíst širokou škálu formátů dat a souborů. To zahrnuje komprimované soubory; oddělené datové soubory; Formáty JSON, Avro, ORC, Parquet a XML; Zdroje dat Amazon S3; a místní soubory. Může provádět hromadné načítání a vykládání do a z tabulek a také nepřetržité hromadné načítání ze souborů.

Sdílení dat. Snowflake má podporu pro bezpečné sdílení dat s jinými účty Snowflake. To je zjednodušeno použitím tabulkových klonů s nulovou kopií.

Sněhová vločka

Výukové programy o sněhové vločce

Snowflake nabízí několik návodů a videí. Některé vám pomohou začít, jiné prozkoumají konkrétní témata a jiné předvedou funkce.

Doporučuji propracovat se praktickým přehledem popsaným v příručce Hands-on Lab Guide for Snowflake Free Trial.) Trvalo mi to méně než hodinu a stálo to méně než pět kreditů. V bezplatné zkušební verzi tak zbylo dalších 195 kreditů, což by mělo stačit na import některých skutečných dat a testování některých dotazů.

Výukový program intenzivně využívá pracovní listy Snowflake, pohodlný způsob spouštění příkazů a SQL ve webovém uživatelském rozhraní. Pokrývá mimo jiné načítání dat; dotazování, ukládání do mezipaměti výsledků a klonování; polostrukturovaná data; a cestování v čase pro obnovení databázových objektů.

Celkově shledávám Snowflake docela působivou. Čekal jsem, že to bude neohrabané, ale to tak vůbec není. Ve skutečnosti mnoho z jeho operací datového skladu jde mnohem rychleji, než jsem čekal, a když se objeví nějaký, který se bude procházet, mohu zasáhnout a rozšířit datový sklad, aniž bych přerušil, co se děje.

Velkou část škálování lze automatizovat. Při vytváření datového skladu (viz snímek obrazovky výše) existuje možnost povolit více klastrů, možnost nastavit zásadu škálování, možnost automatického pozastavení a možnost automatického obnovení. Výchozí doba automatického pozastavení je 10 minut, což skladu zabrání spotřebovávat zdroje, pokud je nečinný déle. Automatické obnovení je téměř okamžité a nastane vždy, když dojde k dotazu na sklad.

Vzhledem k tomu, že Snowflake nabízí 30denní bezplatnou zkušební verzi s kreditem 400 $ a není třeba nic instalovat, měli byste být schopni určit, zda bude Snowflake vyhovovat vašim účelům bez jakýchkoli peněžních výdajů. Doporučil bych to roztočit.

Náklady: 2 $ / kredit plus 23 $ / TB / měsíc úložiště, standardní tarif, předplacené úložiště. Jeden kredit se rovná jednomu uzlu * hodinu, účtovaný druhým. Plány na vyšší úrovni jsou dražší.

Platformy: Amazon Web Services, Microsoft Azure

$config[zx-auto] not found$config[zx-overlay] not found