Programování

Recenze qubole: Samoobslužná analýza velkých dat

Společnost Qubole, která je označována jako cloudová datová platforma pro analytiku, AI a strojové učení, nabízí řešení pro zapojení zákazníků, digitální transformaci, produkty založené na datech, digitální marketing, modernizaci a bezpečnostní inteligenci. Vyžaduje rychlou dobu ke zhodnocení, podporu více cloudů, 10násobnou produktivitu správce, poměr operátora k uživateli 1: 200 a nižší náklady na cloud.

To, co Qubole ve skutečnosti dělá, na základě mých krátkých zkušeností s platformou, je integrace řady nástrojů s otevřeným zdrojovým kódem a několika proprietárních nástrojů k vytvoření cloudového samoobslužného velkého datového zážitku pro datové analytiky, datové inženýry a datoví vědci.

Qubole vás vezme od ETL přes průzkumnou analýzu dat a vytváření modelů až po nasazení modelů v produkčním měřítku. Podél cesty automatizuje řadu cloudových operací, jako jsou prostředky zajišťování a škálování, které by jinak mohly vyžadovat značné množství času správce. Zda tato automatizace ve skutečnosti umožní 10násobné zvýšení produktivity správce nebo poměr operátora k uživateli 1: 200 pro jakoukoli konkrétní společnost nebo případ použití, není jasné.

Qubole má tendenci bušit na konceptu „aktivních dat“. V zásadě většina datových jezer - což jsou v podstatě úložiště souborů naplněná daty z mnoha zdrojů, vše na jednom místě, ale ne v jedné databázi - má nízké procento dat, která se aktivně používají pro analýzu. Qubole odhaduje, že většina datových jezer je 10% aktivních a 90% neaktivních, a předpovídá, že může tento poměr zvrátit.

Mezi konkurenty společnosti Qubole patří Databricks, AWS a Cloudera. Existuje celá řada dalších produktů, kterým pouze konkuruje nějaký funkcí Qubole.

Databricks staví notebooky, řídicí panely a úlohy na vrcholu správce klastrů a Sparku; Když jsem ji v roce 2016 zkontroloval, zjistil jsem, že je to užitečná platforma pro datové vědce. Databricks nedávno otevřel svůj produkt Delta Lake, který poskytuje transakce ACID, škálovatelné zpracování metadat a jednotné streamování a dávkové zpracování dat do datových jezer, aby byly spolehlivější a pomoci jim krmit analýzu Spark.

AWS má širokou škálu datových produktů a Qubole ve skutečnosti podporuje integraci s mnoha z nich. Cloudera, která nyní zahrnuje Hortonworks, poskytuje služby datového skladu a strojového učení a také službu datového centra. Qubole tvrdí, že jak Databricks, tak Cloudera nemají finanční správu, ale můžete implementovat správu sami na úrovni jednoho cloudu nebo pomocí produktu pro správu více cloudů.

Jak funguje Qubole

Qubole integruje všechny své nástroje do prostředí založeného na cloudu a prohlížeči. V další části tohoto článku se budu věnovat jednotlivým částem prostředí; v této části se soustředím na nástroje.

Qubole provádí kontrolu nákladů jako součást své správy klastrů. Můžete určit, že clustery používají konkrétní kombinaci typů instancí, včetně okamžitých instancí, pokud jsou k dispozici, a minimální a maximální počet uzlů pro automatické škálování. Můžete také určit dobu, po kterou se bude klastr i nadále spouštět při absenci zátěže, abyste se vyhnuli „zombie“ instancím.

Jiskra

Ve svém srpnovém článku „Jak společnost Qubole řeší výzvy Apache Spark“ diskutuje generální ředitel společnosti Qubole Ashish Thenoo o výhodách a úskalích Sparku a o tom, jak společnost Qubole napravuje potíže, jako je konfigurace, výkon, náklady a správa zdrojů. Spark je klíčovou součástí Qubole pro datové vědce a umožňuje snadnou a rychlou transformaci dat a strojové učení.

rychle

Presto je open source distribuovaný dotazovací stroj SQL pro spouštění interaktivních analytických dotazů proti datovým zdrojům všech velikostí, od gigabajtů po petabajty. Dotazy Presto běží mnohem rychleji než dotazy Hive. Zároveň může Presto zobrazit a používat metadata a datová schémata Hive.

Úl

Apache Hive je populární open-source projekt v ekosystému Hadoop, který usnadňuje čtení, zápis a správu velkých datových sad umístěných v distribuovaném úložišti pomocí SQL. Strukturu lze promítnout na data, která jsou již v úložišti. Spuštění dotazu podregistru běží přes Apache Tez, Apache Spark nebo MapReduce. Hive on Qubole umí provádět automatické škálování s ohledem na pracovní zátěž a přímé zápisy; open-source Hive postrádá tyto cloudově orientované optimalizace.

Zakladatelé Qubole byli také tvůrci Apache Hive. Začali Hive na Facebooku a otevřeli jej v roce 2008.

Kvantové

Quantum je vlastní Quboleův serverový server s automatickým škálováním a automatickým škálováním dotazů, který podporuje Hive DDL i Presto SQL. Quantum je služba průběžně financovaná, která je nákladově efektivní pro vzory sporadických dotazů, které se šíří po dlouhou dobu, a má přísný režim, který zabraňuje neočekávaným výdajům. Quantum používá Presto a doplňuje serverové klastry Presto. Kvantové dotazy jsou omezeny na dobu běhu 45 minut.

Proud vzduchu

Airflow je platforma založená na Pythonu pro programové vytváření, plánování a sledování pracovních toků. Pracovní postupy jsou směrované acyklické grafy (DAG) úkolů. Konfigurujete DAG tak, že napíšete kanály v kódu Pythonu. Qubole nabízí Airflow jako jednu ze svých služeb; často se používá pro ETL.

Nový QuboleOperator lze použít stejně jako jakýkoli jiný existující operátor Airflow. Během provádění operátoru v pracovním postupu odešle příkaz do služby Qubole Data Service a počká, dokud příkaz nedokončí. Qubole podporuje senzory souborů a tabulek Hive, které Airflow může použít k programovému monitorování pracovních toků.

Chcete-li zobrazit uživatelské rozhraní Airflow, musíte nejprve spustit cluster Airflow, poté otevřete stránku clusteru a podívejte se na web Airflow.

RubiX

RubiX je lehký rámec pro ukládání dat do mezipaměti Qubole, který lze použít v systému velkých dat, který používá rozhraní systému souborů Hadoop. RubiX je navržen pro práci s cloudovými úložnými systémy, jako jsou Amazon S3 a Azure Blob Storage, a pro mezipaměť vzdálených souborů na místním disku. Qubole vydala RubiX do open source. Povolení RubiXu v Qubole je otázka zaškrtnutí políčka.

Co dělá Qubole?

Qubole poskytuje komplexní platformu pro analytiku a datovou vědu. Funkce je rozdělena mezi tucet modulů.

Modul Prozkoumat umožňuje prohlížet datové tabulky, přidávat datová úložiště a nastavovat výměnu dat. Na AWS si můžete prohlédnout svá datová připojení, vaše S3 kbelíky a svá datová úložiště Qubole Hive.

Moduly Analyze a Workbench vám umožňují spouštět ad hoc dotazy na vaše datové sady. Analyzovat je staré rozhraní a Workbench je nové rozhraní, které bylo stále v beta verzi, když jsem to zkusil. Obě rozhraní umožňují přetahování datových polí do vašich dotazů SQL a výběr motoru, který používáte ke spuštění operací: Quantum, Hive, Presto, Spark, databáze, shell nebo Hadoop.

Smart Query je nástroj pro vytváření dotazů SQL založený na formulářích pro Hive a Presto. Šablony umožňují opětovné použití parametrizovaných dotazů SQL.

Notebooky jsou notebooky Zeppelin založené na Sparku nebo (v beta verzi) notebooky Jupyter pro datovou vědu. Panely poskytují rozhraní pro sdílení vašich průzkumů, aniž by umožňovaly přístup k vašim notebookům.

Plánovač vám umožňuje spouštět dotazy, pracovní toky, import a export dat a příkazy automaticky v intervalech. To doplňuje ad-hoc dotazy, které můžete spouštět v modulech Analyze a Workbench.

Modul Klastry vám umožňuje spravovat klastry serverů Hadoop / Hive, Spark, Presto, Airflow a deep learning (beta). Usage vám umožní sledovat využití vašeho clusteru a dotazů. Ovládací panel umožňuje konfigurovat platformu pro sebe nebo pro ostatní, pokud máte oprávnění pro správu systému.

Průběžný průchod qubole

Prošel jsem průchodem importu databáze, vytvořením schématu Hive a analýzou výsledku pomocí Hive a Presto a samostatně v poznámkovém bloku Spark. Také jsem se podíval na Airflow DAG pro stejný proces a na notebook pro strojové učení se Sparkem na nesouvisející datové sadě.

Hluboké učení v Qubole

Vědu o datech jsme v Qubole viděli až na úroveň klasického strojového učení, ale co hluboké učení? Jedním ze způsobů, jak dosáhnout hlubokého učení v Qubole, je vložit do svých notebooků kroky Pythonu, které importují rámce hlubokého učení, jako je TensorFlow, a použít je na datové sady, které jsou již vytvořeny pomocí Sparku. Další možností je zavolat na Amazon SageMaker z notebooků nebo Airflow za předpokladu, že vaše instalace Qubole běží na AWS.

Většina toho, co děláte v Qubole, nevyžaduje běh na GPU, ale hluboké učení často vyžaduje GPU, aby bylo možné absolvovat školení v rozumném čase. Amazon SageMaker se o to postará spuštěním kroků hlubokého učení v samostatných klastrech, které můžete nakonfigurovat s tolika uzly a GPU, kolik potřebujete. Qubole také nabízí klastry Machine Learning (v beta verzi); na AWS tyto umožňují akcelerované pracovní uzly typu g a p typu s GPU Nvidia a na Google Cloud Platform a Microsoft Azure umožňují ekvivalentní zrychlené pracovní uzly.

Sada velkých dat v cloudu

Qubole, cloudová datová platforma pro analytiku a strojové učení, vám pomůže importovat datové sady do datového jezera, vytvářet schémata pomocí Hive a dotazovat se na data pomocí Hive, Presto, Quantum a Spark. Pro konstrukci pracovních toků využívá notebooky i Airflow. Může také volat na jiné služby a používat jiné knihovny, například službu Amazon SageMaker a knihovnu TensorFlow Python pro hluboké učení.

Qubole vám pomáhá spravovat výdaje na cloud tím, že řídí mix instancí v klastru, spouštění a automatické škálování klastrů na vyžádání a automatické vypínání klastrů, když se nepoužívají. Funguje na AWS, Microsoft Azure, Google Cloud Platform a Oracle Cloud.

Celkově je Qubole velmi dobrý způsob, jak využít (nebo „aktivovat“) vaše datové jezero, izolované databáze a velká data. Můžete otestovat Drive Qubole zdarma po dobu 14 dnů podle vašeho výběru AWS, Azure nebo GCP s ukázkovými daty. Můžete si také zajistit bezplatnou plnohodnotnou zkušební verzi až pro pět uživatelů a jeden měsíc pomocí vlastního účtu cloudové infrastruktury a vlastních dat.

Náklady: Testovací a zkušební účty, zdarma. Podniková platforma, 0,14 $ za QCU (Qubole Compute Unit) za hodinu.

Plošina: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.