Programování

Jak si vybrat platformu pro analýzu dat

Ať už máte odpovědnost za vývoj softwaru, vývoj, systémy, cloudy, automatizaci testů, spolehlivost webů, vedoucí týmy scrumů, infosec nebo jiné oblasti informačních technologií, budete mít stále větší příležitosti a požadavky na práci s daty, analytikou a strojovým učením .

Tech Spotlight: Analýzy

  • Jak si vybrat platformu pro analýzu dat ()
  • 6 osvědčených postupů pro vizualizaci obchodních dat (Computerworld)
  • Zdravotnická analytika: 4 příběhy o úspěchu (CIO)
  • SD-WAN a analytika: Sňatek vytvořený pro nový normál (Network World)
  • Jak chránit algoritmy jako duševní vlastnictví (CSO)

Vaše vystavení analytice může pocházet z IT dat, jako je vývoj metrik a přehledů z agilních, devopsových nebo webových metrik. Neexistuje lepší způsob, jak se naučit základní dovednosti a nástroje týkající se dat, analytiky a strojového učení, než je aplikovat na data, která znáte a která můžete využít k získávání poznatků k řízení akcí.

Věci se trochu zkomplikují, jakmile se oddělíte od světa IT dat a poskytnete služby týmům datových vědců, vědcům v oblasti dat občanů a dalším obchodním analytikům provádějícím vizualizace dat, analytiku a strojové učení.

Nejprve je třeba načíst a vyčistit data. V závislosti na objemu, rozmanitosti a rychlosti dat se pak pravděpodobně setkáte s více back-end databázemi a cloudovými datovými technologiemi. A konečně, v posledních několika letech se to, co bývalo volbou mezi nástroji business inteligence a vizualizace dat, nafouklo do složité matice analytických nástrojů pro celý životní cyklus a platforem strojového učení.

Význam analytiky a strojového učení zvyšuje odpovědnost IT v několika oblastech. Například:

  • IT často poskytuje služby kolem všech datových integrací, back-endových databází a analytických platforem.
  • Týmy Devops často nasazují a rozšiřují datovou infrastrukturu, aby umožnily experimentování na modelech strojového učení a poté podporovaly zpracování produkčních dat.
  • Týmy síťového provozu vytvářejí zabezpečené připojení mezi analytickými nástroji SaaS, multicloudy a datovými centry.
  • Týmy správy IT služeb reagují na požadavky a incidenty datových a analytických služeb.
  • Infosec dohlíží na správu a implementaci zabezpečení dat.
  • Vývojáři integrují analytiku a modely strojového učení do aplikací.

Vzhledem k explozi analytiky, cloudových datových platforem a schopností strojového učení je zde základ pro lepší pochopení životního cyklu analytiky, od integrace a čištění dat, přes dataops a úpravy, až po samotné databáze, datové platformy a nabídky analytiky.

Analytics začíná integrací dat a čištěním dat

Předtím, než analytici, vědci v oboru datových vědců nebo týmy pro datovou vědu budou moci provádět analytiku, musí jim být dostupné zdroje dat dostupné na jejich platformách pro vizualizaci a analýzu dat.

Nejprve mohou existovat obchodní požadavky na integraci dat z více podnikových systémů, extrakci dat z aplikací SaaS nebo streamování dat ze senzorů IoT a dalších zdrojů dat v reálném čase.

To jsou všechny kroky ke shromažďování, načítání a integraci dat pro analytiku a strojové učení. V závislosti na složitosti dat a problémech s kvalitou dat existují příležitosti zapojit se do datových cyklů, katalogizace dat, správy hlavních dat a dalších iniciativ správy dat.

Všichni známe frázi „smetí dovnitř, smetí ven“. Analytici musí být znepokojeni kvalitou svých dat a vědci v oblasti dat musí být znepokojeni předsudky ve svých modelech strojového učení. Včasnost integrace nových dat je také zásadní pro podniky, které chtějí být více řízeny daty v reálném čase. Z těchto důvodů jsou kanály, které načítají a zpracovávají data, kriticky důležité v analytice a strojovém učení.

Databáze a datové platformy pro všechny typy problémů se správou dat

Načítání a zpracování dat je nezbytným prvním krokem, ale pak se věci zkomplikují při výběru optimálních databází. Dnešní možnosti zahrnují podnikové datové sklady, datová jezera, platformy pro zpracování velkých dat a specializované NoSQL, grafy, páry klíč – hodnota, dokumenty a sloupcové databáze. Pro podporu rozsáhlého datového skladu a analytiky existují platformy jako Snowflake, Redshift, BigQuery, Vertica a Greenplum. A konečně existují platformy pro velká data, včetně Spark a Hadoop.

Velké podniky pravděpodobně budou mít více datových úložišť a budou používat cloudové datové platformy, jako je Cloudera Data Platform nebo MapR Data Platform, nebo platformy pro orchestraci dat, jako je InfoWorks DataFoundy, aby všechna tato úložiště byla přístupná pro analytiku.

Hlavní veřejné cloudy, včetně AWS, GCP a Azure, všechny mají platformy pro správu dat a služby, které je třeba projít. Například Azure Synapse Analytics je datový sklad Microsoftu v cloudu společnosti Microsoft, zatímco Azure Cosmos DB poskytuje rozhraní s mnoha datovými úložišti NoSQL, včetně Cassandra (sloupcová data), MongoDB (data klíč-hodnota a data dokumentu) a Gremlin (data grafu). .

Datová jezera jsou populární nakládací doky, které centralizují nestrukturovaná data pro rychlou analýzu. K tomuto účelu si můžete vybrat z Azure Data Lake, Amazon S3 nebo Google Cloud Storage. Pro zpracování velkých dat mají AWS, GCP a cloudy Azure také nabídky Spark a Hadoop.

Platformy Analytics se zaměřují na strojové učení a spolupráci

Po načtení, vyčištění a uložení dat mohou vědci a analytici dat začít provádět analytiku a strojové učení. Organizace mají mnoho možností v závislosti na typech analytiky, dovednostech analytického týmu provádějícího práci a struktuře podkladových dat.

Analýzy lze provádět v samoobslužných nástrojích pro vizualizaci dat, jako jsou Tableau a Microsoft Power BI. Oba tyto nástroje se zaměřují na vědce o datech občanů a vystavují vizualizace, výpočty a základní analýzy. Tyto nástroje podporují základní integraci dat a restrukturalizaci dat, ale složitější hádání dat se často děje před kroky analýzy. Tableau Data Prep a Azure Data Factory jsou doprovodné nástroje, které pomáhají integrovat a transformovat data.

Týmy Analytics, které chtějí automatizovat více než jen integraci a přípravu dat, se mohou podívat na platformy, jako je Alteryx Analytics Process Automation. Tato komplexní platforma pro spolupráci spojuje vývojáře, analytiky, vědce v oblasti dat občanů a datové vědce s automatizací pracovního toku a samoobslužným zpracováním dat, analytikou a zpracováním strojového učení.

Alan Jacobson, hlavní analytik a datový ředitel společnosti Alteryx, vysvětluje: „Vznik automatizace analytických procesů (APA) jako kategorie podtrhuje nové očekávání, že každý pracovník v organizaci bude datovým pracovníkem. IT vývojáři nejsou výjimkou a rozšiřitelnost platformy Alteryx APA je obzvláště užitečná pro tyto znalostní pracovníky. “

Existuje několik nástrojů a platforem zaměřených na datové vědce, jejichž cílem je zvýšit jejich produktivitu s technologiemi jako Python a R a zároveň zjednodušit mnoho kroků v oblasti provozu a infrastruktury. Například Databricks je operační platforma pro datovou vědu, která umožňuje nasazení algoritmů do Apache Spark a TensorFlow, zatímco sama spravuje výpočetní clustery v cloudu AWS nebo Azure.

Nyní některé platformy, jako je SAS Viya, kombinují přípravu dat, analytiku, předpovídání, strojové učení, textovou analýzu a správu modelů strojového učení do jediné platformy pro vývoj. SAS provozuje analytiku a zaměřuje se na datové vědce, obchodní analytiky, vývojáře a manažery pomocí komplexní platformy pro spolupráci.

David Duling, ředitel výzkumu a vývoje v oblasti rozhodování v SAS, říká: „Modules považujeme za postup vytváření opakovatelného, ​​auditovatelného kanálu operací pro nasazení všech analytik, včetně modelů AI a ML, do operačních systémů. Jako součást vývoje můžeme použít moderní devops postupy pro správu kódu, testování a monitorování. To pomáhá zlepšit frekvenci a spolehlivost nasazení modelů, což zase zvyšuje agilitu obchodních procesů postavených na těchto modelech. “

Dataiku je další platforma, která se snaží přinést přípravu dat, analytiku a strojové učení rostoucím týmům datových věd a jejich spolupracovníkům. Dataiku má model vizuálního programování, který umožňuje spolupráci a psaní poznámkových bloků pro pokročilejší vývojáře SQL a Python.

Další platformy pro analytiku a strojové učení od předních dodavatelů podnikového softwaru mají za cíl přinést analytické funkce do datových center a cloudových zdrojů dat. Například Oracle Analytics Cloud a SAP Analytics Cloud mají za cíl centralizovat inteligenci a automatizovat přehledy, aby umožňovaly komplexní rozhodnutí.

Výběr platformy pro analýzu dat

Výběr datových integračních, skladovacích a analytických nástrojů byl před nástupem velkých dat, strojového učení a správy dat jednodušší. Dnes existuje kombinace terminologie, schopností platforem, provozních požadavků, potřeb správy a cílených uživatelských osob, díky nimž je výběr platforem složitější, zejména proto, že mnoho prodejců podporuje více paradigmat použití.

Podniky se liší analytickými požadavky a potřebami, ale měly by hledat nové platformy z hlediska toho, co již existuje. Například:

  • Společnosti, které uspěly v programech občanské vědy o datech a které již mají zavedené nástroje pro vizualizaci dat, mohou chtít rozšířit tento program o automatizaci analytických procesů nebo technologie pro přípravu dat.
  • Podniky, které chtějí nástrojovou řadu, která umožňuje vědcům pracujícím v různých částech podnikání, mohou zvážit end-to-end analytické platformy s možnostmi vývoje.
  • Organizace s více různorodými back-end datovými platformami mohou těžit z cloudových datových platforem pro jejich katalogizaci a centrální správu.
  • Společnosti standardizující všechny nebo většinu datových funkcí u jednoho veřejného dodavatele cloudu by měly zkoumat nabízené platformy pro integraci dat, správu dat a analýzu dat.

S tím, jak se analytika a strojové učení stávají důležitou základní kompetencí, by technologové měli zvážit prohloubení porozumění dostupným platformám a jejich schopnostem. Síla a hodnota analytických platforem se pouze zvýší, stejně jako jejich vliv v celém podniku.

$config[zx-auto] not found$config[zx-overlay] not found