Programování

4 důvody selhání velkých datových projektů - a 4 způsoby, jak uspět

Big data projekty jsou dobře, velké co do velikosti a rozsahu, často velmi ambiciózní a až příliš často úplná selhání. V roce 2016 společnost Gartner odhadovala, že 60 procent velkých datových projektů selhalo. O rok později analytik společnosti Gartner Nick Heudecker uvedl, že jeho společnost je „příliš konzervativní“ s 60% odhadem a míra selhání se blíží 85%. Dnes říká, že se nic nezměnilo.

Gartner není v tomto hodnocení sám. Dlouholetý výkonný ředitel společnosti Microsoft a (donedávna) výkonný ředitel společnosti Snowflake Computing Bob Muglia řekl analytickému webu Datanami: „Nemohu najít šťastného zákazníka Hadoop. Je to tak jednoduché. … Počet zákazníků, kteří skutečně úspěšně zkrotili Hadoop, je pravděpodobně méně než 20 a může to být méně než deset. To je jen oříšek vzhledem k tomu, jak dlouho je tento produkt, tato technologie na trhu a kolik energie z tohoto průmyslového odvětví do toho šlo. “ Hadoop je samozřejmě motor, který spustil mánii velkých dat.

Jiní lidé obeznámení s velkými daty také tvrdí, že problém zůstává skutečný, závažný a není zcela technologický. Technologie je ve skutečnosti menší příčinou selhání ve srovnání se skutečnými viníky. Zde jsou čtyři klíčové důvody, proč projekty velkých dat selhávají - a čtyři klíčové způsoby, jak můžete uspět.

Problém velkých dat č. 1: Špatná integrace

Heudecker uvedl, že za selháním velkých dat je jeden zásadní technologický problém, a to integrace utlumených dat z více zdrojů, aby získali informace, které společnosti chtějí. Vytváření spojení se zkaženými starými systémy prostě není snadné. Náklady na integraci jsou pětkrát až desetkrát vyšší než náklady na software, uvedl. "Největším problémem je jednoduchá integrace: Jak propojíte více zdrojů dat, abyste dosáhli nějakého výsledku?" Hodně jdete po trase datového jezera a přemýšlím, jestli spojím všechno s něčím, co se stane magickým. To není tento případ, “řekl.

Siled data jsou součástí problému. Klienti mu řekli, že vytáhli data ze systémů záznamu do běžného prostředí, jako je datové jezero, a nemohli přijít na to, co tyto hodnoty znamenají. "Když vtahuješ data do datového jezera, jak víš, co to číslo 3 znamená?" Zeptal se Heudecker.

Protože pracují v silech nebo vytvářejí datová jezera, která jsou jen datovými bažinami, jen škrábají povrch toho, čeho by mohli dosáhnout, řekl Alan Morrison, vedoucí výzkumný pracovník PwC. "Nerozumí všem vztahům v datech, které je třeba vytěžit nebo odvodit a učinit je explicitní, aby stroje mohla tato data adekvátně interpretovat." Potřebují vytvořit vrstvu grafu znalostí, aby stroje mohly interpretovat všechna data instance, která jsou mapována pod nimi. Jinak jste právě dostali datové jezero, které je datovým bažinou, “řekl.

Problém velkých dat č. 2: Nedefinované cíle

Myslíte si, že většina lidí, kteří realizují velký datový projekt, bude mít na mysli cíl, ale překvapivé číslo ne. Prostě zahájí projekt s cílem jako dodatečný nápad.

"Musíte problém dobře zvládnout." Lidé si myslí, že mohou propojit strukturovaná a nestrukturovaná data a získat potřebný přehled. Musíte problém definovat dopředu. Jaký přehled chcete získat? Má jasnou definici problému a definuje ho předem, “řekl Ray Christopher, manažer produktového marketingu ve společnosti Talend, softwarové společnosti pro integraci dat.

Joshua Greenbaum, hlavní analytik společnosti Enterprise Application Consulting, uvedl, že součástí toho, co vyvinulo projekty velkých dat i datových skladů, je hlavním vodícím kritériem typicky akumulace velkého množství dat, nikoli řešení diskrétních obchodních problémů.

"Pokud spojíte velké množství dat, získáte datový výpis." Říkám tomu sanitární skládka. Skládky nejsou dobrým místem pro hledání řešení, “řekl Greenbaum. "Vždy říkám klientům, aby se rozhodli, jaký diskrétní obchodní problém je třeba nejprve vyřešit, a jděte s tím, a poté se podívejte na kvalitu dostupných dat a vyřešte problém s daty, jakmile bude obchodní problém identifikován."

"Proč většina velkých datových projektů selhává?" Pro začátečníky většina vedoucích velkých datových projektů postrádá vizi, “uvedl Morrison z PwC. "Podniky jsou z velkých dat zmatené." Většina myslí jen na numerická data nebo černé skříňky NLP a rozpoznávací stroje, které umožňují jednoduché dolování textu a jiné druhy rozpoznávání vzorů. “

Problém velkých dat č. 3: Rozdíl v dovednostech

Společnosti si příliš často myslí, že interní dovednosti, které si vybudovaly pro datové sklady, se promítnou do velkých dat, pokud tomu tak zjevně není. Pro začátek, datové sklady a velká data zpracovávají data celkem opačným způsobem: Datové sklady zpracovávají schéma při zápisu, což znamená, že data jsou vyčištěna, zpracována, strukturována a uspořádána dříve, než se vůbec dostanou do datového skladu.

Ve velkých datech se data akumulují a použije se schéma při čtení, kde se data zpracovávají při čtení. Pokud tedy zpracování dat jde zpět od jedné metodiky k druhé, můžete se vsadit, že dovednosti a nástroje také jsou. A to je jen jeden příklad.

"Dovednosti budou vždy výzvou." Budeme-li hovořit o velkých datech za 30 let, stále bude výzva, “řekl Heudecker. "Mnoho lidí visí klobouk na Hadoopovi." Moji klienti mají problémy s hledáním zdrojů Hadoop. Spark je trochu lepší, protože ten stack je menší a snáze se trénuje. Hadoop je desítky softwarových komponent. “

Problém velkých dat č. 4: Mezera v generování technologií

Velké datové projekty často čerpají ze starších datových sil a snaží se je spojit s novými zdroji dat, jako jsou senzory nebo webový provoz nebo sociální média. To není úplně chyba podniku, který tato data shromáždil v době před myšlenkou analýzy velkých dat, ale přesto je to problém.

"Téměř největší chybějící dovedností je dovednost porozumět tomu, jak spojit tyto dvě zúčastněné strany, aby je přiměly spolupracovat při řešení složitých problémů," řekl konzultant Greenbaum. "Datová sila mohou být překážkou pro velké datové projekty, protože neexistuje nic standardního." Když se tedy začnou zabývat plánováním, zjistí, že tyto systémy nebyly implementovány takovým způsobem, aby byla tato data znovu použita, “řekl.

"S různými architekturami musíte zpracování zpracovat odlišně," řekl Talend’s Christopher. „Rozdíly v technických dovednostech a architektuře byly častým důvodem, proč nemůžete vzít aktuální nástroje pro místní datový sklad a integrovat jej s velkým datovým projektem - protože tyto technologie budou příliš nákladné na zpracování nových dat. Takže potřebujete Hadoopand Spark a musíte se naučit nové jazyky. “

Big data řešení č. 1: Plánujte dopředu

Je to staré klišé, ale zde použitelné: Pokud se vám nepodaří plánovat, plánujte selhat. "Úspěšné společnosti jsou ty, které mají výsledek," řekl Gartner's Heudecker. "Vyberte něco malého a dosažitelného a nového." Neberte starší případ použití, protože máte omezení. “

"Musí nejprve myslet na data a modelovat své organizace strojově čitelným způsobem, aby data této organizaci sloužila," uvedl Morrison z PwC.

Big data řešení č. 2: Spolupráce

Až příliš často jsou z velkých datových projektů vynechány zúčastněné strany - právě lidé, kteří by použili výsledky. Pokud budou všechny zúčastněné strany spolupracovat, mohou překonat mnoho překážek, řekl Heudecker. "Pokud kvalifikovaní lidé spolupracují a spolupracují s obchodními partnery, aby dosáhli uskutečnitelného výsledku, může to pomoci," řekl.

Heudecker poznamenal, že společnosti uspějící ve velkých datech značně investují do potřebných dovedností. Vidí to nejvíce ve společnostech založených na datech, jako jsou finanční služby, Uber, Lyft a Netflix, kde bohatství společnosti je založeno na tom, že má k dispozici dobrá a použitelná data.

"Udělejte z něj týmový sport, který vám pomůže vyčistit a sbírat data a vyčistit je." To může také zvýšit integritu dat, “řekl Talend’s Christopher.

Řešení velkých dat č. 3: Zaměření

Zdá se, že si lidé myslí, že velký datový projekt musí být masivní a ambiciózní. Stejně jako cokoli, co se učíte poprvé, nejlepší způsob, jak uspět, je začít v malém a postupně se rozšiřovat v ambicích a rozsahu.

"Měli by velmi úzce definovat, co dělají," řekl Heudecker. "Měli by si vybrat problémovou doménu a vlastnit ji, jako je detekce podvodů, mikrosegmentace zákazníků nebo zjišťování, jaký nový produkt představit na tržišti Millennial."

"Na konci dne musíte požádat o informace, které chcete, nebo o digitalizaci obchodního procesu," řekl Christopher. "Nehodíte technologii jen na obchodní problém; musíte to definovat předem. Datové jezero je nutností, ale nechcete shromažďovat data, pokud je nebude používat kdokoli v podnikání. “

V mnoha případech to také znamená nepřetěžovat svoji společnost. "V každé společnosti, kterou jsem kdy studoval, existuje jen několik stovek klíčových konceptů a vztahů, na nichž celé podnikání běží." Jakmile to pochopíte, uvědomíte si, že všechny tyto miliony vyznamenání jsou jen nepatrnými změnami těch několika stovek důležitých věcí, “řekl Morrison z PwC. "Ve skutečnosti zjistíte, že mnoho nepatrných variací vůbec není variací." Jsou to opravdu stejné věci s různými jmény, různými strukturami nebo různými štítky, “dodal.

Big data solution no 4: Jettison the legacy

I když možná budete chtít použít ty terabajty dat shromážděných a uložených ve vašem datovém skladu, faktem je, že vám může lépe posloužit pouhé zaměření na nově shromážděná data v úložných systémech určených pro velká data a navržená tak, aby byla nevyužitá.

"Rozhodně bych doporučil, abyste nemuseli být zavázáni existující technologické infrastruktuře jen proto, že vaše společnost je licencí pro ni," řekl konzultant Greenbaum. "Nové složité problémy mohou často vyžadovat nová komplexní řešení." Padnout zpět na staré nástroje kolem korporace po desetiletí není správná cesta. Mnoho společností používá staré nástroje a to projekt zabíjí. “

Morrison o = poznamenal: „Podniky se musí přestat zamotávat nohama ve spodním prádle a upustit od staré architektury, která vytváří více sil.“ Řekl také, že musí přestat očekávat, že prodejci vyřeší problémy svých složitých systémů za ně. "Zdá se, že po celá desetiletí mnozí předpokládají, že si mohou koupit cestu z problému s velkými daty." Jakýkoli problém s velkými daty je systémový problém. Pokud jde o jakoukoli složitou změnu systémů, musíte si vybudovat cestu ven, “řekl.