Programování

Dnešní role v oblasti datové vědy nebudou existovat za 10 let

V nadcházejícím desetiletí bude role datového vědce, jak ji známe, vypadat velmi odlišně než dnes. Ale nebojte se, nikdo předpovídá pouze ztracené zaměstnání změněno pracovní místa.

Vědci v oblasti dat budou v pořádku - podle Úřadu pro statistiku práce se předpokládá, že role do roku 2029 poroste na vyšší než průměrné úrovni. Avšak pokrok v technologii bude impulsem pro obrovský posun v odpovědnosti datového vědce způsob, jakým podniky přistupují k analytice jako celku. A tuto revoluci povedou nástroje AutoML, které pomáhají automatizovat potrubí strojového učení od nezpracovaných dat po použitelný model.

Za 10 let budou mít datoví vědci zcela odlišné sady dovedností a nástrojů, ale jejich funkce zůstane stejná: sloužit jako sebevědomí a kompetentní technologičtí průvodci, kteří mohou smysluplně složitá data řešit obchodní problémy.

AutoML demokratizuje datovou vědu

Až donedávna byly algoritmy a procesy strojového učení téměř výlučně doménou tradičnějších rolí datové vědy - těch s formálním vzděláním a pokročilým stupněm nebo pracujících pro velké technologické korporace. Vědci v oblasti dat hráli neocenitelnou roli v každé části vývojového spektra strojového učení. Ale jejich role se postupem času stane více kolaborativní a strategičtější. S nástroji jako AutoML k automatizaci některých svých akademičtějších dovedností se vědci v oboru dat mohou soustředit na vedení organizací směrem k řešení obchodních problémů prostřednictvím dat.

V mnoha ohledech je to proto, že AutoML demokratizuje snahu zavést strojové učení do praxe. Prodejci od startupů až po cloudové hyperskalery spustili řešení, která mohou vývojáři snadno používat a experimentovat bez velké vzdělávací nebo experimentální bariéry vstupu. Podobně jsou některé aplikace AutoML dostatečně intuitivní a jednoduché, aby si netechničtí pracovníci mohli vyzkoušet řešení problémů ve svých vlastních odděleních - vytvoření takového „vědce o občanských datech“ v organizacích.

Abychom prozkoumali možnosti, které tyto typy nástrojů odemykají jak pro vývojáře, tak pro datové vědce, musíme nejprve pochopit současný stav datové vědy, která souvisí s vývojem strojového učení. Je to nejjednodušší pochopit, když se umístí na stupnici dospělosti.

Menší organizace a podniky s tradičnějšími rolemi odpovědnými za digitální transformaci (tj. ne klasicky vyškolení datoví vědci) obvykle spadají na tento konec této stupnice. Právě teď jsou největšími zákazníky aplikací out-of-the-box pro strojové učení, které jsou více zaměřeny na publikum, které není obeznámeno se složitostí strojového učení.

  • Profesionálové: Tyto aplikace na klíč mají tendenci být snadno implementovatelné a relativně levné a snadno nasaditelné. Pro menší společnosti s velmi specifickým procesem automatizace nebo zlepšování existuje na trhu pravděpodobně několik životaschopných možností. Díky nízké bariéře vstupu jsou tyto aplikace ideální pro datové vědce, kteří se poprvé pustili do strojového učení. Protože některé aplikace jsou tak intuitivní, dokonce umožňují netechnickým zaměstnancům šanci experimentovat s automatizací a pokročilými datovými funkcemi - což potenciálně může v organizaci představit cennou karanténu.
  • Nevýhody: Tato třída aplikací pro strojové učení je notoricky nepružná. I když je lze snadno implementovat, nelze je snadno přizpůsobit. Určité úrovně přesnosti proto nemusí být pro určité aplikace možné. Kromě toho mohou být tyto aplikace výrazně omezeny tím, že se spoléhají na předem připravené modely a data. 

Mezi příklady těchto aplikací patří Amazon Comprehend, Amazon Lex a Amazon Forecast z Amazon Web Services a Azure Speech Services a Azure Language Understanding (LUIS) z Microsoft Azure. Tyto nástroje jsou často dostačující na to, aby narůstající vědci v oblasti dat mohli podniknout první kroky ve strojovém učení a uvést své organizace dále dolů ve spektru zralosti.

Přizpůsobitelná řešení s AutoML

Organizace s velkými, ale relativně běžnými datovými sadami - myslím, že údaje o transakcích zákazníků nebo metriky marketingových e-mailů - potřebují větší flexibilitu při používání strojového učení k řešení problémů. Zadejte AutoML. AutoML provádí kroky pracovního toku manuálního strojového učení (zjišťování dat, průzkumná analýza dat, ladění hyperparametru atd.) A kondenzuje je do konfigurovatelného zásobníku.

  • Profesionálové: Aplikace AutoML umožňují spouštět více experimentů s daty ve větším prostoru. Skutečnou supervelmocí AutoML je však dostupnost - lze sestavit vlastní konfigurace a relativně snadno vylepšit vstupy. Navíc se AutoML nevyrábí výhradně s datovými vědci jako publikem. Vývojáři mohou také snadno hrát v karanténě a přenést prvky strojového učení do svých vlastních produktů nebo projektů.
  • Nevýhody: I když se to blíží, omezení AutoML znamenají, že přesnost výstupů bude obtížné zdokonalit. Z tohoto důvodu vědci zabývající se uchováváním titulů a dat nesoucích karty často pohlížejí dolů na aplikace vytvořené pomocí AutoML - i když je výsledek dostatečně přesný, aby vyřešil daný problém.

Mezi příklady těchto aplikací patří Amazon SageMaker AutoPilot nebo Google Cloud AutoML. Datoví vědci o deset let později nepochybně budou muset být obeznámeni s takovými nástroji. Stejně jako vývojář, který ovládá více programovacích jazyků, budou vědci v oblasti dat potřebovat znalost více prostředí AutoML, aby mohli být považováni za špičkové talenty.

„Ručně vyráběná“ a domácí řešení strojového učení 

V největších podnikových podnicích a společnostech Fortune 500 se v současné době vyvíjí většina pokročilých a proprietárních aplikací strojového učení. Datoví vědci v těchto organizacích jsou součástí velkých týmů, které zdokonalují algoritmy strojového učení s využitím historických dat společnosti a vytvářejí tyto aplikace od základů. Vlastní aplikace, jako jsou tyto, jsou možné pouze se značnými prostředky a talentem, a proto jsou výplaty a rizika tak velká.

  • Profesionálové: Jako každá aplikace vytvořená od nuly, je i vlastní strojové učení „nejmodernější“ a je postaveno na základě hlubokého pochopení daného problému. Je také přesnější - i když jen s malými rezervami - než řešení AutoML a out-of-the-box pro strojové učení.
  • Nevýhody: Získání vlastní aplikace strojového učení k dosažení určitých prahových hodnot přesnosti může být extrémně obtížné a často vyžaduje těžké zvedání týmy datových vědců. Vlastní možnosti strojového učení jsou navíc časově nejnáročnější a nejdražší na vývoj.

Příkladem řešení pro ruční strojové učení začíná s prázdným notebookem Jupyter, ručním importem dat a následným provedením každého kroku od průzkumné analýzy dat přes ruční ladění modelu. Toho je často dosaženo napsáním vlastního kódu pomocí otevřeného zdrojového rámce strojového učení, jako je Scikit-learn, TensorFlow, PyTorch a mnoho dalších. Tento přístup vyžaduje vysokou míru zkušeností i intuice, ale může přinést výsledky, které často překonají služby strojového učení na klíč i AutoML.

Nástroje jako AutoML v příštích 10 letech posunou role a odpovědnosti v oblasti datové vědy. AutoML bere břemeno vývoje strojového učení od základu datových vědců a místo toho dává možnosti technologie strojového učení přímo do rukou jiných řešitelů problémů. S volným časem soustředit se na to, co vědí - na data a samotné vstupy - budou vědci v oblasti dat o deset let sloužit jako ještě cennější průvodci pro jejich organizace.

Eric Miller slouží jako vrchní ředitel technické strategie ve společnosti Rackspace, kde poskytuje strategické poradenské vedení s prokázanými výsledky v budování praxe v ekosystému Amazon Partner Network (APN).Eric, uznávaný technologický lídr s 20 lety prokázaného úspěchu v podnikových IT, vedl několik iniciativ AWS a architektury řešení, včetně hodnotícího partnerského programu AWS Well Architected Framework (WAF), programu Amazon EC2 pro Windows Server AWS Service Delivery Program a široké škály přepsání AWS pro organizace s miliardami dolarů.

Nové technologické fórum poskytuje místo, kde můžete prozkoumat a diskutovat o nově vznikajících podnikových technologiích v nebývalé hloubce a šíři. Výběr je subjektivní, založený na našem výběru technologií, které považujeme za důležité a pro čtenáře nejzajímavější. nepřijímá marketingové materiály ke zveřejnění a vyhrazuje si právo upravovat veškerý přispěný obsah. Všechny dotazy zasílejte na [email protected]