Programování

Recenze: Google Cloud AutoML je skutečně automatizované strojové učení

Když se pokoušíte automaticky vycvičit nejlepší model strojového učení pro svá data, existuje AutoML nebo automatické strojové učení a pak je tu Google Cloud AutoML. Google Cloud AutoML je výřez výše.

V minulosti jsem zkontroloval H2O Driverless AI, Amazon SageMaker a Azure Machine Learning AutoML. AI bez řidiče automaticky provádí inženýrství funkcí a vyladění hyperparametru a tvrdí, že funguje stejně jako mistři Kaggle. Amazon SageMaker podporuje optimalizaci hyperparametrů. Azure Machine Learning AutoML automaticky projde funkcemi, algoritmy a hyperparametry pro základní algoritmy strojového učení; samostatný nástroj pro ladění hyperparametrů Azure Machine Learning umožňuje zamést konkrétní hyperparametry pro existující experiment.

To je dobré, ale Google Cloud AutoML jde na úplně jinou úroveň a přizpůsobuje bitevně testované vysoce přesné hluboké neurální sítě pro vaše označená data. Spíše než začít od nuly při trénování modelů z vašich dat, Google Cloud AutoML implementuje automatické hluboké přenosové učení (to znamená, že začíná od existující hluboké neurální sítě trénované na jiných datech) a vyhledávání neurální architektury (což znamená, že najde správnou kombinaci síťové vrstvy) pro překlad jazykových párů, klasifikaci přirozeného jazyka a klasifikaci obrázků.

V každé oblasti Google již má jednu nebo více předem vyškolených služeb založených na hlubokých neuronových sítích a obrovských sadách označených dat. Mohou dobře fungovat pro vaše data nezměněná a měli byste to otestovat, abyste ušetřili čas a peníze. Pokud tyto služby nedělají to, co potřebujete, Google Cloud AutoML vám pomůže vytvořit model, který to udělá, aniž byste museli vědět, jak provádět přenosové učení nebo dokonce jak vytvářet neuronové sítě.

Přenos učení nabízí dvě velké výhody oproti tréninku neurální sítě od nuly. Nejprve to vyžaduje mnohem méně dat pro školení, protože většina vrstev sítě je již dobře proškolena. Zadruhé, běží mnohem rychleji, protože optimalizuje pouze konečné vrstvy.

Auto Cloud Překlad Google Cloud

Například pomocí hodinového učení přenosu Google Cloud AutoML Translation můžete trénovat proti 1 000 dvojjazyčným větným párům za hodinu nebo dvě. Přizpůsobená základní neuronová síť, NMT, trvala stovky až tisíce hodin od nuly pro každý jazykový pár, a to na velkém počtu CPU a GPU. Upozorňujeme, že hodinový poplatek za školení vlastního modelu překladu je v současné době 76 $.

Průvodce pro začátečníky s překladem AutoML vysvětluje základy toho, co Google Cloud AutoML Translation dokáže, a proč byste jej měli používat. V zásadě vylepšuje existující obecný překladový model pro specializované účely. Nemusíte absolvovat žádné školení Všeobecné překlad asi stovky jazyků, které Google již podporuje, ale pokud chcete vytvořit překladatelskou síť pro specializované slovní zásoba nebo použití. Jedním z příkladů, které Google zmiňuje, je překlad časově citlivých finančních dokumentů v reálném čase. Obecný překlad nemusí vždy pro finance používat správné umělecké výrazy.

Nastavení školení pro Google Cloud AutoML Translation je proces o pěti krocích, jak je znázorněno na následujících obrázcích, jakmile si připravíte soubor s páry vět. Použil jsem 8 720 anglicko-španělských párů pro výzvy aplikací poskytované Googlem v Rychlém startu AutoML Translation, naformátovaném jako soubor hodnot oddělených tabulátory. Google Cloud AutoML Translation také podporuje formát párování vět s překladovou pamětí založený na XML (TMX).

Všimněte si, že neexistuje možnost ovládat hardware (CPU, GPU, TPU a paměť) používaný k provedení školení. To je záměrné: Školení využije to, co potřebuje. Neexistují také žádné možnosti ovládání vrstev neuronové sítě přidávaných do modelu, počtu epoch, které se mají spustit, nebo kritérií zastavení.

Jakmile je školení modelu dokončeno, můžete zobrazit zlepšení (pokud vše proběhne dobře) ve skóre BLEU oproti základnímu modelu a zkusit s modelem dělat předpovědi. Toto školení trvalo 0,9 hodiny (méně, než se předpokládalo) a stálo 68,34 USD.

Přirozený jazyk Google Cloud AutoML

Rozhraní Google Natural Language API přebírá text a předpovídá entity, sentiment, syntaxi a kategorie (z předdefinovaného seznamu). Pokud se váš problém s klasifikací textu nehodí k žádnému z nich, můžete zadat sadu příkazů se štítky a použít Google Cloud AutoML Natural Language k vytvoření vlastního klasifikátoru.

Chcete-li nastavit AutoML Natural Language pro školení, musíte získat svá data, označit je, připravit jako soubor CSV a spustit školení. Můžete také použít uživatelské rozhraní AutoML v přirozeném jazyce k nahrávání a označení dat, pokud chcete.

Po dokončení tréninku modelu můžete zobrazit matici přesnosti, vyvolání a zmatení modelu. Můžete také upravit prahovou hodnotu skóre pro požadovaný kompromis přesnosti / vyvolání. Chcete-li minimalizovat falešné negativy, optimalizujte je pro vyvolání. Chcete-li minimalizovat falešná pozitiva, optimalizujte je na přesnost.

Toto školení trvalo 3,63 hodiny (přibližně podle předpovědi) a stálo 10,88 $.

Google Cloud AutoML Vision

Rozhraní Google Cloud Vision API klasifikuje obrázky do tisíců předdefinovaných kategorií, detekuje jednotlivé objekty a tváře v obrázcích a vyhledává a čte tištěná slova obsažená v obrázcích. Google Cloud AutoML Vision vám umožňuje definovat a trénovat vlastní seznam kategorií. Některé aplikace v reálném životě zahrnují detekci poškození větrných turbín z fotografií dronů a klasifikaci recyklovatelných materiálů pro nakládání s odpady.

Chcete-li nastavit datovou sadu Google Cloud AutoML Vision, musíte pro každou kategorii získat nejméně 100 obrázků a označit je v souboru CSV. Všechny obrázky a soubor CSV musí být umístěny v kbelíku Google Cloud Storage.

Nastavil jsem tento trénink tak, aby běžel maximálně hodinu, což je zdarma až pro 10 modelů měsíčně. Byl jsem příjemně překvapen, když jsem viděl dobré výsledky z bezplatného tréninku, a neobtěžoval jsem se pokračovat v tréninku, abych zlepšil přesnost a odvolání.

Google Cloud AutoML poskytuje pohodlné možnosti pro provádění cílených překladů, přizpůsobené klasifikace textu a přizpůsobené klasifikace obrázků. Každé z těchto API funguje dobře, pokud mu poskytnete dostatečně přesně označená data a zabere vám mnohem méně času a dovedností než budování vlastního modelu neuronové sítě nebo dokonce vlastního modelu učení přenosu. S Google Cloud AutoML ve skutečnosti vytváříte modely TensorFlow, aniž byste nutně věděli cokoli o TensorFlow, Pythonu, architekturách neuronových sítí nebo cvičném hardwaru.

Existuje spousta způsobů, jak špatně připravit data, ale naštěstí všechny tři rozhraní API kontrolují nejčastější chyby, například příliš málo nebo příliš mnoho příkladů pro libovolnou kategorii. Diagnostika zobrazená po tréninku vám poskytne dobrou představu o tom, jak dobře váš model funguje, a můžete snadno vyladit modely přidáním více označených tréninkových dat a opětovným spuštěním školení.

Náklady: Překlad Google Cloud AutoML: Školení stojí 76,00 $ za hodinu, překlad 80 $ za milion znaků po prvních 500 tis. Přirozený jazyk Google Cloud AutoML: Školení stojí 3,00 $ za hodinu, klasifikace 5 $ za tisíc textových záznamů po prvních 30 tis. Vize Google Cloud AutoML: Školení stojí 20 USD za hodinu po první hodině, klasifikace 3 USD za tisíc obrázků po první tisíci.

Plošina: Google Cloud Platform

$config[zx-auto] not found$config[zx-overlay] not found