Project Oxford: Microsoft nabízí API pro inteligentní aplikace

Microsoft letos na jaře oznámil Project Oxford, sadu SDK a API, která vývojářům umožňuje vytvářet „inteligentní“ aplikace, aniž by se museli učit strojové učení. Pomocí rozhraní API pro obličej, řeč a vidění v Oxfordu mohou vývojáři vytvářet aplikace, které rozpoznávají rysy obličeje, analyzují obrázky nebo provádějí překlady z řeči na text nebo z textu na řeč.

V rozhovoru s redaktorem Large Paul Krill hovořil Ryan Galgon z Microsoftu, vedoucí programového manažera odpovědného za platformu a technologie Project Oxford, o cílech, které stojí za Oxfordem, a zdůraznil jeho potenciál v internetu věcí.

: Kdo vytváří Oxfordské aplikace? Pro koho je Oxford určen?

Galgon: Mnoho lidí přišlo a přihlásilo se ke službám API. Přesná čísla [nejsou] něco, do čeho se mohu dostat, ale měli jsme vytvořeno mnoho účtů Azure, spoustu registrací prostřednictvím našeho Microsoft Azure Marketplace. Lidé za služby kopají a také se snaží o větší využívání služeb. Právě teď jsou všechny nabízeny jako omezená bezplatná vrstva na měsíční bázi a pracujeme na tom, abychom to otevřeli, protože jsme dostali zpětnou vazbu o tom, jaké změny chtějí vývojáři provést v API a modelech.

Je to vše napříč platformami v tom smyslu, že se jedná o soubor webových služeb, ke kterým se přistupuje primárně prostřednictvím rozhraní REST API. Tyto služby typu back-end může volat kdokoli, kdo může kontaktovat web. Poskytujeme sadu SDK, která tyto REST volání zabalí a usnadní jejich použití na klientech jako Android a Windows a iOS. Na služby může volat cokoli, co může uskutečnit HTTP webový hovor.

: Předpokládáte, že se Oxford bude používat hlavně na mobilních zařízeních nebo na desktopech Windows?

Galgon: Bude to především kombinace pravděpodobně mobilních zařízení a zařízení IoT. V tom smyslu, že když lidé používají desktopy, vidím drtivou většinu použití, sedíte tam, máte klávesnici a myš a tento typ vstupu. Ale pokud máte mobilní telefon, pořizujete fotografie, video a zvuk. Je to mnohem snazší a přirozenější zachytit to pomocí malého zařízení. [Bude použita technologie Oxford Project], kde dominantním vstupním případem budou přirozená data, nejen čísla, ale nějaký vizuální nebo zvukový datový typ.

: Řekněte nám o těchto API více. Co mohou vývojáři dělat?

Galgon: Protože chceme oslovit co nejvíce vývojářů, věnovali jsme hodně práce tomu, aby byly velmi snadno použitelné, například pro detekci obličeje nebo počítačové vidění, kategorizaci obrázků. Tyto věci jsou proškoleny a modelovány, postaveny lidmi s dlouholetými zkušenostmi v oblasti výzkumu na těchto místech a nechceme, aby se vývojáři museli stát odborníkem na počítačové vidění. Opravdu jsme se pokusili říct: „Podívejme se, vytvoříme nejlepší model, který můžeme sestavit, zpřístupníme vám ho a zpřístupníme vám ho ve třech řádcích kódu.“

Nemohu mluvit o tom, jak se externí partneři dívají na využívání Oxford API, ale ty hlavní, na kterých Microsoft pracoval, které jste možná viděli, první byl web How-old.net pro předpovídání věků a pohlaví. Pak jsme měli TwinsorNot.net a dostali jsme dvě fotografie, jak podobní jsou tito lidé? Byly to oba dobré příklady Face API. Poslední, která používala Face API a některá Speech API, byl projekt Windows 10 IoT, o kterém bylo napsáno několik blogových příspěvků o tom, kde jste mohli odemknout dveře tváří a konverzovat s dveřmi - nebo zámkem v tom případě. Myslím, že to jsou tři příklady, na kterých společnost Microsoft pracovala, aby vám ukázala, jaký je typ aplikace, kterou lze vytvořit a sdílet s ostatními lidmi.

: Co v těchto REST API způsobuje, že Oxford tiká?

Galgon: Jádrem jsou strojově naučené modely, které jsme vytvořili pro věci, jako je řeč na text. Ať už k němu přistupujete prostřednictvím rozhraní REST API - nebo pomocí řeči na text, můžete k němu přistupovat také prostřednictvím připojení webové zásuvky - kouzlem nebo silnou věcí je tento model, který dokáže převzít zvuk někoho, kdo mluví, a jazyk že je v tom a přeložit to do textového formátu. To je hlavní věc, díky níž Oxford tiká jako celek.

: Proč je Project Oxford oddělen od projektu Azure Machine Learning?

Galgon: V Azure Machine Learning je jednou z hlavních komponent Azure Machine Learning Studio, kde mohou lidé přicházet se svými daty, vytvářet experiment, trénovat svůj vlastní model a poté ho hostovat. V Oxfordu se jedná o předpřipravený model, který má společnost Microsoft, model, který se budeme i nadále zdokonalovat, a necháme lidi tento model využívat přes tato rozhraní REST.

: Jaký typ použití v podnikovém podnikání vidíte pro Project Oxford? Jaký je obchodní případ pro Oxfordské aplikace?

Galgon: V tuto chvíli neexistují žádní konkrétní partneři, o kterých bych mohl opravdu mluvit, ale myslím, že jedním z případů, o který jsme viděli velký zájem, kde osobně vidím mnoho případů použití, je, když jde o internet věcí - připojená zařízení. Když se podívám na to, jak se lidé dívají na budování zařízení IoT, nemáte klávesnici a myš a často ani skutečný monitor spojený se všemi těmito zařízeními, ale je snadné tam připevnit mikrofon a je to docela snadné také tam nalepit kameru. Pokud zkombinujete něco jako řečové API a LUIS (Language Understanding Intelligent Service), pak zařízení, které má pouze mikrofon a žádný jiný způsob vstupu, nyní s ním můžete mluvit, říct mu, co chcete dělat, přeložit to do soubor strukturovaných akcí a využijte to v back-endu. To je místo, kde si myslím, že uvidíme mnoho případů použití pro Oxford API.

: Zmínil jste iOS a Android. Jaké bylo přijetí na těchto platformách?

Galgon: Díky tomu, že API vytvářejí RESTful, a poskytujeme jim tyto obaly, jsme určitě viděli, jak si lidé tyto obaly stahují a využívají je. Ale na konci dne se stane: „Tady je obálka jazyka Java kolem webového volajícího,“ „Tady je obálka Objective-C kolem volání z webu.“ Nemáme příliš podrobné informace o tom, jaké zařízení přesně volá.

: Bude Oxford otevřeným zdrojem?

Galgon: Neplánujeme open-sourcing hlavních modelů a nemám o tom co sdílet, protože modely průběžně aktualizujeme. Sady SDK, které poskytujeme, protože jsou obaly těchto volání REST, tento zdrojový kód je k dispozici a je k dispozici ke stažení pro kohokoli z dnešního webu. Ale opět jde o skrytý obal věcí a ve fórech MSDN jsme skutečně viděli lidi, kteří kolem sebe poskytovali úryvky kódu v různých jazycích.

: Jak plánuje společnost Microsoft vydělat peníze z Oxfordu?

Galgon: API na Marketplace jsou dnes zdarma pro omezené použití, takže získáte 5 000 transakcí API měsíčně. To je jediný plán, který nyní máme k dispozici. V budoucnu zavedeme placené plány na základě použití rozhraní API.

: Co bude dál pro Oxford?

Galgon: Odkud jdeme, jsou to opravdu tři oblasti. První oblast je o aktualizaci a vylepšení stávajících modelů. Dostali jsme zpětnou vazbu od vývojářů [o tom, jak] jedno z API nemusí u určitých typů obrázků dobře fungovat. Vylepšíme tam základní model.

Jednou z dalších věcí, které uděláme, je, že budeme neustále rozšiřovat počet funkcí vrácených z modelů. Dnes vám rozhraní Face API poskytuje předpokládaný věk a předpokládané pohlaví. Viděli jsme spoustu žádostí o to, abychom mohli rozpoznat další obsah v obrázcích.

Třetí oblastí je, že rozšíříme portfolio API, které máme. Dnes máme čtyři, ale rozhodně jsme neskončili. Nemyslíme si, že celý prostor, který chceme poskytnout, nebo nástroje, které chceme poskytnout, ještě není kompletní. Neustále budeme přidávat nová rozhraní API, která si poradí s různými datovými typy nebo mohou poskytnout velmi odlišné typy porozumění přirozeným datům, než jaké dnes poskytujeme.

Mohlo by se Vám také líbit