Watson rádoby: 4 projekty open source pro strojovou inteligenci

Za poslední rok, jako součást nových podnikových služeb, které IBM prosazuje své znovuobjevení, se Watson stal méně vychytávkou „Jeopardy“ a více nástrojem. Rovněž zůstává vlastnictvím společnosti IBM.

Jaké jsou tedy šance na vytvoření systému strojového učení v přirozeném jazyce v řádu Watsona, i když s komponentami open source? Do jisté míry se to již stalo - částečně proto, že samotný Watson byl postaven na vrcholu existující práce s otevřeným zdrojovým kódem a další vyvíjejí podobné systémy souběžně s Watsonem. Zde je pohled na čtyři takové projekty.

DARPA DeepDive

Největší značka skupiny, projekt DARPA DeepDive, nemá napodobovat Watsonův prostý dotazovací systém, ale spíše Watsonovu schopnost zlepšit své rozhodování v průběhu času lidským vedením.

Projekt, který vyvinul hlavně Christopher Re, profesor na univerzitě ve Wisconsinu, je open source (Apache 2.0). Podle EE Times je hlavním cílem DeepDive vytvořit automatizovaný systém pro klasifikaci nestrukturovaných dat - v jednom příkladu kategorizace článků v odborných časopisech. Ti, kteří plánují využít DeepDive, by měli být obeznámeni s SQL a Pythonem, ale systém je již schopen extrahovat data z nejrůznějších konvenčních zdrojů, jako jsou webové stránky nebo dokumenty PDF.

Apache UIMA

Nestrukturovaná správa informací (UIMA) je standardem pro provádění analýzy textového obsahu. Watson použil implementaci UIMA, ale nemusíte používat Watson, abyste mohli UIMA používat. Ve skutečnosti byla architektura UIMA od IBM otevřená a je udržována nadací Apache Foundation. Obsahuje podporu pro více programovacích jazyků a pravidelně se přidávají aktualizace (naposledy v říjnu 2014).

Apache UIMA, jak stojí, je dlouhá cesta od toho, aby byla úplným řešením pro strojové učení; je to jen jedna - i když důležitá - součást celku, který IBM vytvořila. Pokud nechcete používat holé kosti, můžete vyzvednout jeden z jeho odvozených projektů, například YodaQA, který pro své zpracování využívá UIMA a jako primární zdroj dat používá Wikipedii.

OpenCog

OpenCog „si klade za cíl poskytnout výzkumným vědcům a vývojářům softwaru společnou platformu pro vytváření a sdílení programů umělé inteligence.“ Ambicí projektu, který je otevřen na základě licence GNU Affero, není podporovat nic menšího než to, co jeho tvůrci nazývají „obecně inteligentní“ systémy, umělá inteligence, která má široké lidské chápání světa místo specializací zaměřených na doménu (například být velmi dobrý v šachu, ale nic jiného).

Tvůrci OpenCogu tvrdí, že jejich rámec se již používá v „aplikacích přirozeného jazyka, jak pro výzkum, tak pro komerční korporace“. To ji staví o něco dále od konceptů AI pie-in-the-sky a blíže k praktické doméně otázek a odpovědí obývané Watsonem.

OAQA (Open Advancement of Question Answering Systems)

Jak název napovídá, posláním OAQA je „otevřený pokrok v inženýrství systémů pro zodpovídání otázek - jazykové softwarové systémy, které poskytují přímé odpovědi na otázky kladené v přirozeném jazyce.“ Zní to jako jeden z Watsonových cílů? Ano, zejména proto, že OAQA byla společně iniciována společností IBM a Carnegie Mellon University. Stejně jako Apache UIMA implementuje OAQA rámec UIMA, ale nemyslete na to jako na okamžité řešení; je to sada nástrojů.

Jednou z hlavních nevýhod každého projektu, jak můžete odhadnout, je to, že nejsou nabízeny v tak rafinovaném nebo vyleštěném balíčku jako Watson. Zatímco Watson je navržen pro okamžité použití v obchodním kontextu, jedná se o surové sady nástrojů, které vyžadují těžké zvedání.

Služby Watsonu již byly předem proškoleny pomocí sestaveného souboru dat z reálného světa. U těchto systémů budete muset dodávat zdroje dat, což se může ukázat jako mnohem větší projekt než samotné programování.

DARPA DeepDive

Apache UIMA

OpenCog

OAQA (Open Advancement of Question Answering Systems)

Mohlo by se Vám také líbit