Programování

Apache Spark 3.0 přidává podporu Nvidia GPU pro strojové učení

Apache Spark, rámec pro zpracování velkých objemů dat v paměti, bude ve své brzy inkarnační verzi 3.0 plně akcelerován GPU. Nejlepší ze všeho je, že dnešní aplikace Spark mohou využívat zrychlení GPU bez úprav; stávající rozhraní Spark API fungují tak, jak jsou.

Komponenty akcelerace GPU poskytované společností Nvidia jsou navrženy tak, aby doplňovaly všechny fáze aplikací Spark, včetně operací ETL, školení strojového učení a odvozování.

Příspěvky Nvidia Spark čerpají ze sady RAPIDS knihoven datových věd s akcelerací GPU. Mnoho interních datových struktur RAPIDS, jako jsou datové rámce, doplňují vlastní Spark, ale přimět Spark nativně používat RAPIDS trvalo téměř čtyři roky práce.

Zrychlení Spark 3.0 nepocházejí pouze z akcelerace GPU. Spark 3.0 také sklízí zvýšení výkonu minimalizací pohybu dat do az GPU. Když je třeba data přesunout přes klastr, rozhraní Unified Communication X je převede přímo z jednoho bloku paměti GPU do druhého s minimální režií.

Podle Nvidia přineslo vydání verze Spark 3.0 spuštěné na platformě Databricks sedminásobné zlepšení výkonu při použití akcelerace GPU, ačkoli podrobnosti o pracovní zátěži a její datové sadě nebyly k dispozici.

Pro obecnou dostupnost Sparku 3.0 nebylo uvedeno žádné pevné datum. Můžete si stáhnout ukázková vydání z webových stránek projektu Apache Spark.