Apache Spark 2 – przetwarzanie Big Data
Każdej sekundy na świecie przybywa około 50 000 GB danych, a pojęcie „Big Data” staje się coraz bardziej pożądaną umiejętnością na rynku pracy. Najpopularniejszą technologią w przetwarzaniu dużej ilości danych jest Apache Spark. Apache Spark jest szybkim silnikiem do przetwarzania danych w pamięci używają go firmy takie jak: Amazon, Ebay, Groupon, NASA JPL czy Yahoo.
Podczas warsztatu zapewniamy dostęp do kawy, herbaty, wody i ciastek. W porze obiadowej zapewniamy pizzę w wersji mięsnej lub wegetariańskiej.
Czego się nauczysz?
- napiszesz aplikację do rozproszonej analizy dużych tekstów
- podłączysz się do strumienia danych z twittera i będziesz analizował dane w czasie rzeczywistym
- przekształcisz ustrukturyzowane dane używając SparkSQL oraz DataFrame
- nauczysz się podstaw analizy struktur grafowych przy użyciu GraphX
Wymagania wstępne
Prowadzący
Java, Scala software developer, tworzył i rozwijał Belgijskie żółte książki telefoniczne, ewidencje państwową CEPIK 2.0, platformę chmurową do przetwarzania Big Data. Obecnie zajmuje się jedną z implementacji Blockchain 3.0. Wielki fan DevOps oraz infrastructure as a code. W wolnym czasie przemierza lasy i bezdroża motocyklem enduro.
Program warsztatów
- Trochę teorii.
- Podstawowa aplikacja spark.
- Zaawansowana aplikacja spark.
- SparkSQL, DataFrames, DataSets.
- Spark Streaming.
- Wprowadzenie do GraphX.
Uwaga
Zapisy na wybrany warsztat zostały zakończone.