#231

Apache Spark 2 – przetwarzanie Big Data

Każdej sekundy na świecie przybywa około 50 000 GB danych, a pojęcie „Big Data” staje się coraz bardziej pożądaną umiejętnością na rynku pracy. Najpopularniejszą technologią w przetwarzaniu dużej ilości danych jest Apache Spark. Apache Spark jest szybkim silnikiem do przetwarzania danych w pamięci używają go firmy takie jak: Amazon, Ebay, Groupon, NASA JPL czy Yahoo.

Podczas warsztatu zapewniamy dostęp do kawy, herbaty, wody i ciastek. W porze obiadowej zapewniamy pizzę w wersji mięsnej lub wegetariańskiej.

Żarówka

Czego się nauczysz?

W trakcie warsztatu:
- napiszesz aplikację do rozproszonej analizy dużych tekstów
- podłączysz się do strumienia danych z twittera i będziesz analizował dane w czasie rzeczywistym
- przekształcisz ustrukturyzowane dane używając SparkSQL oraz DataFrame
- nauczysz się podstaw analizy struktur grafowych przy użyciu GraphX
Notatnik

Wymagania wstępne

Pomimo, że przykłady będą realizowane w Scali jedynym wymogiem jest podstawowa znajomość jednego z języków programowania.

Prowadzący

Wojciech Koszycki:

Java, Scala software developer, tworzył i rozwijał Belgijskie żółte książki telefoniczne, ewidencje państwową CEPIK 2.0, platformę chmurową do przetwarzania Big Data. Obecnie zajmuje się jedną z implementacji Blockchain 3.0. Wielki fan DevOps oraz infrastructure as a code. W wolnym czasie przemierza lasy i bezdroża motocyklem enduro.

Program warsztatów

  1. Trochę teorii.
  2. Podstawowa aplikacja spark.
  3. Zaawansowana aplikacja spark.
  4. SparkSQL, DataFrames, DataSets.
  5. Spark Streaming.
  6. Wprowadzenie do GraphX.

Uwaga

Liczba miejsc ograniczona! Organizator zastrzega sobie prawo do zmiany lokalizacji wydarzenia oraz jego odwołania w przypadku niezgłoszenia się minimalnej liczby uczestników.

Zapisy na wybrany warsztat zostały zakończone.