#101

Wprowadzenie do Big Data i Apache Spark

Poznaj Apache Spark – najszybciej rozwijający się projekt Big Data ostatnich lat – podczas jednodniowych warsztatów z ekspertem! Program oferuje szybki start w świecie przetwarzania Big Data wraz z Apache Spark. Oprócz prezentacji, dla uczestników jest przygotowany warsztat, gdzie w praktyce będą mieli okazję samodzielnie eksplorować zbiory danych.

Żarówka

Czego się nauczysz?

'- zdobędziesz podstawową wiedzę, dotyczącą problemów skali Big Data,
- dowiesz się co to RDD,
- poznasz największą rewolucję w Big Data od czasów Hadoop: Apache Spark,
- poznasz zalety i wady omawianych technologii.
Notatnik

Wymagania wstępne

Od uczestników wymagana jest podstawowa wiedza z SQLa, basha, Pythona (lub innego języka skryptowego) oraz Javy. Uczestnicy w trakcie zajęć korzystają z własnego sprzętu (wymagany komputer z min. 6GB RAM i procesorem Intel i5 lub nowszym/podobnym).

Prowadzący

Jakub Nowacki:

Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.

Program warsztatów

  1. Wstęp do Big Data.
    1. Definicja.
    2. Czym jest Big Data?
    3. Geneza i historia Big Data.
    4. Typy przetwarzania Big Data.
  2. Apache Spark.
    1. Wstęp.
    2. Historia.
    3. Spark a Hadoop.
    4. Architektura.
    5. Warianty uruchomienia klastra.
  3. Spark Core.
    1. Wstęp.
    2. Java vs Scala vs Python.
    3. Łączenie z klastrem.
    4. Rozproszone dane.
    5. Operacje.
    6. Współdzielone zmienne.
    7. Uruchomienie i testowanie.
  4. Spark SQL
    1. Wstęp.
    2. Spark SQL a Hive.
    3. Zasada działania.
    4. Dane i schematy.
    5. Zapytania.
    6. Integracja z Hive.
    7. Uruchomienie i testowanie.
  5. Spark Streaming
    1. Wstęp.
    2. Zasada działania.
    3. Strumienie.
    4. Uruchomienie i testowanie.
  6. Pozostałe komponenty rodziny Apache Spark
    1. MLlib.
    2. GraphX.

Uwaga

W trosce o jakość warsztatów jesteśmy zmuszeni ograniczyć liczbę uczestników. **Kwalifikacja odbywa się na podstawie odpowiedzi udzielonych w formularzu zgłoszeniowym oraz - w dalszym kroku - kolejności zgłoszeń.** Potwierdzenie udziału w warsztatach wraz z instrukcją przygotowania środowiska otrzymasz najpóźniej na 7 dni przed planowaną datą wydarzenia.

Zapisy na wybrany warsztat zostały zakończone.