#23

Wprowadzenie do Big Data i Apache Spark

Stało się: Stacja IT zawitała do Trójmiasta! Na dobry początek ruszamy ze Sparkiem, wkrótce kolejne tematy. W ramach inauguracji #stacja3city warsztaty są bezpłatne.

Poznaj Apache Spark – najszybciej rozwijający się projekt Big Data ostatnich lat – podczas jednodniowych warsztatów z ekspertem! Program oferuje szybki start w świecie przetwarzania Big Data wraz z Apache Spark. Oprócz prezentacji, dla uczestników jest przygotowany warsztat, gdzie w praktyce będą mieli okazję samodzielnie eksplorować zbiory danych.

Czego się nauczysz?

'- zdobędziesz podstawową wiedzę, dotyczącą problemów skali Big Data,
- dowiesz się co to RDD,
- poznasz największą rewolucję w Big Data od czasów Hadoop: Apache Spark,
- poznasz zalety i wady omawianych technologii.

Wymagania wstępne

Od uczestników wymagana jest podstawowa wiedza z SQLa, basha, Pythona (lub innego języka skryptowego) oraz Javy. Uczestnicy w trakcie zajęć korzystają z własnego sprzętu (wymagany komputer z min. 6GB RAM i procesorem Intel i5 lub nowszym/podobnym).

Prowadzący

Jakub Nowacki:

Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.

Program warsztatów

Wstęp do Big Data.
1. Definicja.
2. Czym jest Big Data?
3. Geneza i historia Big Data.
4. Typy przetwarzania Big Data.
Apache Spark.
1. Wstęp.
2. Historia.
3. Spark a Hadoop.
4. Architektura.
5. Warianty uruchomienia klastra.
Spark Core.
1. Wstęp.
2. Java vs Scala vs Python.
3. Łączenie z klastrem.
4. Rozproszone dane.
5. Operacje.
6. Współdzielone zmienne.
7. Uruchomienie i testowanie.
Spark SQL
1. Wstęp.
2. Spark SQL a Hive.
3. Zasada działania.
4. Dane i schematy.
5. Zapytania.
6. Integracja z Hive.
7. Uruchomienie i testowanie.
Spark Streaming
1. Wstęp.
2. Zasada działania.
3. Strumienie.
4. Uruchomienie i testowanie.
Pozostałe komponenty rodziny Apache Spark
1. MLlib.
2. GraphX.

Uwaga

W trosce o jakość warsztatów jesteśmy zmuszeni ograniczyć liczbę uczestników. **Kwalifikacja odbywa się na podstawie odpowiedzi udzielonych w formularzu zgłoszeniowym oraz - w dalszym kroku - kolejności zgłoszeń.** Potwierdzenie udziału w warsztatach wraz z instrukcją przygotowania środowiska otrzymasz najpóźniej na 7 dni przed planowaną datą wydarzenia.

Zapisy na wybrany warsztat zostały zakończone.