Wprowadzenie do Big Data i Apache Spark
Poznaj Apache Spark – najszybciej rozwijający się projekt Big Data ostatnich lat – podczas jednodniowych warsztatów z ekspertem! Program oferuje szybki start w świecie przetwarzania Big Data wraz z Apache Spark. Oprócz prezentacji, dla uczestników jest przygotowany warsztat, gdzie w praktyce będą mieli okazję samodzielnie eksplorować zbiory danych.
Czego się nauczysz?
- dowiesz się co to RDD,
- poznasz największą rewolucję w Big Data od czasów Hadoop: Apache Spark,
- poznasz zalety i wady omawianych technologii.
Wymagania wstępne
Prowadzący
Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.
Program warsztatów
- Wstęp do Big Data.
- Definicja.
- Czym jest Big Data?
- Geneza i historia Big Data.
- Typy przetwarzania Big Data.
- Apache Spark.
- Wstęp.
- Historia.
- Spark a Hadoop.
- Architektura.
- Warianty uruchomienia klastra.
- Spark Core.
- Wstęp.
- Java vs Scala vs Python.
- Łączenie z klastrem.
- Rozproszone dane.
- Operacje.
- Współdzielone zmienne.
- Uruchomienie i testowanie.
- Spark SQL
- Wstęp.
- Spark SQL a Hive.
- Zasada działania.
- Dane i schematy.
- Zapytania.
- Integracja z Hive.
- Uruchomienie i testowanie.
- Spark Streaming
- Wstęp.
- Zasada działania.
- Strumienie.
- Uruchomienie i testowanie.
- Pozostałe komponenty rodziny Apache Spark
- MLlib.
- GraphX.
Uwaga
Zapisy na wybrany warsztat zostały zakończone.