#556

Jak uniknąć błędów w przetwarzaniu danych przy użyciu PySpark?

Warsztat odbywa się w formie zdalnej za pośrednictwem platformy/komunikatora online, z wykorzystaniem dźwięku, obrazu z kamery, udostępniania ekranu komputera prowadzącego i uczestników.

🟢  Warsztat weekendowy w godz. 9:00-17:00 (8h) 🟢

 

Jak często ręcznie poprawiasz błędy w danych? Jak często użytkownicy danych informują Cię o błędach których żaden z programistów nie zauważył? Czy nie byłoby lepiej gdyby kod przetwarzający dane zawsze produkował prawidłowy wynik lub przynajmniej informował o tym, że dane nie nadają się do dalszego przetwarzania?

Żarówka

Czego się nauczysz?

W czasie warsztatu nauczysz się testować kod PySpark w sposób dokumentujący proces biznesowy zaimplementowany w aplikacji oraz weryfikować, że dane wejściowe są poprawne. W programie warsztatu: pisanie testów PySpark przy użyciu Pytest, użycie Behavior Driven Development do testowania PySparka (oraz dokumentowania specyfikacji), weryfikowanie poprawności danych wejściowych przy użyciu python-deequ.
Grupa

Dla kogo jest ten warsztat?

Warsztat dla data engineerów używających PySparka
Notatnik

Wymagania wstępne

Uczestnicy powinni potrafić pisać kod PySpark i uruchomić PySpark w środowisku lokalnym.

Prowadzący

Bartosz Mikulski:

Data engineer (specjalizuje się w użyciu PySpark na platformie AWS), prelegent (Data Natives, LambdaDays oraz meetupy), blogger (https://mikulskibartosz.name). Współorganizator meetupów Poznan Software Craft Group oraz (już nieistniejącego) Poznan Scala User Group.

Program warsztatów

1. Jak wydzielić testowalny kod z kodu przetwarzającego dane
2. Uruchamianie PySpark w Pytest
3. Użycie Pytest do testowania PySpark
     3.1. Testowanie UDF
4. Behavior Driven Development
     4.1 Użycie Behave do testowania PySpark
5. Testowanie danych wejściowych przy użyciu python-deequ

Uwaga

Liczba miejsc ograniczona! Organizator zastrzega sobie prawo do odwołania wydarzenia w przypadku niezgłoszenia się minimalnej liczby uczestników.
Zakupione certyfikaty zostaną przesłane uczestnikom w formie elektronicznej po warsztacie. Jeśli chcesz otrzymać zakupiony certyfikat w formie papierowej, zgłoś to mailowo na adres kontakt@stacja.it.

Zapisy na wybrany warsztat zostały zakończone.