Jak uniknąć błędów w przetwarzaniu danych przy użyciu PySpark?
🟢 Warsztat weekendowy w godz. 9:00-17:00 (8h) 🟢
Jak często ręcznie poprawiasz błędy w danych? Jak często użytkownicy danych informują Cię o błędach których żaden z programistów nie zauważył? Czy nie byłoby lepiej gdyby kod przetwarzający dane zawsze produkował prawidłowy wynik lub przynajmniej informował o tym, że dane nie nadają się do dalszego przetwarzania?
Czego się nauczysz?
Dla kogo jest ten warsztat?
Wymagania wstępne
Prowadzący
Data engineer (specjalizuje się w użyciu PySpark na platformie AWS), prelegent (Data Natives, LambdaDays oraz meetupy), blogger (https://mikulskibartosz.name). Współorganizator meetupów Poznan Software Craft Group oraz (już nieistniejącego) Poznan Scala User Group.
Program warsztatów
1. Jak wydzielić testowalny kod z kodu przetwarzającego dane
2. Uruchamianie PySpark w Pytest
3. Użycie Pytest do testowania PySpark
3.1. Testowanie UDF
4. Behavior Driven Development
4.1 Użycie Behave do testowania PySpark
5. Testowanie danych wejściowych przy użyciu python-deequ
Uwaga
Zakupione certyfikaty zostaną przesłane uczestnikom w formie elektronicznej po warsztacie. Jeśli chcesz otrzymać zakupiony certyfikat w formie papierowej, zgłoś to mailowo na adres kontakt@stacja.it.
Zapisy na wybrany warsztat zostały zakończone.