#947

Sztuczki ułatwiające życie data scientista w obróbce danych

Warsztat odbywa się w formie zdalnej za pośrednictwem platformy/komunikatora online, z wykorzystaniem dźwięku, obrazu z kamery, udostępniania ekranu komputera prowadzącego i uczestników.

🟢  Warsztat wieczorny w godz. 17:00-21:00 (4 h) 🟢

 

Warsztat jest praktycznym przeglądem usprawnień wprowadzanych stopniowo przez lata do pipeline’ów uczenia maszynowego w języku Python z użyciem pakietu Pandas. Podczas warsztatu zwrócimy też uwagę na potencjalne błędy, aby ich uniknąć w przyszłości. Wszystko w skondensowanej formie

Żarówka

Czego się nauczysz?

Dobrych praktyk w obróbce danych przy pomocy pakietu Pandas, realnie stosowanych w biznesie w działach R&D, które oszczędzają czas i pozwalają na większą kontrolę.
Grupa

Dla kogo jest ten warsztat?

Dla osób, które znają pakiet Pandas i chcą wdrożyć w swoim kodzie niestandardowe rozwiązania.
Notatnik

Wymagania wstępne

Podstawowa umiejętność programowania w języku Python oraz pakietu Pandas.
Dowolny system operacyjny z zainstalowanym Gitem, Pythonem i środowiskiem Conda, virtualenv lub podobnym.

Prowadzący

Mateusz Rezler:

Specjalista ds. Informatyki Chemicznej w Merck KGaA od 2020 roku. Na co dzień zajmuje się rozwojem i utrzymywaniem backendu aplikacji do retosyntezy "Synthia" oraz projektami na styku informatyki chemicznej i uczenia maszynowego. Doktor nauk medycznych i nauk o zdrowiu w dyscyplinie nauki farmaceutyczne oraz absolwent Bootcampu Data Science Pro w Sages. Chętnie łączy wiedzę domenową z programowaniem. Doświadczenie dydaktyczne zdobył na Warszawskim Uniwersytecie Medycznym. Szkolenia traktuje jako sposób na oszczędzenie czasu słuchaczom poprzez przekazywanie wiedzy w możliwie esencjonalny i prosty sposób.

Program warsztatów

1. Przypomnienie podstawowych funkcjonalności pakietu Pandas, niezbędnych do dalszych ćwiczeń.

2. Iterowanie a operacje na wektorach.

3. Radzenie sobie z czasochłonnymi obliczeniami:
3.1. Pomiar czasu wykonania.
3.2. Kontrola przy pomocy pasków postępu.
3.3. Zrównoleglanie obliczeń.
3.4. Połączenie obu powyższych metod.

4. Wydajne sposoby czytania i zapisywania dużych danych:
4.1. Czytanie plików po kawałku.
4.2. Stosowanie cache przy powtarzalnych operacjach.
4.3. Użycie kompresji.
4.4. Dobór metody zapisu do konkretnego zastosowania.

5. Dobre praktyki przy utrzymaniu kodu do obróbki danych:
5.1. Transfer pipeline’u w Jupyter Notebooku do samodzielnego skryptu.
5.2. Interakcja z wynikami pośrednimi.
5.3. Bezpieczne archiwizowanie wyników.
5.4. Testowanie pipeline’ów.

Uwaga

Liczba miejsc ograniczona! Organizator zastrzega sobie prawo do odwołania wydarzenia w przypadku niezgłoszenia się minimalnej liczby uczestników.
Zakupione certyfikaty zostaną przesłane uczestnikom w formie elektronicznej po warsztacie. Jeśli chcesz otrzymać zakupiony certyfikat w formie papierowej, zgłoś to mailowo na adres kontakt@stacja.it.

Zapisy na wybrany warsztat zostały zakończone.