Data Scientist — Big Data i Przetwarzanie Rozproszone (Spark, Hadoop)

Your 7-Day Learning Journey

0.0%

0 of 7 days completed

Your Learning Path is Saved!

We're tracking your progress automatically. Create a free account to permanently save this learning path and access advanced features like detailed analytics and personalized recommendations.

What you'll learn:

Czym to jest i dlaczego warto? - Opis: Zrozumienie podstaw data science, roli analityka danych i data scientist. Wprowadzenie do pojęcia Big Data i jego charakterystyki (Vs: Volume, Velocity, Variety, Veracity, Value). Omówienie przykładów zastosowań Big Data w Polsce i na świecie (np. analiza danych e-commerce, analiza sentymentu w mediach społecznościowych, wykorzystanie danych geolokalizacyjnych). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstawowych pojęć, świadomość znaczenia data science i Big Data, motywacja do dalszej nauki.

Personal Notes:

What you'll learn:

Narzędzie Data Scientist - Opis: Wprowadzenie do języka Python: instalacja, podstawowa składnia, zmienne, typy danych (int, float, string, boolean), operatory, struktury kontroli (if-else), pętle (for, while). Przykład prostego skryptu w Pythonie (np. obliczanie średniej z listy liczb). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstaw składni Pythona, umiejętność pisania prostych skryptów.

Personal Notes:

What you'll learn:

NumPy i Pandas - Opis: Wprowadzenie do bibliotek NumPy (operacje na tablicach) i Pandas (manipulacja danymi). Tworzenie tablic NumPy, wykonywanie podstawowych operacji na danych, wczytywanie danych z pliku CSV do Pandas DataFrame, podstawowe operacje na danych (filtrowanie, sortowanie, grupowanie). Przykład: analiza danych z pliku CSV (np. sprzedaż produktów). - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność korzystania z bibliotek NumPy i Pandas do manipulacji danymi, rozumienie pojęcia DataFrame.

Personal Notes:

What you'll learn:

Przetwarzanie Rozproszone i Koncepty - Opis: Wprowadzenie do Apache Spark: co to jest, jak działa przetwarzanie rozproszone, zalety Sparka. Omówienie podstawowych pojęć: RDD (Resilient Distributed Dataset), DataFrames (SparkSQL), SparkContext, Cluster Manager (np. YARN). Zrozumienie, dlaczego Spark jest ważny w Big Data. - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstaw Sparka, wiedza o przetwarzaniu rozproszonym, świadomość zalet Sparka.

Personal Notes:

What you'll learn:

SparkShell i RDD (Resilient Distributed Datasets) - Opis: Uruchomienie SparkShell. Tworzenie RDD z danych (np. z listy liczb, z pliku tekstowego). Podstawowe operacje na RDD: `map`, `filter`, `reduce`, `count`, `collect`. Prosty przykład: zliczanie słów w pliku tekstowym. - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność uruchomienia SparkShell, korzystania z podstawowych operacji na RDD.

Personal Notes:

What you'll learn:

Praca z Ustrukturyzowanymi Danymi - Opis: Wprowadzenie do Spark DataFrames. Tworzenie DataFrame z RDD, z plików CSV. Podstawowe operacje na DataFrames: wybieranie kolumn, filtrowanie, grupowanie, agregacja. Wprowadzenie do SparkSQL: wykonywanie zapytań SQL na DataFrame. - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność tworzenia i manipulacji DataFrame, korzystania z SparkSQL.

Personal Notes:

What you'll learn:

Podstawy i Integracja ze Sparkiem - Opis: Wprowadzenie do Hadoop: HDFS (Hadoop Distributed File System) i jego rola. Przesyłanie plików do HDFS. Integracja ze Sparkiem (odczyt i zapis danych z HDFS). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie roli HDFS, podstawowa wiedza o integracji Hadoop i Spark. Gotowość do dalszej nauki i eksploracji.

Personal Notes:

Share Your Learning Path

Help others discover this learning path

Generation Progress

No active generations

View Dashboard