Data Scientist — Big Data i Przetwarzanie Rozproszone (Spark, Hadoop)
Your 7-Day Learning Journey
0 of 7 days completed
Your Learning Path is Saved!
We're tracking your progress automatically. Create a free account to permanently save this learning path and access advanced features like detailed analytics and personalized recommendations.
What you'll learn:
Czym to jest i dlaczego warto? - Opis: Zrozumienie podstaw data science, roli analityka danych i data scientist. Wprowadzenie do pojęcia Big Data i jego charakterystyki (Vs: Volume, Velocity, Variety, Veracity, Value). Omówienie przykładów zastosowań Big Data w Polsce i na świecie (np. analiza danych e-commerce, analiza sentymentu w mediach społecznościowych, wykorzystanie danych geolokalizacyjnych). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstawowych pojęć, świadomość znaczenia data science i Big Data, motywacja do dalszej nauki.
Personal Notes:
What you'll learn:
Narzędzie Data Scientist - Opis: Wprowadzenie do języka Python: instalacja, podstawowa składnia, zmienne, typy danych (int, float, string, boolean), operatory, struktury kontroli (if-else), pętle (for, while). Przykład prostego skryptu w Pythonie (np. obliczanie średniej z listy liczb). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstaw składni Pythona, umiejętność pisania prostych skryptów.
Personal Notes:
What you'll learn:
NumPy i Pandas - Opis: Wprowadzenie do bibliotek NumPy (operacje na tablicach) i Pandas (manipulacja danymi). Tworzenie tablic NumPy, wykonywanie podstawowych operacji na danych, wczytywanie danych z pliku CSV do Pandas DataFrame, podstawowe operacje na danych (filtrowanie, sortowanie, grupowanie). Przykład: analiza danych z pliku CSV (np. sprzedaż produktów). - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność korzystania z bibliotek NumPy i Pandas do manipulacji danymi, rozumienie pojęcia DataFrame.
Personal Notes:
What you'll learn:
Przetwarzanie Rozproszone i Koncepty - Opis: Wprowadzenie do Apache Spark: co to jest, jak działa przetwarzanie rozproszone, zalety Sparka. Omówienie podstawowych pojęć: RDD (Resilient Distributed Dataset), DataFrames (SparkSQL), SparkContext, Cluster Manager (np. YARN). Zrozumienie, dlaczego Spark jest ważny w Big Data. - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie podstaw Sparka, wiedza o przetwarzaniu rozproszonym, świadomość zalet Sparka.
Personal Notes:
What you'll learn:
SparkShell i RDD (Resilient Distributed Datasets) - Opis: Uruchomienie SparkShell. Tworzenie RDD z danych (np. z listy liczb, z pliku tekstowego). Podstawowe operacje na RDD: `map`, `filter`, `reduce`, `count`, `collect`. Prosty przykład: zliczanie słów w pliku tekstowym. - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność uruchomienia SparkShell, korzystania z podstawowych operacji na RDD.
Personal Notes:
What you'll learn:
Praca z Ustrukturyzowanymi Danymi - Opis: Wprowadzenie do Spark DataFrames. Tworzenie DataFrame z RDD, z plików CSV. Podstawowe operacje na DataFrames: wybieranie kolumn, filtrowanie, grupowanie, agregacja. Wprowadzenie do SparkSQL: wykonywanie zapytań SQL na DataFrame. - Zasoby/Działania: - Oczekiwane rezultaty: Umiejętność tworzenia i manipulacji DataFrame, korzystania z SparkSQL.
Personal Notes:
What you'll learn:
Podstawy i Integracja ze Sparkiem - Opis: Wprowadzenie do Hadoop: HDFS (Hadoop Distributed File System) i jego rola. Przesyłanie plików do HDFS. Integracja ze Sparkiem (odczyt i zapis danych z HDFS). - Zasoby/Działania: - Oczekiwane rezultaty: Zrozumienie roli HDFS, podstawowa wiedza o integracji Hadoop i Spark. Gotowość do dalszej nauki i eksploracji.
Personal Notes:
Share Your Learning Path
Help others discover this learning path