Lekcja 6: Spark DataFrames i SparkSQL

Lesson Content

Wprowadzenie do Spark DataFrames

Spark DataFrame to ustrukturyzowany zbiór danych zorganizowany w kolumny i wiersze, podobny do tabeli w bazie danych lub arkusza kalkulacyjnego. Dzięki DataFrame praca z danymi w Sparku staje się bardziej intuicyjna i wydajna. Są one zbudowane nad RDD (Resilient Distributed Datasets), co pozwala na optymalizację i wydajność przetwarzania danych. Zaleta: łatwiejsza manipulacja danych i integracja z SparkSQL. Pomyśl o tym jak o tabeli w Excelu, ale o wiele bardziej skalowalnej!

Tworzenie DataFrame

DataFrame możemy utworzyć na kilka sposobów. Najpopularniejszym jest konwersja z RDD lub wczytanie danych z pliku CSV.

Z RDD:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()

rdd = spark.sparkContext.parallelize([("Anna", 30), ("Jan", 25), ("Ewa", 35)])
df = spark.createDataFrame(rdd, ["Imię", "Wiek"])
df.show()

Z pliku CSV:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CSVReader").getOrCreate()

df = spark.read.csv("dane.csv", header=True, inferSchema=True)
df.show()

Załóżmy, że plik dane.csv zawiera dane o klientach, takie jak imię, wiek i miasto. header=True informuje Sparka, że pierwszy wiersz to nagłówki kolumn, a inferSchema=True próbuje automatycznie określić typy danych w kolumnach. Pamiętaj o poprawnym ustawieniu ścieżki do pliku CSV!

Podstawowe Operacje na DataFrame

Po utworzeniu DataFrame, możemy wykonywać na nim różnego rodzaju operacje:

Wybieranie kolumn: Używamy select():
python df.select("Imię").show() df.select(["Imię", "Wiek"]).show()
Filtrowanie: Używamy filter() lub where():
python df.filter(df.Wiek > 30).show() df.where(df.Miasto == "Warszawa").show()
Grupowanie i Agregacja: Używamy groupBy() i funkcji agregujących (np. count(), avg(), sum()):
python df.groupBy("Miasto").count().show() df.groupBy("Miasto").agg({"Wiek": "avg"}).show()
(Pamiętaj, aby dostosować przykłady do danych z dane.csv)

Wprowadzenie do SparkSQL

SparkSQL pozwala na wykonywanie zapytań SQL na DataFrame. To ułatwia pracę z danymi, jeśli znasz SQL. Najpierw musimy zarejestrować DataFrame jako tymczasową tabelę:

df.createOrReplaceTempView("klienci")

Teraz możemy używać spark.sql() do wykonywania zapytań:

result = spark.sql("SELECT Imię, Wiek FROM klienci WHERE Miasto = 'Kraków'")
result.show()

Możemy również używać standardowych zapytań SQL, takich jak GROUP BY, ORDER BY, JOIN, itp. To naprawdę potężne narzędzie!

Deep Dive

Explore advanced insights, examples, and bonus exercises to deepen understanding.

Rozszerzona Lekcja: Spark DataFrames i SparkSQL - Dzień 6

Witaj! Po opanowaniu podstaw pracy z Spark DataFrames i SparkSQL, pora na głębsze zanurzenie. Dziś poszerzymy Twoją wiedzę, zagłębiając się w zaawansowane techniki i praktyczne zastosowania.

Deep Dive: Zaawansowane Techniki i Perspektywy

Znamy już podstawy, ale co dalej? Przyjrzyjmy się głębiej niektórym aspektom pracy z DataFrame:

Optymalizacja zapytań SparkSQL: Dowiedz się, jak wykorzystać EXPLAIN do zrozumienia planu wykonania zapytania i identyfikacji wąskich gardeł. Poznaj techniki buforowania (cache, persist) dla przyspieszenia ponownych obliczeń. Pamiętaj o optymalizacji partycjonowania danych (repartition, coalesce) dla lepszego rozkładu obciążenia.
Funkcje User Defined Functions (UDF): Wprowadź do swojego kodu niestandardowe funkcje SQL, które mogą wykonywać bardziej złożone operacje na danych. Pamiętaj jednak, że UDF w Pythonie (np. udf z pyspark.sql.functions) mogą być wolniejsze niż natywne operacje Sparka – staraj się je minimalizować!
Obsługa Schematów: Precyzyjne definiowanie schematów danych (StructType, StructField) pozwala na optymalizację przechowywania i wydajności. Praktyka: buduj schematy dynamicznie, aby radzić sobie z danymi o zmiennej strukturze.
Przetwarzanie Strurmieniowe (Spark Streaming w skrócie): Choć to temat na osobne szkolenie, warto wiedzieć, że SparkSQL i DataFrames są fundamentem przetwarzania strumieni danych. Integracja z Apache Kafka, RabbitMQ czy innymi źródłami danych strumieniowych jest możliwa.

Przykład: Optymalizacja Zapytania

Załóżmy, że masz DataFrame z danymi o sprzedaży. Chcesz obliczyć sumę sprzedaży dla każdego produktu, ale zapytanie trwa długo. Użyj EXPLAIN:

            
            df.createOrReplaceTempView("sprzedaz")
            zapytanie = """
                SELECT produkt, SUM(wartosc) AS suma_sprzedazy
                FROM sprzedaz
                GROUP BY produkt
            """
            df_wynik = spark.sql(zapytanie)
            df_wynik.explain(True) # Pokaż plan wykonania

Z analizy planu wykonania możesz zidentyfikować problemy, np. zbyt dużą liczbę shuffle. Użyj repartition, by zoptymalizować.

Bonus Ćwiczenia

Ćwiczenie 1: UDF w Akcji. Utwórz UDF w Sparku, która konwertuje cenę w euro na złotówki (kurs z dzisiaj!). Zastosuj ją do kolumny z cenami w DataFrame.
Ćwiczenie 2: Analiza Logów. Masz plik logów serwera w formacie CSV. Zaimportuj go do DataFrame, zdefiniuj schemat, a następnie znajdź 10 najczęstszych adresów IP. Wykorzystaj SparkSQL. Pamiętaj, aby usunąć niepotrzebne znaki z pól (np. cudzysłowy).
Ćwiczenie 3: Optymalizacja z EXPLAIN. Wykonaj zapytanie na dużym zbiorze danych (możesz wygenerować losowe dane). Użyj EXPLAIN, aby zidentyfikować potencjalne problemy z wydajnością. Następnie spróbuj zoptymalizować zapytanie, używając cache lub partycjonowania. Jakie zmiany zaobserwowałeś?

Real-World Connections: Gdzie to się przydaje?

Praca z Spark DataFrames i SparkSQL to umiejętność na wagę złota w wielu branżach:

E-commerce: Analiza zachowań klientów, rekomendacje produktów, personalizacja ofert. Na przykład, analiza danych z zamówień (DataFrame) z wykorzystaniem SQL do identyfikacji najbardziej popularnych produktów.
Finanse: Wykrywanie oszustw, analiza ryzyka, optymalizacja portfeli inwestycyjnych. Przykład: przetwarzanie dużych zbiorów transakcji w czasie rzeczywistym w poszukiwaniu podejrzanych wzorców.
Telekomunikacja: Analiza ruchu sieciowego, optymalizacja kosztów, obsługa klientów. Wykorzystanie do przetwarzania danych z logów połączeń (DataFrame) i generowania raportów.
Marketing: Segmentacja klientów, analiza skuteczności kampanii reklamowych. Przetwarzanie danych z różnych źródeł (DataFrame) w celu budowania spersonalizowanych kampanii.
Badania Naukowe: Przetwarzanie danych genomicznych, analiza danych satelitarnych, symulacje. Spark może przetwarzać duże zbiory danych, które są typowe dla badań naukowych.

Polski akcent: Wyobraź sobie, że pracujesz dla Allegro lub InPost. Znajomość SparkSQL i DataFrames to klucz do analizy milionów transakcji, śledzenia przesyłek i optymalizacji logistyki.

Challenge Yourself: Wyzwania dla Zaawansowanych

Zintegruj SparkSQL z bazą danych: Spróbuj odczytać dane z bazy danych (np. PostgreSQL, MySQL) do DataFrame, a następnie zapisz wyniki zapytań z powrotem do bazy.
Twórz złożone dashboardy: Wykorzystaj Spark i Python (np. bibliotekę Plotly lub Bokeh) do wizualizacji danych z DataFrames w interaktywnych dashboardach.
Implementacja Spark Streaming: Podłącz Spark do strumienia danych (np. Apache Kafka) i przetwarzaj dane w czasie rzeczywistym, używając DataFrames i SQL.

Further Learning: Dokąd dalej?

Oto kilka tematów, które warto zgłębić:

Apache Spark Streaming: Przetwarzanie danych strumieniowych w czasie rzeczywistym.
Apache Kafka: Platforma do przetwarzania strumieni danych.
Modelowanie danych: Projektowanie schematów baz danych i hurtowni danych dla potrzeb Spark.
Apache Airflow: Orkiestracja przepływów danych w Sparku (i nie tylko!).
Wizualizacja Danych: Narzędzia do wizualizacji danych (np. Tableau, Power BI, Plotly, Bokeh).
Sztuczna Inteligencja i uczenie maszynowe w Sparku: Wykorzystanie biblioteki MLlib.

Powodzenia w dalszej nauce! Pamiętaj, praktyka czyni mistrza. Eksperymentuj, testuj i baw się danymi!

Interactive Exercises

Ćwiczenie 1: Tworzenie DataFrame z RDD

Utwórz RDD z danymi o produktach (nazwa, cena, kategoria) i przekształć je w DataFrame. Wyświetl zawartość DataFrame.

Ćwiczenie 2: Wczytywanie i Eksploracja CSV

Wczytaj plik CSV (możesz pobrać przykładowy plik z internetu z danymi o sprzedaży). Wyświetl schemat DataFrame za pomocą `df.printSchema()`. Wyświetl kilka pierwszych wierszy za pomocą `df.show()`. Znajdź i wypisz liczbę wierszy i kolumn.

Ćwiczenie 3: Filtrowanie i Wybieranie

Na podstawie DataFrame z poprzedniego ćwiczenia, wybierz tylko kolumny "Produkt" i "Cena". Następnie, przefiltruj dane, aby wyświetlić tylko produkty, których cena jest powyżej 100 zł.

Ćwiczenie 4: Agregacja i SparkSQL

Wykorzystaj `groupBy` i funkcje agregujące, aby znaleźć średnią cenę produktów w każdej kategorii. Następnie, zarejestruj DataFrame jako tymczasową tabelę i wykonaj zapytanie SQL, aby znaleźć najdroższy produkt.

Knowledge Check

Key Takeaways

Spark DataFrame to ustrukturyzowany sposób pracy z danymi w Sparku.
DataFrame można tworzyć z RDD, plików CSV i innych źródeł.
Podstawowe operacje na DataFrame obejmują wybieranie, filtrowanie, grupowanie i agregację.
SparkSQL umożliwia wykonywanie zapytań SQL na DataFrame.

Regenerating Content

Spark DataFrames i SparkSQL

Learning Objectives

Lesson Content

Wprowadzenie do Spark DataFrames

Tworzenie DataFrame

Podstawowe Operacje na DataFrame

Wprowadzenie do SparkSQL

Deep Dive

Rozszerzona Lekcja: Spark DataFrames i SparkSQL - Dzień 6

Deep Dive: Zaawansowane Techniki i Perspektywy

Bonus Ćwiczenia

Real-World Connections: Gdzie to się przydaje?

Challenge Yourself: Wyzwania dla Zaawansowanych

Further Learning: Dokąd dalej?

Interactive Exercises

Ćwiczenie 1: Tworzenie DataFrame z RDD

Ćwiczenie 2: Wczytywanie i Eksploracja CSV

Ćwiczenie 3: Filtrowanie i Wybieranie

Ćwiczenie 4: Agregacja i SparkSQL

Knowledge Check

Question 1: Co to jest Spark DataFrame?

Question 2: Jak tworzymy DataFrame z pliku CSV?

Question 3: Która funkcja służy do wybierania kolumn w DataFrame?

Question 4: Jakie słowo kluczowe używamy do filtrowania danych w DataFrame?

Question 5: Co musisz zrobić, aby móc wykonywać zapytania SQL na DataFrame?

Practical Application

Key Takeaways

Next Steps

Your Progress is Being Saved!

Extended Learning Content