Na dzisiejszej lekcji skupimy się na analizie korelacji i zależności między zmiennymi w eksploracyjnej analizie danych (EDA). Nauczymy się, jak identyfikować związki między zmiennymi, mierzyć ich siłę i kierunek, oraz zrozumieć, jak te informacje mogą wpłynąć na nasze wnioski i dalszą analizę.
Korelacja mierzy siłę i kierunek liniowego związku między dwiema zmiennymi. Jest to kluczowy element w EDA, pozwalający nam na zrozumienie, jak zmienne są ze sobą powiązane. Na przykład, wyobraźmy sobie sprzedaż lodów i temperaturę na dworze. Zazwyczaj, im wyższa temperatura, tym więcej lodów się sprzedaje – to przykład korelacji dodatniej. Z drugiej strony, im więcej ćwiczysz przed egzaminem, tym mniej stresu odczuwasz - korelacja ujemna. Pamiętajmy, że korelacja NIE oznacza przyczynowości! To, że dwie zmienne są skorelowane, nie oznacza, że jedna powoduje drugą. Może istnieć trzecia zmienna (np. pogoda dla lodów), która wpływa na obie.
Najczęściej używanym miernikiem korelacji jest współczynnik korelacji Pearsona (r). Wartość r mieści się w zakresie od -1 do 1:
Do obliczania współczynnika Pearsona możemy użyć biblioteki pandas
w Pythonie, używając metody .corr()
. Na przykład, dla dwóch kolumn zmienna1
i zmienna2
w naszym DataFrame df
: df[['zmienna1', 'zmienna2']].corr()
.
Wizualizacja jest kluczowa dla zrozumienia korelacji. Najczęściej używamy:
W Pythonie do tworzenia wykresów możemy użyć bibliotek matplotlib
i seaborn
. Na przykład, aby narysować wykres rozrzutu: import matplotlib.pyplot as plt; plt.scatter(df['zmienna1'], df['zmienna2'])
.
To bardzo ważne! Korelacja nie jest równoznaczna z przyczynowością. To, że dwie zmienne są skorelowane, nie oznacza, że jedna powoduje drugą. Może istnieć trzecia zmienna, która wpływa na obie (tzw. zmienna zakłócająca lub konfundująca). Na przykład, korelacja między sprzedażą lodów i utonięciami może być dodatnia, ale nie oznacza to, że jedzenie lodów powoduje utonięcia. Obie zmienne są po prostu związane z wyższą temperaturą (trzecia zmienna).
Explore advanced insights, examples, and bonus exercises to deepen understanding.
Witamy na rozszerzonej lekcji z eksploracyjnej analizy danych (EDA)! Dziś pogłębimy naszą wiedzę na temat korelacji i zależności między zmiennymi. Po omówieniu podstaw, przejdziemy do bardziej zaawansowanych koncepcji, przykładów i zastosowań.
Dotychczas skupiliśmy się na współczynniku korelacji Pearsona, idealnym do mierzenia liniowych zależności między zmiennymi ciągłymi. Ale co z innymi typami danych i zależnościami? Poniżej kilka alternatywnych podejść:
Pamiętaj: Wybór odpowiedniej miary zależy od typu danych i rodzaju oczekiwanej zależności!
Sprawdźmy naszą wiedzę i umiejętności!
Dane: Użyjmy zestawu danych dotyczących cen mieszkań (np. z serwisu Otodom). Wybierz dwie zmienne numeryczne (np. powierzchnia i cena) i oblicz współczynnik korelacji Pearsona, Spearmana i Kendalla. Porównaj wyniki i zinterpretuj je.
Cel: Zrozumieć, jak różne miary korelacji mogą dawać różne wyniki i dlaczego to ważne.
Dane: Zbadajmy związek między zmiennymi kategorycznymi. Wybierzmy zmienną "lokalizacja" (np. dzielnica miasta) i "liczba pokoi" w mieszkaniu. Wykorzystaj test Chi-kwadrat, aby sprawdzić, czy istnieje istotny związek między tymi zmiennymi. Następnie oblicz V Craméra, aby oszacować siłę tego związku.
Cel: Wykorzystać odpowiednie narzędzia do analizy zmiennych kategorycznych.
Zrozumienie korelacji ma ogromne znaczenie w wielu dziedzinach:
Przykład z Polski: Sprzedaż lodów w sezonie letnim a temperatura powietrza. Zależność jest oczywista, ale mierzenie jej za pomocą EDA pozwala na lepsze zrozumienie i prognozowanie popytu.
Spróbujmy czegoś trudniejszego!
Czas na dalszą eksplorację!
Użyj biblioteki `pandas` w Pythonie i danych, które używaliśmy w poprzednich lekcjach (np. dotyczących sprzedaży produktów w sklepie). Oblicz współczynnik korelacji Pearsona między ceną produktu a ilością sprzedanych sztuk.
Wykorzystaj mapę korelacji wygenerowaną dla przykładowego zestawu danych (np. dane dotyczące wynagrodzeń, wykształcenia i doświadczenia). Zidentyfikuj najsilniejsze korelacje dodatnie i ujemne, oraz wyjaśnij, co oznaczają.
Dla dwóch zmiennych z Twojego zestawu danych (np. dochód i wydatki) stwórz wykres rozrzutu i spróbuj zidentyfikować wzór korelacji. Czy widzisz liniowy związek? Czy są jakieś obserwacje odstające?
Wyobraź sobie, że pracujesz jako analityk w firmie e-commerce. Twoim zadaniem jest zbadanie zależności między różnymi cechami produktów (cena, oceny klientów, popularność) a sprzedażą. Jakie techniki EDA, a szczególnie korelacji, możesz wykorzystać, aby zidentyfikować produkty, które dobrze się sprzedają i dowiedzieć się, co na to wpływa?
Przygotuj się do następnej lekcji, gdzie omówimy regresję liniową, która pomaga w przewidywaniu wartości zmiennych na podstawie związków liniowych.
We're automatically tracking your progress. Sign up for free to keep your learning paths forever and unlock advanced features like detailed analytics and personalized recommendations.