Ten dzień poświęcimy na podsumowanie dotychczasowej wiedzy na temat eksploracyjnej analizy danych (EDA). Zakończymy kurs, prezentując wyniki EDA i zastosujemy zdobytą wiedzę w praktycznym projekcie.
Przejdźmy przez najważniejsze elementy, które poznaliśmy w trakcie kursu. Przypomnimy sobie, jak używać bibliotek, takich jak Pandas, Matplotlib i Seaborn. Skupimy się na:
df.head()
, df.info()
, df.describe()
(statystyki opisowe). Przykład: dane_o_sprzedazy.head(10)
pokazuje pierwsze 10 wierszy danych o sprzedaży. dane_o_sprzedazy.describe()
generuje statystyki dla kolumn numerycznych.df.isnull().sum()
, df.fillna()
), usuwanie duplikatów (df.duplicated().sum()
), konwersja typów danych (astype()
).plt.hist(dane_o_sprzedazy['cena'], bins=30)
tworzy histogram cen produktów.df.corr()
), identyfikowanie zależności między zmiennymi. Przykład: sns.heatmap(dane_o_sprzedazy.corr(), annot=True)
generuje heatmapę korelacji.sns.countplot(x='kategoria', data=dane_o_sprzedazy)
pokazuje liczebność kategorii produktów.Skuteczna prezentacja jest kluczem do przekazania wniosków z EDA. Wykorzystujemy wizualizacje, aby opowiedzieć historię danych. Pamiętajmy o:
Pracujmy nad przykładowym zestawem danych o sprzedaży w lokalnym sklepie spożywczym. Dane zawierają informacje o produktach, cenach, kategoriach, datach sprzedaży i ilości sprzedanych produktów.
Kroki:
dane = pd.read_csv('sprzedaz.csv')
.dane.info()
, dane.isnull().sum()
, dane.describe()
.dane['data'] = pd.to_datetime(dane['data'])
.Explore advanced insights, examples, and bonus exercises to deepen understanding.
Gratulacje! Dotarliśmy do ostatniego dnia kursu poświęconego eksploracyjnej analizie danych (EDA). Dziś nie tylko podsumujemy wszystko, czego się nauczyliśmy, ale także zastosujemy naszą wiedzę w praktycznym projekcie. Pamiętajmy, że EDA to fundament każdego projektu Data Science, a umiejętne jej wykorzystanie potrafi zdziałać cuda!
Choć przeszliśmy przez podstawy, EDA to proces, który ewoluuje wraz z każdym nowym projektem i danymi. Spójrzmy na kilka bardziej zaawansowanych perspektyw, które mogą wzbogacić Twoją analizę:
pandas-profiling
w Pythonie), które automatycznie generują raporty EDA. To świetne narzędzie do szybkiego przeglądu danych, ale pamiętaj, że nic nie zastąpi Twojej własnej analizy i zrozumienia! Automatyzacja to tylko początek, a nie koniec pracy.
Czas na ćwiczenia, które pozwolą Ci utrwalić wiedzę!
Dla poniższych zestawów danych, wskaż odpowiednią miarę centralnej tendencji i rozproszenia. Uzasadnij swój wybór:
Wykorzystaj zestaw danych o sprzedaży (możesz znaleźć go np. na Kaggle). Stwórz wizualizację, która pokaże interakcję pomiędzy trzema zmiennymi: ilość sprzedanego towaru, cena jednostkowa, i kategoria produktu. Jak możesz to zrobić, aby wizualizacja była czytelna?
Gdzie możemy wykorzystać EDA w realnym świecie? Oto kilka przykładów, które pokazują, jak potężna jest ta technika:
Chcesz spróbować czegoś trudniejszego? Spróbuj tych zadań:
pandas-profiling
(Python) i spróbuj wygenerować automatyczny raport EDA dla wybranego zbioru danych. Jakie są mocne i słabe strony tego rozwiązania?
Gratulacje! Dotarłeś do końca kursu. To dopiero początek Twojej podróży w świat Data Science. Kontynuuj naukę i rozwijaj swoje umiejętności. Oto kilka tematów, które warto zgłębić:
plotly
).Powodzenia w dalszej nauce! Pamiętaj, że praktyka czyni mistrza. Im więcej będziesz ćwiczyć, tym lepiej opanujesz EDA i będziesz gotowy na prawdziwe wyzwania w świecie danych.
Masz zestaw danych `dane_sprzedazy.csv`. Znajdź i obsłuż brakujące wartości w kolumnie 'cena'. Zamień je średnią ceną. Sprawdź, czy dane zawierają duplikaty i usuń je. Sprawdź poprawność typów danych. Plik 'dane_sprzedazy.csv' zawiera kolumny: 'produkt', 'cena', 'kategoria', 'data', 'ilosc'.
Na podstawie danych z poprzedniego ćwiczenia, stwórz histogram rozkładu cen produktów, wykres słupkowy 10 najpopularniejszych produktów i wykres liniowy sprzedaży w czasie. Użyj czytelnych etykiet i tytułów.
Przygotuj 5-minutową prezentację wyników EDA dla wylosowanego zestawu danych (np. sprzedaż w sklepie, dane pogodowe z lokalizacji). Zwróć uwagę na klarowną strukturę prezentacji, logiczną kolejność wykresów i trafne wnioski. Wykorzystaj zdobyte umiejętności wizualizacji danych.
Wyobraź sobie, że jesteś analitykiem danych w małym sklepie internetowym. Twoim zadaniem jest przeanalizowanie danych o sprzedaży, aby zidentyfikować mocne i słabe strony oferty, a następnie przedstawić rekomendacje dla właściciela sklepu. Wykorzystaj EDA, aby odkryć trendy sprzedaży, popularne produkty, potencjalne problemy (np. brakujące dane, duplikaty) i zaproponuj rozwiązania, takie jak np. optymalizacja cen, promocje czy dobór asortymentu.
Na kolejnych zajęciach przejdziemy do modelowania danych, czyli uczenia maszynowego. Przygotuj się na zapoznanie z biblioteką Scikit-learn.
We're automatically tracking your progress. Sign up for free to keep your learning paths forever and unlock advanced features like detailed analytics and personalized recommendations.