W dzisiejszej lekcji zagłębimy się w podstawy statystyki, które stanowią fundament pracy każdego Data Scientist. Poznamy kluczowe pojęcia, które pomogą nam zrozumieć i analizować dane, od zmiennych po rozkłady prawdopodobieństwa.
Zrozumienie rodzajów zmiennych jest kluczowe dla wyboru odpowiednich metod analizy. Mamy cztery podstawowe rodzaje:
Miary centralnego trendu pomagają zidentyfikować „typową” wartość w zbiorze danych.
Miary rozproszenia informują o tym, jak bardzo dane są rozrzucone wokół wartości centralnych.
Przykład: Rozważmy dane dotyczące wieku klientów w sklepie: 20, 25, 30, 35, 40. Obliczamy średnią, medianę, wariancję i odchylenie standardowe.
Rozkład prawdopodobieństwa opisuje, jak prawdopodobne jest wystąpienie różnych wartości zmiennej. Najbardziej znanym rozkładem jest rozkład normalny (dzwon), który opisuje wiele zjawisk w przyrodzie i biznesie. Inne ważne rozkłady to rozkład jednostajny, dwumianowy i Poissona.
Explore advanced insights, examples, and bonus exercises to deepen understanding.
Witamy w rozszerzeniu dzisiejszej lekcji! Po zapoznaniu się z podstawami statystyki, zanurzmy się głębiej w niuanse analizy danych. Dowiemy się, jak te podstawowe narzędzia pomagają nam nie tylko rozumieć dane, ale także efektywnie komunikować wnioski biznesowe.
Przyjrzyjmy się dokładniej niektórym z omawianych pojęć, aby uzyskać głębsze zrozumienie ich znaczenia i zastosowania.
Pamiętajmy, że typ zmiennej determinuje, jakie operacje możemy na niej wykonywać. Na przykład, na zmiennych nominalnych (np. kolory samochodów) nie możemy obliczać średniej, ale możemy liczyć dominantę (najpopularniejszy kolor). Zmienne porządkowe (np. poziom wykształcenia: podstawowe, średnie, wyższe) pozwalają na określenie kolejności, ale odstępy między kategoriami nie zawsze są równe. Zmienne interwałowe (np. temperatura w stopniach Celsjusza) mają równe odstępy, ale brak im naturalnego zera (0°C nie oznacza braku temperatury). Zmienne ilorazowe (np. wzrost, zarobki) mają naturalne zero i pozwalają na wszystkie operacje matematyczne.
Wybór odpowiedniej miary centralnego trendu zależy od rodzaju danych i potencjalnych outliers (wartości odstających). Średnia jest wrażliwa na outliers, dlatego w przypadku danych z dużymi odchyłami, mediana (wartość środkowa) jest bardziej reprezentatywna. Dominanta jest użyteczna dla danych nominalnych i porządkowych, ale może być mniej informatywna w przypadku danych ciągłych.
Przykład: W analizie zarobków w firmie, średnia może być zawyżona przez wysokie zarobki kadry zarządzającej, podczas gdy mediana lepiej odda typowe zarobki pracowników.
Rozkłady prawdopodobieństwa, takie jak rozkład normalny (krzywa Gaussa), pozwalają modelować prawdopodobieństwo wystąpienia różnych wyników. Rozkład normalny jest powszechny w naturze i biznesie (np. wzrost ludzi, wyniki testów). Zrozumienie rozkładu pomaga przewidywać przyszłe wyniki i oceniać ryzyko.
Przykład: W branży ubezpieczeniowej, rozkład prawdopodobieństwa jest wykorzystywany do oceny prawdopodobieństwa wystąpienia zdarzeń (np. wypadków samochodowych) i ustalania stawek ubezpieczeniowych.
Zidentyfikuj typ zmiennych dla następujących przypadków:
Przeanalizuj następujący zestaw danych: 10, 12, 15, 18, 20, 25, 100. Oblicz średnią, medianę i dominantę. Co możesz powiedzieć o tych danych na podstawie tych miar? Jaki wpływ na te miary ma wartość "100"?
Statystyka jest wszechobecna w biznesie.
Zbierz dane o średnich cenach mieszkań w Twojej okolicy (możesz skorzystać z portali ogłoszeniowych). Oblicz średnią, medianę, wariancję i odchylenie standardowe. Spróbuj zinterpretować wyniki w kontekście lokalnego rynku nieruchomości. Jakie czynniki mogą wpływać na rozkład cen?
NumPy
, Pandas
, i SciPy
, które ułatwią analizę danych.Określ typ zmiennej dla następujących danych: 1. Wzrost (w cm) 2. Ocena w skali szkolnej (1-6) 3. Kod pocztowy 4. Marka samochodu 5. Temperatura w stopniach Fahrenheita
Dla danych: 10, 12, 15, 18, 20. Oblicz średnią, medianę i dominantę. (Jeśli istnieje domanata)
Wyjaśnij, co oznacza wysokie i niskie odchylenie standardowe w kontekście wyników sprzedaży.
Załóżmy, że pracujesz dla sieci sklepów odzieżowych. Twoim zadaniem jest analiza danych sprzedażowych, aby zidentyfikować trendy i optymalizować zapasy. Użyj podstawowych miar statystycznych, aby przeanalizować dane dotyczące sprzedaży w poszczególnych miesiącach i produktach.
Przygotuj się na następną lekcję, w której omówimy wizualizację danych. Zapoznaj się z różnymi typami wykresów i dowiedz się, jak je tworzyć i interpretować.
We're automatically tracking your progress. Sign up for free to keep your learning paths forever and unlock advanced features like detailed analytics and personalized recommendations.