W tym dniu zajęć skupimy się na wartościach odstających, czyli nietypowych obserwacjach w naszych danych. Nauczymy się, jak je identyfikować i jak podejmować decyzje dotyczące ich przetwarzania, aby poprawić jakość analizy danych.
Wartości odstające to obserwacje, które znacznie odbiegają od pozostałych danych w zbiorze. Mogą one wynikać z błędów pomiarowych, nieprawidłowości w danych lub po prostu reprezentować rzadkie, ale istotne zdarzenia. Ich obecność może zakłócać analizę i prowadzić do błędnych wniosków. Wyobraźmy sobie, że analizujemy zarobki w Polsce. Pojedyncza osoba zarabiająca miliony złotych rocznie (np. prezes dużej firmy) może być wartością odstającą, która zaburza średnią zarobków dla całej grupy.
Istnieje wiele sposobów wizualizacji danych, które pomagają w identyfikacji wartości odstających:
Histogramy: Wykresy te pokazują rozkład danych. Wartości odstające często pojawiają się jako oddzielne punkty lub "wąsy" na skrajnych krańcach histogramu.
Diagramy pudełkowe (Box ploty): Są bardzo przydatne do wizualizacji kwartyli, mediany i wartości odstających. Wartości odstające są zwykle reprezentowane jako pojedyncze punkty poza "wąsami" diagramu.
Diagramy rozrzutu (Scatter ploty): Używane, gdy analizujemy dwie zmienne. Pozwalają na zobaczenie, czy wartość odstająca ma wpływ na relację między zmiennymi. Na przykład, obserwując relację wieku i zarobków, możemy zauważyć nietypowo wysoką pensję dla osoby w młodym wieku.
Przykład: Spójrzmy na diagram pudełkowy reprezentujący rozkład cen mieszkań w Warszawie. Jeżeli zobaczysz punkty poza wąsami, to prawdopodobnie wartości odstające - bardzo drogie mieszkania.
Poza wizualizacją, możemy użyć miar statystycznych:
Reguła 1.5 * IQR: IQR (Interquartile Range) to różnica między trzecim a pierwszym kwartylem. Wartości, które leżą poniżej Q1 - 1.5 * IQR lub powyżej Q3 + 1.5 * IQR, są uważane za wartości odstające. To bardzo popularna metoda, odporna na obecność wartości odstających w danych.
Wykorzystanie średniej i odchylenia standardowego: Obserwacje, które są oddalone o więcej niż 2-3 odchylenia standardowe od średniej, mogą być traktowane jako wartości odstające. Ta metoda jest wrażliwa na wartości odstające i powinna być stosowana ostrożnie, szczególnie gdy dane nie mają rozkładu normalnego.
Przykład: Jeśli obliczymy IQR dla cen mieszkań i okaże się, że wynosi 500 000 zł, a Q1 wynosi 400 000 zł i Q3 wynosi 900 000 zł, to wartości poniżej 400 000 - 1.5 * 500 000 = -350 000 zł i powyżej 900 000 + 1.5 * 500 000 = 1 650 000 zł mogą być traktowane jako wartości odstające.
Gdy już zidentyfikujemy wartości odstające, musimy zdecydować, co z nimi zrobić. Oto kilka opcji:
Usuwanie: Najprostsza metoda. Jeżeli wartości odstające wynikają z błędów lub są mało istotne dla analizy, usunięcie ich może poprawić jakość wyników. Uważaj, aby nie usunąć zbyt dużej części danych.
Transformacja: Możemy przekształcić dane za pomocą logarytmu, pierwiastka kwadratowego lub innych funkcji, aby zmniejszyć wpływ wartości odstających na analizę. Na przykład, logarytmowanie cen mieszkań może zmniejszyć wpływ bardzo drogich mieszkań.
Imputacja: Zastąpienie wartości odstających innymi wartościami, np. średnią, medianą lub wartością z zakresu. To dobre rozwiązanie, gdy chcemy zachować wszystkie dane, ale musimy uważać, aby nie zniekształcić rozkładu danych.
Analiza z uwzględnieniem wartości odstających: W niektórych przypadkach wartości odstające są istotne i powinny być uwzględnione w analizie, np. badanie bogactwa najbogatszych osób. W takim przypadku można użyć zaawansowanych metod, które są na to odporne.
Explore advanced insights, examples, and bonus exercises to deepen understanding.
Dzień dobry! Po zapoznaniu się z identyfikacją i wstępnym podejściem do wartości odstających, zagłębiamy się w temat, aby jeszcze lepiej zrozumieć ich wpływ i sposoby radzenia sobie z nimi w analizie danych. Pamiętajcie, że wartości odstające to nie zawsze błąd! Czasami są to po prostu ciekawe obserwacje, które warto dokładniej zbadać.
Oprócz metod wizualizacji (wykresy pudełkowe, histogramy) i klasycznych miar statystycznych (IQR), warto poznać i wykorzystać inne techniki:
Ważny aspekt: Wybór metody przetwarzania (usuwanie, transformacja, imputacja) zależy od kontekstu biznesowego, charakteru danych i celu analizy. Nie ma uniwersalnej odpowiedzi! Zawsze rozważajmy, co te wartości reprezentują i jaki wpływ mają na nasze wnioski.
Podpowiedź: Możesz użyć `stats.zscore()` dla Z-score i skorzystać z gotowych implementacji dla Robust Z-score, np. z biblioteki `scikit-learn` (jeśli dostępna) lub znaleźć gotowe funkcje w internecie.
Podpowiedź: Upewnijcie się, że dane są odpowiednio przeskalowane przed klasteryzacją (np. za pomocą `StandardScaler`). Rozważcie użycie metody "elbow" do wyboru optymalnej liczby klastrów.
Zrozumienie i właściwe zarządzanie wartościami odstającymi ma kluczowe znaczenie w wielu dziedzinach:
Przykład z Polski: Wyobraźcie sobie analizę danych z rynku nieruchomości. Wartością odstającą może być apartament w luksusowym wieżowcu w centrum Warszawy, który znacząco przewyższa ceną typowe mieszkania w danym regionie. Zignorowanie takiej obserwacji mogłoby zniekształcić analizę cen. Ale z drugiej strony, ta wartość może być kluczowa, aby zrozumieć dynamikę rynku premium.
Zadanie: Wykorzystajcie technikę transformacji box-cox (z biblioteki `scipy.stats`) w celu znormalizowania kolumny z wartościami odstającymi w waszym zestawie danych. Następnie porównajcie wyniki analizy (np. rozkład danych, wyniki regresji liniowej) przed i po transformacji. Jak transformacja wpływa na wyniki?
Podpowiedź: Box-Cox to transformacja potęgowa, która pomaga znormalizować dane, minimalizując wpływ wartości odstających. Wymaga przeskalowania danych tak, aby wszystkie wartości były dodatnie.
Powodzenia w dalszej eksploracji i analizie danych! Pamiętajcie, że wiedza o wartościach odstających to klucz do tworzenia rzetelnych i wartościowych wniosków.
Użyjemy biblioteki `matplotlib` i `seaborn` w Pythonie (lub dowolnego innego narzędzia do wizualizacji danych) do stworzenia histogramu i diagramu pudełkowego dla danych dotyczących cen mieszkań (znajdź przykładowy zbiór danych online lub wygeneruj go losowo). Zidentyfikuj potencjalne wartości odstające na podstawie wizualizacji.
Za pomocą kodu (np. w Pythonie z biblioteką `numpy` lub `pandas`) oblicz IQR dla danych dotyczących cen mieszkań. Następnie, użyj reguły 1.5 * IQR, aby zidentyfikować wartości odstające.
Zdecyduj, która metoda przetwarzania wartości odstających (usuwanie, transformacja, imputacja) jest najbardziej odpowiednia dla danych z ćwiczenia 1 i 2. Zastosuj wybraną metodę (np. usuń wartości odstające lub zastąp je medianą) i porównaj statystyki (np. średnią) przed i po przetworzeniu.
Zastanów się, w jakich sytuacjach wartości odstające mogą być zarówno problemem, jak i cennym źródłem informacji. Podaj przykłady z życia codziennego lub z branży, którą znasz.
Wyobraź sobie, że pracujesz dla firmy zajmującej się obrotem nieruchomościami w Warszawie. Otrzymujesz zbiór danych o cenach mieszkań. Twoim zadaniem jest przygotowanie raportu, który uwzględnia ceny mieszkań, ale również jest odporny na wpływ bardzo drogich mieszkań. Zastosuj techniki wykrywania i przetwarzania wartości odstających, aby przygotować bardziej wiarygodne analizy.
Na następnych zajęciach omówimy brakujące dane (missing data) i metody ich przetwarzania. Przygotuj się na zapoznanie z różnymi typami braków danych i strategiami ich uzupełniania (imputacji).
We're automatically tracking your progress. Sign up for free to keep your learning paths forever and unlock advanced features like detailed analytics and personalized recommendations.