weka explorer visualization
W tym samouczku wyjaśniono, jak przeprowadzić wizualizację danych, analizę klastrów K-średnich i eksplorację reguł asocjacji za pomocą WEKA Explorer:
w Poprzedni samouczek , dowiedzieliśmy się o zestawie danych WEKA, klasyfikatorze i algorytmie J48 dla drzewa decyzyjnego.
Jak widzieliśmy wcześniej, WEKA jest narzędziem do eksploracji danych typu open source, używanym przez wielu badaczy i studentów do wykonywania wielu zadań uczenia maszynowego. Użytkownicy mogą również budować swoje metody uczenia maszynowego i przeprowadzać eksperymenty na przykładowych zbiorach danych zawartych w katalogu WEKA.
Wizualizację danych w WEKA można przeprowadzić przy użyciu przykładowych zestawów danych lub zestawów danych utworzonych przez użytkownika w formacie .arff, .csv.
=> Przeczytaj całą serię szkoleń z zakresu uczenia maszynowego
Wydobywanie reguł asocjacyjnych jest wykonywane przy użyciu algorytmu Apriori. Jest to jedyny algorytm dostarczany przez WEKA do częstego wydobywania wzorców.
W WEKA istnieje wiele algorytmów służących do przeprowadzania analizy klastrów, takich jak FartherestFirst, FilteredCluster i HierachicalCluster, itp. Spośród nich użyjemy SimpleKmeans, która jest najprostszą metodą grupowania.
Czego się nauczysz:
- Wydobywanie reguł asocjacyjnych za pomocą WEKA Explorer
- Algorytm K-średnich wykorzystujący WEKA Explorer
- Wdrażanie wizualizacji danych za pomocą WEKA
- Wniosek
Wydobywanie reguł asocjacyjnych za pomocą WEKA Explorer
Zobaczmy, jak zaimplementować wyszukiwanie reguł asocjacyjnych za pomocą WEKA Explorer.
Association Rule Mining
Został opracowany i zaprojektowany przez Srikanta i Aggarwal w 1994 roku. Pomaga nam znaleźć wzorce w danych. Jest to proces eksploracji danych, który wyszukuje cechy, które występują razem lub cechy, które są skorelowane.
pytania i odpowiedzi na wywiady z programistami java dla odświeżających
Zastosowania reguł asocjacyjnych obejmują analizę koszyka rynkowego, w celu analizy pozycji zakupionych w jednym koszyku; Marketing krzyżowy do współpracy z innymi firmami, które zwiększają wartość naszych produktów biznesowych, takimi jak dealer pojazdów i firma naftowa.
Reguły asocjacji są wydobywane po znalezieniu częstych zestawów elementów w dużym zbiorze danych. Te zbiory danych są wyszukiwane przy użyciu algorytmów eksploracji, takich jak Apriori i FP Growth. Częste eksplorowanie zestawów przedmiotów wykorzystuje dane pomocnicze i miary zaufania.
Wsparcie i zaufanie
Wsparcie mierzy prawdopodobieństwo, że dwa produkty zostaną zakupione razem w jednej transakcji, np. chleb i masło. Pewność siebie to miara określająca prawdopodobieństwo, że dwa produkty zostaną zakupione jeden po drugim, ale nie łącznie, np. oprogramowanie antywirusowe na laptop i komputer.
Zakłada się, że minimalne wsparcie progowe i minimalne wartości progowe ufności ograniczają transakcje i określają najczęściej występujący zestaw pozycji.
Wdrożenie z wykorzystaniem WEKA Explorer
WEKA zawiera implementację Algorytm Apriori do nauki reguł asocjacyjnych. Apriori działa tylko z atrybutami binarnymi, danymi kategorycznymi (danymi nominalnymi), więc jeśli zestaw danych zawiera jakiekolwiek wartości liczbowe, zamień je najpierw na nominalne.
Apriori poznaje wszystkie zasady z minimalnym wsparciem i progiem zaufania.
Wykonaj poniższe kroki:
# 1) Przygotuj zbiór danych pliku Excela i nazwij go „ apriori.csv ”.
#dwa) Otwórz WEKA Explorer iw zakładce Preprocess wybierz plik „apriori.csv”.
# 3) Plik zostanie teraz załadowany do WEKA Explorer.
# 4) Usuń pole Transakcja, zaznaczając pole wyboru i klikając Usuń, jak pokazano na poniższym obrazku. Teraz zapisz plik jako „aprioritest.arff”.
# 5) Przejdź do zakładki Associate. Z tego miejsca można wydobywać zasady apriori.
# 6) Kliknij Wybierz, aby ustawić parametry wsparcia i pewności. Różne parametry, które można tutaj ustawić to:
- ' lowerBoundMinSupport ' i ' upperBoundMinSupport ”, Jest to przedział poziomu wsparcia, w którym nasz algorytm będzie działał.
- Delta jest przyrostem podpory. W tym przypadku 0,05 to przyrost wsparcia od 0,1 do 1.
- metricType może być „Zaufanie”, „Wzrost”, „Dźwignia” i „Przekonanie”. To mówi nam, jak oceniamy reguły asocjacji. Generalnie wybiera się zaufanie.
- numRules informuje o liczbie reguł asocjacyjnych do wydobycia. Domyślnie jest ustawiony na 10.
- ZnaczenieLevel przedstawia znaczenie poziomu ufności.
# 7) Pole tekstowe obok przycisku wyboru pokazuje „ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Który przedstawia podsumowanie reguł ustawionych dla algorytmu w zakładce ustawień.
# 8) Kliknij przycisk Start. Reguły asocjacji są generowane w prawym panelu. Panel ten składa się z 2 sekcji. Pierwszy to algorytm, zbiór danych wybrany do uruchomienia. Druga część przedstawia informacje Apriori.
Rozumiemy informacje o biegu w prawym panelu:
- Schemat wykorzystał nas Apriori.
- Instancje i atrybuty: ma 6 instancji i 4 atrybuty.
- Minimalne wsparcie i minimalna ufność to odpowiednio 0,4 i 0,9. Z 6 instancji znaleziono 2 z minimalną obsługą,
- Liczba cykli wykonywanych dla reguły skojarzenia wydobycia wynosi 12.
- Wygenerowane duże zestawy elementów to 3: L (1), L (2), L (3), ale nie są one uszeregowane, ponieważ ich rozmiary to odpowiednio 7, 11 i 5.
- Znalezione reguły są uszeregowane. Interpretacja tych zasad jest następująca:
- Masło T 4 => Piwo F 4: oznacza na 6, 4 przypadki pokazują, że w przypadku masła prawdziwe piwo jest fałszywe. Daje to silne skojarzenie. Poziom ufności to 0,1.
Wynik
Reguły asocjacyjne można wydobyć za pomocą WEKA Explorer z algorytmem Apriori. Algorytm ten można zastosować do wszystkich typów zbiorów danych dostępnych w katalogu WEKA, a także innych zbiorów danych utworzonych przez użytkownika. Wsparcie i pewność oraz inne parametry można ustawić za pomocą okna ustawień algorytmu.
Algorytm K-średnich wykorzystujący WEKA Explorer
Zobaczmy, jak zaimplementować algorytm K-średnich do klastrowania za pomocą WEKA Explorer.
Co to jest analiza skupień
Algorytmy grupowania to nienadzorowane algorytmy uczące się używane do tworzenia grup danych o podobnych cechach. Agreguje obiekty z podobieństwami w grupy i podgrupy, prowadząc w ten sposób do partycjonowania zbiorów danych. Analiza skupień to proces dzielenia zbiorów danych na podzbiory. Te podzbiory nazywane są klastrami, a zbiór klastrów nazywa się grupowaniem.
Analiza klastrów jest wykorzystywana w wielu zastosowaniach, takich jak rozpoznawanie obrazów, rozpoznawanie wzorców, wyszukiwanie w Internecie i bezpieczeństwo, w analizie biznesowej, np. Grupowanie klientów o podobnych upodobaniach.
Co to jest grupowanie środków K
K oznacza, że grupowanie jest najprostszym algorytmem grupowania. W algorytmie K-Clustering zestaw danych jest podzielony na klastry K. Funkcja celu służy do znalezienia jakości przegród, tak aby podobne obiekty znajdowały się w jednym skupieniu, a odmienne w innych grupach.
W tej metodzie stwierdzono, że środek ciężkości klastra reprezentuje klaster. Środek ciężkości jest traktowany jako środek klastra, który jest obliczany jako średnia wartość punktów w klastrze. Teraz jakość grupowania można znaleźć, mierząc odległość euklidesową między punktem a środkiem. Odległość ta powinna być maksymalna.
Jak działa algorytm klastrowania K-Mean Clustering
Krok 1: Wybierz wartość K, gdzie K to liczba klastrów.
Krok 2: Powtórz każdy punkt i przypisz do niego klaster mający najbliższe centrum. Kiedy każdy element jest iterowany, oblicz centroidy wszystkich klastrów.
Krok 3: Wykonaj iterację każdego elementu ze zbioru danych i oblicz odległość euklidesową między punktem a środkiem ciężkości każdej gromady. Jeśli w klastrze występuje jakikolwiek punkt, który nie jest najbliżej niego, ponownie przypisz ten punkt do najbliższego klastra i po wykonaniu tego dla wszystkich punktów w zestawie danych, ponownie oblicz centroidę każdego klastra.
Krok 4: Wykonuj krok 3, aż nie będzie żadnego nowego przypisania, które miało miejsce między dwiema kolejnymi iteracjami.
Wdrażanie klastrów K-średnich za pomocą WEKA
Kroki do wdrożenia za pomocą Weka są następujące:
# 1) Otwórz WEKA Explorer i kliknij Otwórz plik w zakładce Preprocess. Wybierz zbiór danych „vote.arff”.
#dwa) Przejdź do zakładki „Klaster” i kliknij przycisk „Wybierz”. Wybierz metodę grupowania jako „SimpleKMeans”.
# 3) Wybierz Ustawienia, a następnie ustaw następujące pola:
- Funkcja odległości jak euklidesowa
- Liczba klastrów równa 6. Przy większej liczbie klastrów suma kwadratów błędów zmniejszy się.
- Nasiona jako 10. z
Kliknij OK i uruchom algorytm.
# 4) Kliknij Start w lewym panelu. Algorytm wyświetla wyniki na białym ekranie. Przeanalizujmy informacje o biegu:
- Schemat, relacja, instancje i atrybuty opisują właściwość zestawu danych i zastosowaną metodę grupowania. W tym przypadku zbiór danych vote.arff ma 435 instancji i 13 atrybutów.
- W przypadku klastra Kmeans liczba iteracji wynosi 5.
- Suma kwadratu błędu wynosi 1098,0. Ten błąd będzie się zmniejszał wraz ze wzrostem liczby klastrów.
- Pięć końcowych klastrów z centroidami jest przedstawionych w formie tabeli. W naszym przypadku centroidy klastrów to 168,0, 47,0, 37,0, 122,0,33,0 i 28,0.
- Wystąpienia klastrowane reprezentują liczbę i procent wszystkich instancji należących do klastra.
# 5) Wybierz „Classes to Clusters Evaluations” i kliknij Start.
Algorytm przypisze etykietę klasy do klastra. Klaster 0 reprezentuje republikanów, a klaster 3 reprezentuje demokratów. Wystąpienie niepoprawnie klastrowane wynosi 39,77%, co można zmniejszyć, ignorując nieważne atrybuty.
# 6) Zignorować nieistotne atrybuty. Kliknij przycisk „Ignoruj atrybuty” i wybierz atrybuty do usunięcia.
# 7) Użyj zakładki „Wizualizuj”, aby zwizualizować wynik algorytmu klastrowania. Przejdź do zakładki i kliknij dowolne pole. Przesuń Jitter do maksimum.
- Oś X i oś Y reprezentują atrybut.
- Kolor niebieski reprezentuje demokratę etykiety klasy, a kolor czerwony reprezentuje republikanina etykiety klasy.
- Jitter służy do przeglądania klastrów.
- Kliknij pole po prawej stronie okna, aby zmienić atrybut współrzędnej x i wyświetlić grupowanie w odniesieniu do innych atrybutów.
Wynik
K oznacza, że skupianie jest prostą metodą analizy skupień. Liczbę klastrów można ustawić na karcie ustawień. Centroid każdego klastra jest obliczany jako średnia wszystkich punktów w klastrach. Wraz ze wzrostem liczby klastrów suma błędów kwadratowych maleje. Obiekty w klastrze wykazują podobne cechy i właściwości. Klastry reprezentują etykiety klas.
Wdrażanie wizualizacji danych za pomocą WEKA
Wizualizacja danych
Metodą przedstawiania danych za pomocą wykresów i wykresów w celu jasnego zrozumienia danych jest wizualizacja danych.
Istnieje wiele sposobów przedstawiania danych. Oto niektóre z nich:
# 1) Wizualizacja zorientowana na piksel: Tutaj kolor piksela reprezentuje wartość wymiaru. Kolor piksela reprezentuje odpowiednie wartości.
# 2) Reprezentacja geometryczna: Wielowymiarowe zestawy danych są reprezentowane na wykresach punktowych 2D, 3D i 4D.
# 3) Wizualizacja oparta na ikonach: Dane są przedstawiane za pomocą twarzy Chernoffa i figurek patyczków. Twarze Chernoffa wykorzystują zdolność ludzkiego umysłu do rozpoznawania cech twarzy i różnic między nimi. Figurka kija wykorzystuje 5 cyfr kija do reprezentowania danych wielowymiarowych.
# 4) Hierarchiczna wizualizacja danych: Zbiory danych są reprezentowane za pomocą map drzew. Przedstawia dane hierarchiczne jako zestaw zagnieżdżonych trójkątów.
Wizualizacja danych za pomocą WEKA Explorer
Wizualizacja danych za pomocą WEKA odbywa się na zbiorze danych IRIS.arff.
Wymagane kroki są następujące:
# 1) Przejdź do zakładki Preprocess i otwórz zbiór danych IRIS.arff.
#dwa) Zbiór danych ma 4 atrybuty i 1 etykietę klasy. Atrybuty w tym zbiorze danych to:
- Długość całkowita: Wpisz -numeric
- Szerokość działki: Typ - numeryczny
- Długość płatka: Typ numeryczny
- Szerokość płatka: Typ numeryczny
- Klasa: Typ nominalny
# 3) Aby zwizualizować zestaw danych, przejdź do karty Wizualizuj. Zakładka pokazuje macierz wykresów atrybutów. Atrybuty zestawu danych są zaznaczane na osi X i osi Y podczas kreślenia instancji. Pole z atrybutem osi X i atrybutem osi Y można powiększyć.
# 4) Kliknij pole wykresu, aby powiększyć. Na przykład, x: długość płatka iy: szerokość płatka. Etykiety klas są przedstawione w różnych kolorach.
- Etykieta klasy - Iris-setosa: kolor niebieski
- Etykieta klasy - Iris-versicolor: czerwony
- Etykieta klasy-Iris-virginica-green
Te kolory można zmienić. Aby zmienić kolor, kliknij etykietę klasy u dołu, pojawi się okno koloru.
najlepszy ripper DVD dla systemu Windows 7
# 5) Kliknij wystąpienie reprezentowane na wykresie przez „x”. Poda szczegóły instancji. Na przykład:
- Numer instancji: 91
- Długość odcinka: 5.5
- Szerokość działki: 2.6
- Długość płatka: 4.4
- Szerokość płatka: 1.2
- Klasa: Iris-versicolor
Niektóre punkty wykresu wydają się ciemniejsze niż inne punkty. Punkty te reprezentują 2 lub więcej instancji z tą samą etykietą klasy i tą samą wartością atrybutów wykreślonych na wykresie, takich jak szerokość płatka i długość płatka.
Poniższy rysunek przedstawia punkt z informacjami o 2 instancjach.
# 6) Atrybuty osi X i Y można zmienić z prawego panelu w Visualize graph. Użytkownik może przeglądać różne wykresy.
# 7) Jitter służy do dodawania losowości do wykresu. Czasami punkty się pokrywają. W przypadku jittera ciemniejsze plamy reprezentują wiele instancji.
# 8) Aby uzyskać bardziej przejrzysty widok zbioru danych i usunąć wartości odstające, użytkownik może wybrać instancję z listy rozwijanej. Kliknij menu „wybierz instancję”. Wybierz „Prostokąt”. Dzięki temu użytkownik będzie mógł wybrać punkty na wykresie, rysując prostokąt.
# 9) Kliknij „Prześlij”. Zostaną wyświetlone tylko wybrane punkty zestawu danych, a pozostałe punkty zostaną wykluczone z wykresu.
Poniższy rysunek przedstawia punkty z wybranego kształtu prostokątnego. Wykres przedstawia punkty z tylko 3 etykietami klas. Użytkownik może kliknąć „Zapisz”, aby zapisać zbiór danych lub „Resetuj”, aby wybrać inną instancję. Zbiór danych zostanie zapisany w oddzielnym pliku .ARFF.
Wynik:
Wizualizacja danych za pomocą WEKA jest uproszczona za pomocą wykresu pudełkowego. Użytkownik może wyświetlić dowolny poziom szczegółowości. Atrybuty są drukowane na osi X i osi Y, podczas gdy instancje są drukowane na osi X i Y. Niektóre punkty reprezentują wiele instancji, które są reprezentowane przez punkty o ciemnym kolorze.
Wniosek
WEKA to wydajne narzędzie do eksploracji danych, które umożliwia wykonywanie wielu zadań eksploracji danych, a także eksperymentowanie z nowymi metodami na zbiorach danych. WEKA została opracowana przez Wydział Informatyki Uniwersytetu Waikato w Nowej Zelandii.
Dzisiejszy świat jest przytłoczony danymi, od zakupów w supermarkecie po kamery monitoringu w naszym domu. Eksploracja danych wykorzystuje te surowe dane, przekształca je w informacje w celu prognozowania. WEKA z pomocą algorytmu Apriori pomaga w wydobywaniu reguł asocjacyjnych w zbiorze danych. Apriori to częsty algorytm eksploracji wzorców, który zlicza liczbę wystąpień zestawu elementów w transakcji.
Analiza skupień to technika wyszukiwania skupień danych, które mają podobne cechy. WEKA zapewnia wiele algorytmów do przeprowadzania analizy skupień, z których bardzo często stosuje się proste środki.
Wizualizację danych w WEKA można przeprowadzić na wszystkich zbiorach danych w katalogu WEKA. Surowy zbiór danych można przeglądać, podobnie jak inne wynikowe zbiory danych innych algorytmów, takich jak klasyfikacja, grupowanie i powiązanie, można wizualizować za pomocą WEKA.
=> Odwiedź tutaj, aby zapoznać się z ekskluzywną serią uczenia maszynowego
rekomendowane lektury
- Samouczek Weka - Jak pobrać, zainstalować i używać narzędzia Weka
- Zbiór danych WEKA, klasyfikator i algorytm J48 dla drzewa decyzyjnego
- 15 NAJLEPSZYCH narzędzi i oprogramowania do wizualizacji danych w 2021 r
- Samouczek D3.js - Framework wizualizacji danych dla początkujących
- Samouczek wizualizacji danych D3.js - kształty, wykres, animacja
- 7 Zasady testowania oprogramowania: grupowanie defektów i zasada Pareto
- Eksploracja danych: proces, techniki i główne problemy w analizie danych
- Techniki eksploracji danych: algorytm, metody i najlepsze narzędzia eksploracji danych