Przykłady algorytmów drzew decyzyjnych w eksploracji danych

decision tree algorithm examples data mining

Wypróbuj Nasz Instrument Do Eliminowania Problemów

Wybierz System Operacyjny Wybierz Program Projekcji (Opcjonalnie)

Opisz Swój Problem

Ten szczegółowy samouczek wyjaśnia wszystko na temat algorytmu drzewa decyzyjnego w eksploracji danych. Dowiesz się o przykładach drzew decyzyjnych, algorytmach i klasyfikacji:

Przyjrzeliśmy się kilku Przykłady eksploracji danych w naszym poprzednim samouczku w Bezpłatne serie szkoleń dotyczących eksploracji danych .

Eksploracja drzew decyzyjnych to rodzaj techniki eksploracji danych, która jest używana do tworzenia modeli klasyfikacyjnych. Buduje modele klasyfikacyjne w postaci struktury drzewiastej, podobnie jak jej nazwa. Ten rodzaj wydobycia należy do nadzorowanego uczenia się w klasie.

W uczeniu nadzorowanym docelowy wynik jest już znany. Drzewa decyzyjne można stosować zarówno do danych jakościowych, jak i liczbowych. Dane kategoryczne przedstawiają płeć, stan cywilny itp., Natomiast dane liczbowe przedstawiają wiek, temperaturę itp.

aplikacja do planowania postów na Instagramie za darmo

Algorytm wyszukiwania drzew decyzyjnych

Poniżej przedstawiono przykład drzewa decyzyjnego ze zbiorem danych.

DecsionTree

(wizerunek źródło )

Czego się nauczysz:

Jakie jest zastosowanie drzewa decyzyjnego?

Drzewo decyzyjne służy do budowania modeli klasyfikacji i regresji. Służy do tworzenia modeli danych, które przewidują etykiety klas lub wartości w procesie podejmowania decyzji. Modele są budowane na podstawie zbioru danych szkoleniowych wprowadzonych do systemu (uczenie nadzorowane).

Korzystając z drzewa decyzyjnego, możemy wizualizować decyzje, które ułatwiają zrozumienie, dlatego jest to popularna technika eksploracji danych.

Analiza klasyfikacyjna

Klasyfikacja danych to forma analizy, która buduje model opisujący ważne zmienne klasowe.Na przykład, model stworzony w celu kategoryzowania wniosków kredytowych bankowych jako bezpiecznych lub ryzykownych. Metody klasyfikacji są używane w uczeniu maszynowym i rozpoznawaniu wzorców.

Zastosowanie klasyfikacji obejmuje wykrywanie oszustw, diagnostykę medyczną, marketing docelowy itp. Wynik problemu klasyfikacji przyjmuje się jako „Tryb” wszystkich obserwowanych wartości węzła końcowego.

W celu zbudowania modelu klasyfikacji postępuje dwuetapowy proces.

W pierwszym kroku, czyli uczeniu się: Budowany jest model klasyfikacyjny na podstawie danych szkoleniowych.
W drugim kroku, czyli Klasyfikacji, sprawdzana jest dokładność modelu, a następnie model służy do klasyfikacji nowych danych. Przedstawione tutaj etykiety klas mają postać dyskretnych wartości, takich jak „tak” lub „nie”, „bezpieczny” lub „ryzykowny”.

Ogólne podejście do budowania modeli klasyfikacyjnych przedstawiono poniżej:

Podejście do modelu klasyfikacji budynków

(wizerunek źródło )

Analiza regresji

Analiza regresji jest używana do przewidywania atrybutów numerycznych.

Atrybuty liczbowe nazywane są również wartościami ciągłymi. Model zbudowany w celu przewidywania wartości ciągłych zamiast etykiet klas nazywa się modelem regresji. Wynikiem analizy regresji jest „Średnia” wszystkich obserwowanych wartości węzła.

Jak działa drzewo decyzyjne?

Drzewo decyzyjne to nadzorowany algorytm uczenia się, który działa zarówno dla zmiennych dyskretnych, jak i ciągłych. Dzieli zbiór danych na podzbiory na podstawie najbardziej znaczącego atrybutu w zbiorze danych. Algorytmy decydują o tym, w jaki sposób drzewo decyzyjne identyfikuje ten atrybut i jak odbywa się ten podział.

Najbardziej znaczący predyktor jest wyznaczany jako węzeł główny, podział jest wykonywany w celu utworzenia pod-węzłów zwanych węzłami decyzyjnymi, a węzły, które nie dzielą się dalej, są węzłami końcowymi lub liśćmi.

W drzewie decyzyjnym zbiór danych jest podzielony na jednorodne i nienakładające się regiony. Stosuje się podejście odgórne, ponieważ górny region przedstawia wszystkie obserwacje w jednym miejscu, które dzieli się na dwie lub więcej gałęzi, które dalej się dzielą. To podejście jest również nazywane chciwe podejście ponieważ uwzględnia tylko bieżący węzeł między pracowanymi, bez skupiania się na przyszłych węzłach.

Algorytmy drzewa decyzyjnego będą działać do momentu osiągnięcia kryteriów zatrzymania, takich jak minimalna liczba obserwacji itp.

Po zbudowaniu drzewa decyzyjnego wiele węzłów może reprezentować wartości odstające lub zaszumione dane. Do usuwania niechcianych danych stosowana jest metoda przycinania drzew. To z kolei poprawia dokładność modelu klasyfikacyjnego.

Aby znaleźć dokładność modelu, używany jest zestaw testowy składający się z krotek testowych i etykiet klas. Wartości procentowe krotek zestawu testowego są poprawnie klasyfikowane przez model w celu zidentyfikowania dokładności modelu. Jeśli okaże się, że model jest dokładny, służy do klasyfikowania krotek danych, dla których etykiety klas nie są znane.

Niektóre z algorytmów drzewa decyzyjnego obejmują algorytm Hunta, ID3, CD4.5 i CART.

Przykład tworzenia drzewa decyzyjnego

(Przykład pochodzi z Data Mining Concepts: Han and Kimber)

# 1) Krok nauki: Dane szkoleniowe są wprowadzane do systemu w celu analizy przez algorytm klasyfikacyjny. W tym przykładzie etykieta klasy to atrybut, czyli „decyzja o pożyczce”. Model zbudowany z tych danych uczących jest reprezentowany w postaci reguł decyzyjnych.

# 2) Klasyfikacja: Zbiór danych testowych jest podawany do modelu w celu sprawdzenia dokładności reguły klasyfikacji. Jeśli model daje akceptowalne wyniki, jest stosowany do nowego zbioru danych z nieznanymi zmiennymi klasowymi.

Przykład tworzenia drzewa decyzyjnego

Algorytm indukcji drzewa decyzyjnego

Indukcja drzewa decyzyjnego

Indukcja drzew decyzyjnych to metoda uczenia się drzew decyzyjnych ze zbioru uczącego. Zestaw uczący składa się z atrybutów i etykiet klas. Zastosowania indukcji drzew decyzyjnych obejmują astronomię, analizę finansową, diagnostykę medyczną, produkcję i produkcję.

Drzewo decyzyjne to struktura podobna do schematu blokowego, która jest utworzona z krotek zbioru uczącego. Zbiór danych jest podzielony na mniejsze podzbiory i występuje w postaci węzłów drzewa. Struktura drzewa ma węzeł główny, węzły wewnętrzne lub węzły decyzyjne, węzeł liścia i gałęzie.

Węzeł główny jest węzłem położonym najwyżej. Reprezentuje najlepszy atrybut wybrany do klasyfikacji. Węzły wewnętrzne węzłów decyzyjnych reprezentują test atrybutu węzła liścia zbioru danych lub węzła końcowego, który reprezentuje klasyfikację lub etykietę decyzji. Gałęzie pokazują wynik przeprowadzonego testu.

Tylko niektóre drzewa decyzyjne mają węzły binarne oznacza to dokładnie dwie gałęzie węzła, podczas gdy niektóre drzewa decyzyjne są niebinarne.

Poniższy obraz przedstawia drzewo decyzyjne dla zestawu danych Titanica, aby przewidzieć, czy pasażer przeżyje, czy nie.

wprowadzenie drzewa decyzyjnego

(wizerunek źródło )

WÓZEK

Model CART, czyli modele klasyfikacji i regresji to algorytm drzewa decyzyjnego służący do budowania modeli. Model drzewa decyzyjnego, w którym wartości docelowe mają charakter dyskretny, nazywany jest modelami klasyfikacyjnymi.

Wartość dyskretna to skończony lub policzalnie nieskończony zbiór wartości, Na przykład, wiek, rozmiar itp. Modele, w których wartości docelowe są reprezentowane przez wartości ciągłe, to zwykle liczby zwane modelami regresji. Zmienne ciągłe są zmiennymi zmiennoprzecinkowymi. Te dwa modele razem nazywane są CART.

CART wykorzystuje indeks Gini jako macierz klasyfikacji.

Indukcja drzewa decyzyjnego dla uczenia maszynowego: ID3

Pod koniec lat 70. i na początku lat 80. J. Ross Quinlan był badaczem, który zbudował algorytm drzewa decyzyjnego dla uczenia maszynowego. Ten algorytm jest znany jako ID3, iteracyjny dychotomiser . Algorytm ten był rozszerzeniem koncepcji systemów uczenia się opisanych przez E.B Hunt, J i Marin.

ID3 później stał się znany jako C4.5. ID3 i C4.5 stosują chciwe podejście odgórne do konstruowania drzew decyzyjnych. Algorytm rozpoczyna się od zbioru danych szkoleniowych z etykietami klas, które są dzielone na mniejsze podzbiory podczas konstruowania drzewa.

# 1) Początkowo istnieją trzy parametry, tj. lista atrybutów, metoda wyboru atrybutów i podział danych . Lista atrybutów opisuje atrybuty krotek zbioru uczącego.

#dwa) Metoda wyboru atrybutów opisuje metodę wybierania najlepszego atrybutu do rozróżnienia między krotkami. Metodami używanymi do wyboru atrybutów może być zysk informacyjny lub indeks Giniego.

jak naprawić niezdefiniowane odwołanie w C ++

# 3) O strukturze drzewa (binarnej lub niebinarnej) decyduje metoda wyboru atrybutów.

# 4) Podczas konstruowania drzewa decyzyjnego zaczyna się jako pojedynczy węzeł reprezentujący krotki.

# 5) Jeśli krotki węzła głównego reprezentują różne etykiety klas, wywołuje metodę wyboru atrybutów w celu podzielenia lub podzielenia krotek. Krok doprowadzi do utworzenia gałęzi i węzłów decyzyjnych.

# 6) Metoda podziału określi, który atrybut należy wybrać, aby podzielić krotki danych. Określa również gałęzie, które mają zostać wyhodowane z węzła, zgodnie z wynikiem testu. Głównym motywem kryteriów podziału jest to, że podział w każdej gałęzi drzewa decyzyjnego powinien reprezentować tę samą etykietę klasy.

Przykład atrybutu dzielenia przedstawiono poniżej:

Powyższe porcjowanie jest wartością dyskretną

za. Powyższe porcjowanie ma wartość dyskretną.

Powyższe porcjowanie dotyczy wartości ciągłej.

b. Powyższe porcjowanie dotyczy wartości ciągłej.

# 7) Powyższe kroki partycjonowania są wykonywane rekurencyjnie, aby utworzyć drzewo decyzyjne dla krotek zestawu danych szkoleniowych.

# 8) Podział na porcje zatrzymuje się tylko wtedy, gdy wszystkie partycje są utworzone lub gdy pozostałych krotek nie można dalej podzielić.

# 9) Złożoność algorytmu jest opisana przez n * | D | * log | D | gdzie n jest liczbą atrybutów w uczącym zestawie danych D i | D | to liczba krotek.

Czym jest chciwy rekurencyjny podział plików binarnych?

W metodzie podziału binarnego krotki są dzielone i obliczana jest każda funkcja podziału kosztów. Wybrano najniższy podział kosztów. Metoda podziału jest binarna i składa się z 2 gałęzi. Ma charakter rekurencyjny, ponieważ ta sama metoda (obliczania kosztu) jest używana do dzielenia innych krotek zbioru danych.

Ten algorytm jest nazywany chciwym, ponieważ skupia się tylko na bieżącym węźle. Koncentruje się na obniżaniu kosztu, podczas gdy inne węzły są ignorowane.

Jak wybrać atrybuty do tworzenia drzewa?

Miary wyboru atrybutów są również nazywane regułami podziału, które decydują o sposobie podziału krotek. Kryteria podziału służą do najlepszego podziału zbioru danych. Miary te zapewniają ranking atrybutów do partycjonowania krotek szkoleniowych.

Najpopularniejsze metody doboru atrybutu to zdobywanie informacji, indeks Giniego.

1) Zdobywanie informacji

Ta metoda jest główną metodą używaną do tworzenia drzew decyzyjnych. Zmniejsza ilość informacji potrzebnych do sklasyfikowania krotek. Zmniejsza liczbę testów potrzebnych do sklasyfikowania danej krotki. Wybrany jest atrybut o największym wzmocnieniu informacji.

Oryginalne informacje potrzebne do klasyfikacji krotki w zestawie danych D są podane przez:

Klasyfikacja krotki w zbiorze danych D.

Gdzie p jest prawdopodobieństwem, że krotka należy do klasy C. Informacje są kodowane w bitach, dlatego używany jest log o podstawie 2. E (s) reprezentuje średnią ilość informacji potrzebnych do znalezienia etykiety klasy zbioru danych D. Ten przyrost informacji jest również nazywany Entropia .

Informacje potrzebne do dokładnej klasyfikacji po porcjowaniu podaje wzór:

Dokładna klasyfikacja po porcjowaniu

Gdzie P (c) jest ciężarem przegrody. Informacje te stanowią informacje potrzebne do sklasyfikowania zbioru danych D w zakresie porcjowania przez X.

Zysk informacyjny to różnica między pierwotną a oczekiwaną informacją, która jest wymagana do sklasyfikowania krotek zbioru danych D.

Zdobywanie informacji

Zysk to redukcja informacji, która jest wymagana przez znajomość wartości X. Atrybut o największym zysku informacyjnym jest wybierany jako „najlepszy”.

# 2) Współczynnik wzmocnienia

Zdobywanie informacji może czasem skutkować porcjowaniem bezużytecznym do klasyfikacji. Jednak współczynnik wzmocnienia dzieli zestaw danych szkoleniowych na partycje i uwzględnia liczbę krotek wyniku w odniesieniu do wszystkich krotek. Atrybut z maksymalnym współczynnikiem wzmocnienia jest używany jako atrybut podziału.

Wzmocnij współczynnik

# 3) Indeks Giniego

Indeks Giniego jest obliczany tylko dla zmiennych binarnych. Mierzy zanieczyszczenie w krotkach szkoleniowych zestawu danych D, as

Indeks Giniego

P to prawdopodobieństwo, że krotka należy do klasy C. Indeks Giniego, który jest obliczany dla zestawu danych podzielonego binarnie D przez atrybut A, jest określony wzorem:

Binarny podzielony zbiór danych D według atrybutu A

Gdzie n jest n-tą partycją zbioru danych D.

Zmniejszenie zanieczyszczeń jest wynikiem różnicy indeksu Giniego z oryginalnego zbioru danych D i indeksu Giniego po podziale według atrybutu A.

Maksymalna redukcja zanieczyszczeń lub maksymalny indeks Giniego jest wybierana jako najlepszy atrybut do podziału.

Overfitting w drzewach decyzyjnych

Do nadmiernego dopasowania dochodzi, gdy drzewo decyzyjne stara się być tak doskonałe, jak to tylko możliwe, zwiększając głębokość testów, a tym samym redukując błąd. Powoduje to bardzo złożone drzewa i prowadzi do przeuczenia.

Nadmierne dopasowanie ogranicza predykcyjny charakter drzewa decyzyjnego. Metody pozwalające uniknąć nadmiernego dopasowania drzew obejmują przycinanie wstępne i po przycinaniu.

Co to jest przycinanie drzew?

Przycinanie to metoda usuwania nieużywanych gałęzi z drzewa decyzyjnego. Niektóre gałęzie drzewa decyzyjnego mogą przedstawiać wartości odstające lub zaszumione dane.

Przycinanie drzew jest metodą redukcji niechcianych gałęzi drzewa. Zmniejszy to złożoność drzewa i pomoże w skutecznej analizie predykcyjnej. Zmniejsza nadmierne dopasowanie, ponieważ usuwa nieważne gałęzie z drzew.

Drzewo można przycinać na dwa sposoby:

# 1) Wstępne przycinanie : W tym podejściu konstrukcja drzewa decyzyjnego zostaje zatrzymana wcześnie. Oznacza to, że postanowiono nie dalej dzielić gałęzi. Ostatni skonstruowany węzeł staje się węzłem liścia, a ten węzeł liścia może zawierać najczęstszą klasę spośród krotek.

Miary doboru atrybutów służą do określenia wagi podziału. Określono wartości progowe, aby zdecydować, które podziały są uważane za przydatne. Jeśli podzielenie węzła na części skutkuje rozszczepieniem, spadając poniżej progu, wówczas proces zostaje zatrzymany.

# 2) Postpruning : Ta metoda usuwa skrajne gałęzie z w pełni rozwiniętego drzewa. Niechciane gałęzie są usuwane i zastępowane przez węzeł liścia oznaczający najczęściej występującą etykietę klasy. Ta technika wymaga więcej obliczeń niż wstępne przycinanie, jednak jest bardziej niezawodna.

Przycinane drzewa są bardziej precyzyjne i zwarte w porównaniu z drzewami nieciętymi, ale niosą ze sobą wadę replikacji i powtarzalności.

Powtarzanie ma miejsce, gdy ten sam atrybut jest testowany wielokrotnie wzdłuż gałęzi drzewa. Replikacja występuje, gdy zduplikowane poddrzewa są obecne w drzewie. Te problemy można rozwiązać za pomocą podziałów wielowymiarowych.

Poniższy obrazek przedstawia nieprzycięte i przycięte drzewo.

PrunedUnprunedTree

Przykład algorytmu drzewa decyzyjnego

Przykład Źródło

Konstruowanie drzewa decyzyjnego

Weźmy przykład zestawu danych pogodowych z ostatnich 10 dni z atrybutami prognozy, temperatury, wiatru i wilgotności. Zmienna wynikowa będzie dotyczyła gry w krykieta lub nie. Wykorzystamy algorytm ID3 do zbudowania drzewa decyzyjnego.

Dzień	Perspektywy	Temperatura	Wilgotność	Wiatr	Grać w krykieta
7	Pochmurny	Fajne	Normalna	Silny	tak
1	Słoneczny	Gorąco	Wysoki	Słaby	Nie rób
dwa	Słoneczny	Gorąco	Wysoki	Silny	Nie rób
3	Pochmurny	Gorąco	Wysoki	Słaby	tak
4	Deszcz	Łagodny: lekki	Wysoki	Słaby	tak
5	Deszcz	Fajne	Normalna	Słaby	tak
6	Deszcz	Fajne	Normalna	Silny	Nie rób
8	Słoneczny	Łagodny: lekki	Wysoki	Słaby	Nie rób
9	Słoneczny	Fajne	Normalna	Słaby	tak
10	Deszcz	Łagodny: lekki	Normalna	Słaby	tak
jedenaście	Słoneczny	Łagodny: lekki	Normalna	Silny	tak
12	Pochmurny	Łagodny: lekki	Wysoki	Silny	tak
13	Pochmurny	Gorąco	Normalna	Słaby	tak
14	Deszcz	Łagodny: lekki	Wysoki	Silny	Nie rób

Krok 1: Pierwszym krokiem będzie utworzenie węzła głównego.

Krok 2: Jeśli wszystkie wyniki są twierdzące, zwrócony zostanie węzeł liścia „tak”, w przeciwnym razie zostanie zwrócony węzeł liścia „nie”.

Krok 3: Znajdź entropię wszystkich obserwacji i entropię z atrybutem „x”, czyli E (S) i E (S, x).

Krok 4: Sprawdź przyrost informacji i wybierz atrybut zapewniający wysoki przyrost informacji.

Krok 5: Powtarzaj powyższe kroki, aż wszystkie atrybuty zostaną pokryte.

Obliczanie entropii:

tak nie

9 5

entropia

Jeśli entropia jest równa zero, oznacza to, że wszystkie składowe należą do tej samej klasy, a jeśli entropia jest równa jeden, oznacza to, że połowa krotek należy do jednej klasy, a jedna z nich należy do drugiej. 0,94 oznacza sprawiedliwą dystrybucję.

zapytania sql do ćwiczenia z odpowiedziami

Znajdź atrybut zdobywania informacji, który daje maksymalny przyrost informacji.

Na przykład „Wiatr” przyjmuje dwie wartości: mocną i słabą, a zatem x = {silny, słaby}.

Przykład wiatru

Znajdź H (x), P (x) dla x = słaby i x = silny. H (S) jest już obliczone powyżej.

Słaby = 8

Strong = 8

słaby silny

W przypadku „słabego” wiatru 6 z nich mówi „Tak”, aby grać w krykieta, a 2 z nich mówi „Nie”. Więc entropia będzie:

wzór na entropię

W przypadku „silnego” wiatru, 3 powiedziało „Nie”, aby grać w krykieta, a 3 powiedziało „Tak”.

entropia 3 powiedziała „Tak”.

Pokazuje to doskonałą przypadkowość, ponieważ połowa przedmiotów należy do jednej klasy, a pozostała połowa do innych.

Oblicz zysk informacji,

obliczyć zysk informacji

Podobnie zysk z informacji w przypadku innych atrybutów jest następujący:

zdobywanie informacji o innych atrybutach

Atrybut Outlook ma rozszerzenie najwyższy przyrost informacji 0,246, więc jest wybierany jako pierwiastek.

Pochmurno ma 3 wartości: słonecznie, zachmurzenie i deszcz. Pochmurno z grą w krykieta zawsze brzmi „tak”. Kończy się więc węzłem liścia „tak”. W przypadku pozostałych wartości „Sunny” i „Rain”.

Tabela dla programu Outlook jako „Sunny” będzie wyglądać następująco:

Temperatura	Wilgotność	Wiatr	Golf
Gorąco	Wysoki	Słaby	Nie rób
Gorąco	Wysoki	Silny	Nie rób
Łagodny: lekki	Wysoki	Słaby	Nie rób
Fajne	Normalna	Słaby	tak
Łagodny: lekki	Normalna	Silny	tak

Entropia dla „Outlook” „Sunny” to:

Entropia dla „Outlook” „Sunny”

Zysk z informacji dla atrybutów w odniesieniu do Sunny to:

Zysk informacji dla atrybutów w odniesieniu do Sunny

Zysk informacji dla wilgotności jest największy, dlatego jest wybierany jako następny węzeł. Podobnie Entropia jest obliczana dla Deszczu. Wiatr daje największy przyrost informacji .

Drzewo decyzyjne wyglądałoby jak poniżej:

Przykład drzewa decsionowego Algo

Co to jest modelowanie predykcyjne?

Modele klasyfikacyjne mogą służyć do przewidywania wyników nieznanego zbioru atrybutów.

Kiedy zbiór danych z nieznanymi etykietami klas zostanie wprowadzony do modelu, automatycznie przypisze mu etykietę klasy. Ta metoda stosowania prawdopodobieństwa do przewidywania wyników nazywa się modelowaniem predykcyjnym.

Zalety klasyfikacji drzew decyzyjnych

Poniżej wymieniono różne zalety klasyfikacji drzewa decyzyjnego:

Klasyfikacja drzew decyzyjnych nie wymaga żadnej wiedzy dziedzinowej, dlatego jest odpowiednia dla procesu odkrywania wiedzy.
Przedstawienie danych w postaci drzewa jest łatwe do zrozumienia dla ludzi i intuicyjne.
Może obsługiwać dane wielowymiarowe.
Jest to szybki proces z dużą dokładnością.

Wady klasyfikacji drzew decyzyjnych

Poniżej podano różne wady klasyfikacji drzewa decyzyjnego:

Czasami drzewa decyzyjne stają się bardzo złożone i nazywa się je drzewami przeładowanymi.
Algorytm drzewa decyzyjnego może nie być optymalnym rozwiązaniem.
Drzewa decyzyjne mogą zwracać tendencyjne rozwiązanie, jeśli dominuje nad nim jakaś etykieta klasy.

Wniosek

Drzewa decyzyjne to techniki eksploracji danych służące do klasyfikacji i analizy regresji.

Technika ta obejmuje obecnie wiele dziedzin, takich jak diagnostyka medyczna, marketing docelowy, itp. Drzewa te są konstruowane według algorytmu takiego jak ID3, CART. Te algorytmy znajdują różne sposoby dzielenia danych na partycje.

Jest to najbardziej znana technika uczenia nadzorowanego wykorzystywana w uczeniu maszynowym i analizie wzorców. Drzewa decyzyjne przewidują wartości zmiennej docelowej poprzez budowanie modeli poprzez uczenie się na podstawie zestawu uczącego dostarczonego do systemu.

Mamy nadzieję, że dowiedziałeś się wszystkiego o eksploracji drzew decyzyjnych z tego samouczka!

POPRZEDNIA samouczek | NEXT Tutorial

Przykłady algorytmów drzew decyzyjnych w eksploracji danych

Jakie jest zastosowanie drzewa decyzyjnego?

Analiza klasyfikacyjna

Analiza regresji

Jak działa drzewo decyzyjne?

Algorytm indukcji drzewa decyzyjnego

Indukcja drzewa decyzyjnego

WÓZEK

Indukcja drzewa decyzyjnego dla uczenia maszynowego: ID3

Czym jest chciwy rekurencyjny podział plików binarnych?

Jak wybrać atrybuty do tworzenia drzewa?

1) Zdobywanie informacji

# 2) Współczynnik wzmocnienia

# 3) Indeks Giniego

Overfitting w drzewach decyzyjnych

Co to jest przycinanie drzew?

Co to jest modelowanie predykcyjne?

Zalety klasyfikacji drzew decyzyjnych

Wady klasyfikacji drzew decyzyjnych

Wniosek

rekomendowane lektury

Ciekawe Artykuły

Wybór Redakcji

Obsługa elementów iFrame przy użyciu metody switchTo () Selenium WebDriver

Czy powinieneś dać jeny Człowiekowi w garniturze w Persona 3 Reload?

Geb Tutorial - Testowanie automatyzacji przeglądarki za pomocą narzędzia Geb

Arkane opublikowało głęboki wywiad z Redfall, w którym szczegółowo opisało, czego można się spodziewać po FPS-ie w otwartym świecie

Jak zdobyć wszystkie dekoracje Upiornej Dyni w Palii

Zwiastun Martha is Dead świętuje uznanie krytyków ponurej gry

Palworld osiąga próg 25 milionów graczy, ale szybko spada na listach przebojów Steam

Sprawdź mroczny, lo-fi horror Raw Fury Moja praca nie jest jeszcze skończona

Sam Lake z Remedy dzieli się kilkoma rekomendacjami książkowymi

Jak poświęcić swoich wyznawców w Cult of the Lamb

Przewodnik po lokalizacji i ukończeniu świątyni Chichim Łzy Królestwa (TotK)

Zbuduj łódź na kody skarbów (styczeń 2024 r.)