data mining process
Ten szczegółowy samouczek dotyczący eksploracji danych wyjaśnia, czym jest eksploracja danych, w tym procesy i techniki stosowane do analizy danych:
Zrozummy znaczenie terminu wydobycie na przykładzie wydobywania złota ze skał, co nazywa się wydobyciem złota. Tutaj użyteczną rzeczą jest „Złoto”, stąd nazywa się to wydobyciem złota.
Podobnie wydobywanie przydatnych informacji z ogromnej ilości danych jest określane jako eksploracja wiedzy i jest powszechnie znane jako eksploracja danych. Pod pojęciem przydatnych informacji określamy dane, które mogą nam pomóc w przewidywaniu wyniku.
Na przykład znalezienie trendów kupowania określonej rzeczy (powiedzmy żelazka) przez określoną grupę wiekową ( Przykład: 40-70 lat).
=>PRZEWIŃ W DÓŁaby zobaczyć całą listę 7 szczegółowych samouczków eksploracji danych dla początkujących
Czego się nauczysz:
html5 css3 pytania i odpowiedzi do wywiadu
- Lista samouczków dotyczących eksploracji danych
- Przegląd samouczków z tej serii wyszukiwania danych
- Co to jest eksploracja danych?
- Jakie rodzaje danych można eksploatować?
- Jakie techniki są używane w eksploracji danych?
- Główne problemy w analizie danych
- Wniosek
Lista samouczków dotyczących eksploracji danych
Samouczek nr 1: Eksploracja danych: proces, techniki i główne problemy w analizie danych (Ten samouczek)
Samouczek nr 2: Techniki eksploracji danych: algorytm, metody i najlepsze narzędzia eksploracji danych
Samouczek nr 3: Proces wyszukiwania danych: modele, etapy procesu i związane z nim wyzwania
Samouczek nr 4: Przykłady eksploracji danych: najczęstsze zastosowania eksploracji danych 2019
Samouczek nr 5: Przykłady algorytmów drzew decyzyjnych w eksploracji danych
Samouczek nr 6: Algorytm Apriori w eksploracji danych: implementacja z przykładami
Samouczek nr 7: Algorytm wzrostu częstych wzorców (FP) w eksploracji danych
Przegląd samouczków z tej serii wyszukiwania danych
Instruktaż # | Czego się nauczysz |
---|---|
Tutorial_ # 7: | Algorytm wzrostu częstych wzorców (FP) w eksploracji danych Jest to szczegółowy samouczek dotyczący algorytmu częstego wzrostu wzorców, który przedstawia bazę danych w postaci drzewa FP. Porównanie wzrostu FP i apriiori również jest tutaj wyjaśnione. |
Tutorial_ # 1: | Eksploracja danych: proces, techniki i główne problemy w analizie danych Ten szczegółowy samouczek eksploracji danych wyjaśnia, czym jest eksploracja danych, w tym procesy i techniki używane do analizy danych. |
Tutorial_ # 2: | Techniki eksploracji danych: algorytm, metody i najlepsze narzędzia eksploracji danych Ten samouczek dotyczący technik eksploracji danych wyjaśnia algorytmy, narzędzia eksploracji danych i metody wydobywania użytecznych danych. |
Tutorial_ # 3: | Proces wyszukiwania danych: modele, etapy procesu i związane z nim wyzwania Ten samouczek dotyczący procesu eksploracji danych obejmuje modele wyszukiwania danych, kroki i wyzwania związane z procesem ekstrakcji danych. |
Tutorial_ # 4: | Przykłady eksploracji danych: najczęstsze zastosowania eksploracji danych 2019 W tym samouczku omówiono większość popularnych przykładów eksploracji danych w prawdziwym życiu. Dowiesz się więcej o zastosowaniu Data Mining w finansach, marketingu, opiece zdrowotnej i CRM. |
Tutorial_ # 5: | Przykłady algorytmów drzew decyzyjnych w eksploracji danych Ten szczegółowy samouczek wyjaśnia wszystko o algorytmie drzewa decyzyjnego w eksploracji danych. Dowiesz się o przykładach drzew decyzyjnych, algorytmach i klasyfikacji. |
Tutorial_ # 6: | Algorytm Apriori w eksploracji danych: implementacja z przykładami To jest prosty samouczek dotyczący algorytmu Apriori, aby znaleźć częste zestawy elementów w eksploracji danych. Poznasz również kroki w Apriori i zrozumiesz, jak to działa. |
Co to jest eksploracja danych?
Obecnie istnieje duże zapotrzebowanie na eksplorację danych, ponieważ pomaga firmom badać, w jaki sposób może wzrosnąć sprzedaż ich produktów. Możemy to zrozumieć na przykładzie sklepu modowego, który zarejestruje każdego klienta, który dokona zakupu w jego sklepie.
Na podstawie danych podanych przez klienta, takich jak wiek, płeć, grupa dochodowa, zawód itp. Sklep będzie mógł dowiedzieć się, jacy klienci kupują różne produkty. Widzimy tutaj, że nazwa klienta jest bezużyteczna, ponieważ nie możemy przewidzieć trendu zakupów według nazwy, czy ta osoba kupi określony produkt, czy nie.
W ten sposób przydatne informacje można znaleźć na podstawie grupy wiekowej, płci, grupy dochodowej, zawodu itp. Poszukiwanie wiedzy lub interesującego wzoru w danych to „Data Mining”. Inne terminy, których można używać w miejscu, to eksploracja wiedzy z danych, ekstrakcja wiedzy, analiza danych, analiza wzorców itp.
Innym terminem popularnie używanym w eksploracji danych jest Knowledge Discovery from Data lub KDD.
Proces analizy danych
Proces odkrywania wiedzy to sekwencja następujących kroków:
- Czyszczenie danych: Ten krok usuwa szum i niespójne dane z danych wejściowych.
- Integracja danych: Ten krok łączy wiele źródeł danych. Czyszczenie danych i integracja danych są połączone razem, aby utworzyć wstępne przetwarzanie danych. Wstępnie przetworzone dane są następnie przechowywane w hurtowni danych.
- Wybór danych: Te kroki służą do wybierania danych do zadania analizy z bazy danych.
- Transformacja danych: Na tym etapie stosuje się różne techniki agregacji i podsumowania danych, aby przekształcić dane w użyteczną formę do eksploracji.
- Eksploracja danych: Na tym etapie wzorce danych są wyodrębniane przy użyciu inteligentnych metod.
- Ocena wzoru: Wyodrębnione wzorce danych są oceniane i rozpoznawane zgodnie z miarami zainteresowania.
- Reprezentacja wiedzy: Techniki wizualizacji i reprezentacji wiedzy służą przedstawieniu użytkownikom wydobytej wiedzy.
Kroki od 1 do 4 wchodzą w skład etapu wstępnego przetwarzania danych. W tym przypadku eksploracja danych jest przedstawiana jako pojedynczy krok, ale odnosi się do całego procesu odkrywania wiedzy.
Można więc powiedzieć, że analiza danych to proces odkrywania interesujących wzorców i wiedzy z dużej ilości danych. Źródła danych mogą obejmować bazy danych, hurtownie danych, sieć WWW, pliki płaskie i inne pliki informacyjne.
Jakie rodzaje danych można eksploatować?
Najbardziej podstawowymi formami danych do eksploracji są dane z baz danych, dane z hurtowni danych i dane transakcyjne. Techniki eksploracji danych można również zastosować do innych form, takich jak strumienie danych, dane sekwencjonowane, dane tekstowe i dane przestrzenne.
# 1) Dane bazy danych: System zarządzania bazą danych to zestaw wzajemnie powiązanych danych i zestaw programów do zarządzania danymi i uzyskiwania do nich dostępu. System relacyjnej bazy danych to zbiór tabel, a każda tabela składa się z zestawu atrybutów i krotek.
Eksploracja relacyjnych baz danych przeszukuje trendy i wzorce danych Na przykład . ryzyko kredytowe klientów na podstawie wieku, dochodu i wcześniejszego ryzyka kredytowego. Ponadto wydobycie może wykryć odchylenia od oczekiwanych Na przykład. znaczny wzrost ceny przedmiotu.
# 2) Dane hurtowni danych: Hurtownia danych to zbiór informacji zebranych z wielu źródeł danych, przechowywanych w ramach ujednoliconego schematu w jednym miejscu. DW jest modelowany jako wielowymiarowa struktura danych zwana kostką danych, zawierająca komórki i wymiary zapewniające wstępne obliczenia i szybszy dostęp do danych.
Eksploracja danych jest wykonywana w stylu OLAP poprzez łączenie wymiarów na różnych poziomach szczegółowości.
# 3) Dane transakcyjne: Dane transakcyjne rejestrują transakcję. Zawiera identyfikator transakcji i listę pozycji używanych w transakcji.
# 4) Inne rodzaje danych: Inne dane mogą obejmować: dane związane z czasem, dane przestrzenne, dane hipertekstowe i dane multimedialne.
Jakie techniki są używane w eksploracji danych?
Data Mining to dziedzina silnie zorientowana na aplikacje. Wiele technik, takich jak statystyka, uczenie maszynowe, rozpoznawanie wzorców, wyszukiwanie informacji, wizualizacja itp. Wpływa na rozwój metod analizy danych.
Omówmy tutaj niektóre z nich !!
Statystyka
Badanie gromadzenia, analizy, interpretacji i prezentacji danych można przeprowadzić przy użyciu modeli statystycznych. Na przykład , statystyki można wykorzystać do modelowania szumu i brakujących danych, a następnie model ten można wykorzystać w dużym zestawie danych do identyfikacji szumu i brakujących wartości w danych.
Nauczanie maszynowe
ML służy do poprawy wydajności w oparciu o dane. Główny obszar badań dotyczy programów komputerowych, które automatycznie uczą się rozpoznawać złożone wzorce i podejmować inteligentne decyzje na podstawie danych.
Uczenie maszynowe koncentruje się na dokładności, a eksploracja danych skupia się na wydajności i skalowalności metod eksploracji w dużym zestawie danych, złożonych danych itp.
Istnieją trzy rodzaje uczenia maszynowego:
- Nadzorowana nauka: Docelowy zestaw danych jest znany, a maszyna jest szkolona zgodnie z wartościami docelowymi.
- Uczenie się bez nadzoru: Wartości docelowe nie są znane, a maszyny uczą się same.
- Nauka częściowo nadzorowana: Wykorzystuje zarówno techniki uczenia nadzorowanego, jak i nienadzorowanego.
Wyszukiwanie informacji (IR)
To nauka o wyszukiwaniu dokumentów lub informacji w dokumentach.
Opiera się na dwóch zasadach:
- Dane, które mają być przeszukiwane, są nieustrukturyzowane.
- Zapytania są tworzone głównie przez słowa kluczowe.
Korzystając z analizy danych i IR, możemy znaleźć główne tematy w zbiorze dokumentów, a także główne tematy zawarte w każdym dokumencie.
Główne problemy w analizie danych
Data Mining wiąże się z szeregiem problemów, o których mowa poniżej:
Metodyka górnicza
- Ponieważ istnieją różnorodne aplikacje, wciąż pojawiają się nowe zadania górnicze. Te zadania mogą korzystać z tej samej bazy danych na różne sposoby i wymagają opracowania nowych technik eksploracji danych.
- Szukając wiedzy w dużych zbiorach danych, musimy eksplorować wielowymiarową przestrzeń. Aby znaleźć ciekawe wzory, należy zastosować różne kombinacje wymiarów.
- Niepewne, zaszumione i niekompletne dane mogą czasami prowadzić do błędnego wyprowadzenia.
Interakcja z użytkownikiem
- Proces analizy danych powinien być wysoce interaktywny. Dla ułatwienia procesu wyszukiwania ważne jest, aby były one interaktywne dla użytkownika.
- Wiedza dziedzinowa, wiedza podstawowa, ograniczenia itp. Powinny być włączone do procesu eksploracji danych.
- Wiedza odkryta podczas eksploracji danych powinna być użyteczna dla ludzi. System powinien mieć wyrazistą reprezentację wiedzy, przyjazne dla użytkownika techniki wizualizacji itp.
Wydajność i skalowalność
- Algorytmy eksploracji danych powinny być wydajne i skalowalne, aby skutecznie wyodrębniać interesujące dane z ogromnej ilości danych w repozytoriach danych.
- Szeroka dystrybucja danych, złożoność obliczeń motywuje do rozwoju równoległych i rozproszonych algorytmów intensywnie korzystających z danych.
Różnorodność typów baz danych
- Budowa skutecznych i wydajnych narzędzi do analizy danych dla różnorodnych zastosowań, szerokiego spektrum typów danych, takich jak dane nieustrukturyzowane, dane czasowe, hipertekst, dane multimedialne i kod oprogramowania, pozostaje trudnym i aktywnym obszarem badań.
Wpływ społeczny
- Udostępnianie danych w celu wykorzystania danych oraz potencjalne naruszenie prywatności jednostki i ochrony praw to obszary budzące obawy, którymi należy się zająć.
Wniosek
Data Mining pomaga w podejmowaniu decyzji i analizie dużej ilości danych. Obecnie jest to najpowszechniejsza technika biznesowa. Umożliwia automatyczną analizę danych oraz identyfikuje popularne trendy i zachowania.
najlepszy program do sprawdzania temp. procesora
Analiza danych może być połączona z uczeniem maszynowym, statystykami, sztuczną inteligencją itp. W celu zaawansowanej analizy danych i badania zachowań.
Data Mining powinno być stosowane z uwzględnieniem różnych czynników, takich jak koszt wydobycia informacji i wzorca z baz danych (skomplikowane algorytmy wymagające zasobów eksperckich), rodzaj informacji (ponieważ dane historyczne mogą się różnić od tych, które są obecnie, więc analiza nie będzie przydatna).
Mamy nadzieję, że ten samouczek wzbogaciłeś swoją wiedzę o koncepcji Data Mining !!
rekomendowane lektury
- 10 najlepszych narzędzi do analizy danych dla idealnego zarządzania danymi (LISTA 2021)
- Wydobywanie danych kontra uczenie maszynowe, sztuczna inteligencja kontra uczenie głębokie
- 10 najlepszych narzędzi do mapowania danych przydatnych w procesie ETL (LISTA 2021)
- Co to są dane testowe? Techniki przygotowania danych testowych z przykładem
- Parametryzacja danych JMeter przy użyciu zmiennych zdefiniowanych przez użytkownika
- 15 najlepszych darmowych narzędzi do wyszukiwania danych: najbardziej kompleksowa lista
- Ponad 10 najlepszych narzędzi do gromadzenia danych ze strategiami gromadzenia danych
- Funkcja puli danych w produkcie IBM Rational Quality Manager do zarządzania danymi testowymi