data mining process models
Ten samouczek dotyczący procesu eksploracji danych obejmuje modele wyszukiwania danych, kroki i wyzwania związane z procesem ekstrakcji danych:
Techniki eksploracji danych zostały szczegółowo wyjaśnione w naszym poprzednim samouczku w tym Pełne szkolenie w zakresie eksploracji danych dla wszystkich . Data Mining to obiecująca dziedzina w świecie nauki i technologii.
Eksploracja danych, znana również jako odkrywanie wiedzy w bazach danych, to proces wykrywania przydatnych informacji z dużych ilości danych przechowywanych w bazach danych i hurtowniach danych. Analiza ta dotyczy procesów decyzyjnych w firmach.
Eksploracja danych jest prowadzona przy użyciu różnych technik, takich jak grupowanie, asocjacja i sekwencyjna analiza wzorców i drzewo decyzyjne.
Czego się nauczysz:
- Co to jest eksploracja danych?
- Ekstrakcja danych jako proces
- Modele wyszukiwania danych
- Kroki w procesie wyszukiwania danych
- Proces wyszukiwania danych w Oracle DBMS
- Proces wyszukiwania danych w magazynie danych
- Jakie są zastosowania ekstrakcji danych?
- Wyzwania związane z eksploracją danych
- Wniosek
- rekomendowane lektury
Co to jest eksploracja danych?
Data Mining to proces odkrywania interesujących wzorców i wiedzy na podstawie dużych ilości danych. Źródła danych mogą obejmować bazy danych, hurtownie danych, Internet i inne repozytoria informacji lub dane, które są dynamicznie przesyłane strumieniowo do systemu.
Dlaczego firmy potrzebują ekstrakcji danych?
Wraz z pojawieniem się Big Data eksploracja danych stała się bardziej rozpowszechniona. Big data to niezwykle duże zbiory danych, które mogą być analizowane przez komputery w celu ujawnienia pewnych wzorców, skojarzeń i trendów, które są zrozumiałe dla ludzi. Big data zawiera obszerne informacje o różnych typach i zróżnicowanej zawartości.
Tak więc przy takiej ilości danych proste statystyki z ręczną interwencją nie zadziałają. Potrzeba ta jest zaspokajana przez proces eksploracji danych. Prowadzi to do zmiany prostych statystyk danych na złożone algorytmy eksploracji danych.
Proces eksploracji danych wyodrębni istotne informacje z surowych danych, takich jak transakcje, zdjęcia, filmy, pliki płaskie i automatycznie przetworzy te informacje w celu wygenerowania raportów przydatnych dla firm do podjęcia działań.
Dlatego proces eksploracji danych ma kluczowe znaczenie dla firm, aby podejmować lepsze decyzje poprzez odkrywanie wzorców i trendów w danych, podsumowywanie danych i wyciąganie odpowiednich informacji.
Ekstrakcja danych jako proces
Każdy problem biznesowy przeanalizuje surowe dane w celu zbudowania modelu, który będzie opisywać informacje i generować raporty, które będą używane przez firmę. Budowanie modelu na podstawie źródeł danych i formatów danych jest procesem iteracyjnym, ponieważ surowe dane są dostępne w wielu różnych źródłach i w wielu formach.
Dane rosną z dnia na dzień, dlatego gdy zostanie znalezione nowe źródło danych, może to zmienić wyniki.
Poniżej znajduje się zarys procesu.
(wizerunek źródło )
Modele wyszukiwania danych
Wiele branż, takich jak produkcja, marketing, chemia i lotnictwo, wykorzystuje eksplorację danych. W związku z tym zapotrzebowanie na standardowe i niezawodne procesy eksploracji danych drastycznie wzrasta.
Do ważnych modeli eksploracji danych należą:
# 1) Międzybranżowy standardowy proces eksploracji danych (CRISP-DM)
CRISP-DM to niezawodny model eksploracji danych składający się z sześciu faz. Jest to proces cykliczny, który zapewnia ustrukturyzowane podejście do procesu eksploracji danych. Sześć faz można zrealizować w dowolnej kolejności, ale czasami wymagałoby to cofnięcia się do poprzednich kroków i powtórzenia działań.
co to jest błąd w testowaniu oprogramowania na przykładzie
Sześć faz CRISP-DM obejmuje:
# 1) Zrozumienie biznesu: Na tym etapie ustalane są cele biznesów i odkrywane są ważne czynniki, które pomogą w osiągnięciu celu.
# 2) Zrozumienie danych: Ten krok pozwoli zebrać wszystkie dane i zapełnić je w narzędziu (jeśli używasz dowolnego narzędzia). Dane są wymienione wraz ze źródłem danych, lokalizacją, sposobem ich pozyskania i ewentualnymi napotkanymi problemami. Dane są wizualizowane i odpytywane w celu sprawdzenia ich kompletności.
# 3) Przygotowanie danych: Ten krok obejmuje wybranie odpowiednich danych, wyczyszczenie, skonstruowanie atrybutów z danych, integrację danych z wielu baz danych.
# 4) Modelowanie: Na tym etapie dokonuje się wyboru techniki eksploracji danych, takiej jak drzewo decyzyjne, generowanie projektu testu do oceny wybranego modelu, budowanie modeli ze zbioru danych i ocena zbudowanego modelu z ekspertami w celu omówienia wyniku.
najpopularniejsze narzędzia do analizy dużych zbiorów danych
# 5) Ocena: Na tym etapie zostanie określony stopień, w jakim uzyskany model spełnia wymagania biznesowe. Oceny można dokonać, testując model w rzeczywistych aplikacjach. Model jest sprawdzany pod kątem błędów lub kroków, które należy powtórzyć.
# 6) Wdrożenie: Na tym etapie tworzony jest plan wdrożenia, tworzona jest strategia monitorowania i utrzymywania wyników modelu eksploracji danych w celu sprawdzenia jego użyteczności, sporządzane są raporty końcowe i przegląd całego procesu w celu sprawdzenia ewentualnych błędów i sprawdzenia, czy któryś krok się powtarza. .
(wizerunek źródło )
# 2) SEMMA (próbka, eksploracja, modyfikacja, modelowanie, ocena)
SEMMA to kolejna metodologia eksploracji danych opracowana przez SAS Institute. Akronim SEMMA oznacza próbkowanie, badanie, modyfikowanie, modelowanie, ocenianie.
SEMMA ułatwia stosowanie eksploracyjnych technik statystycznych i wizualizacji, wybieranie i przekształcanie znaczących przewidywanych zmiennych, tworzenie modelu wykorzystującego zmienne w celu uzyskania wyniku i sprawdzanie jego dokładności. SEMMA jest również napędzany przez wysoce iteracyjny cykl.
Kroki w SEMMA
- Próba: Na tym etapie wyodrębniany jest duży zbiór danych i pobierana jest próbka reprezentująca pełne dane. Próbkowanie zmniejszy koszty obliczeniowe i skróci czas przetwarzania.
- Badać: Dane są badane pod kątem wszelkich wartości odstających i anomalii w celu lepszego zrozumienia danych. Dane są sprawdzane wizualnie, aby poznać trendy i grupy.
- Modyfikować: Na tym etapie manipulowanie danymi, takie jak grupowanie i podgrupowanie, odbywa się poprzez skupienie uwagi na budowanym modelu.
- Model: Na podstawie eksploracji i modyfikacji konstruowane są modele wyjaśniające wzorce w danych.
- Oszacować: Na tym etapie oceniana jest użyteczność i wiarygodność zbudowanego modelu. Tutaj przeprowadza się testowanie modelu na podstawie rzeczywistych danych.
Zarówno podejście SEMMA, jak i CRISP sprawdzają się w procesie odkrywania wiedzy. Po zbudowaniu modeli są one wdrażane w firmach i pracach badawczych.
Kroki w procesie wyszukiwania danych
Proces eksploracji danych jest podzielony na dwie części, tj. Przetwarzanie danych i eksplorację danych. Wstępne przetwarzanie danych obejmuje czyszczenie danych, integrację, redukcję i transformację danych. Część eksploracji danych wykonuje eksplorację danych, ocenę wzorców i reprezentację danych na podstawie wiedzy.
(wizerunek źródło )
Dlaczego wstępnie przetwarzamy dane?
O przydatności danych decyduje wiele czynników, takich jak dokładność, kompletność, spójność, aktualność. Dane muszą być wysokiej jakości, jeśli spełniają zamierzony cel. Dlatego wstępne przetwarzanie ma kluczowe znaczenie w procesie eksploracji danych. Główne etapy przetwarzania wstępnego danych są wyjaśnione poniżej.
1) Czyszczenie danych
Czyszczenie danych to pierwszy krok w eksploracji danych. Ma to znaczenie, ponieważ brudne dane używane bezpośrednio w górnictwie mogą powodować zamieszanie w procedurach i dawać niedokładne wyniki.
Zasadniczo ten krok obejmuje usunięcie hałaśliwych lub niekompletnych danych z kolekcji. Dostępnych jest wiele metod, które generalnie same oczyszczają dane, ale nie są one solidne.
Na tym etapie rutynowe czyszczenie polega na:
(i) Uzupełnij brakujące dane:
Brakujące dane można uzupełnić metodami takimi jak:
- Ignorowanie krotki.
- Uzupełnianie brakującej wartości ręcznie.
- Użyj miary tendencji centralnej, mediany lub
- Wypełnienie najbardziej prawdopodobnej wartości.
(ii) Usuń zaszumione dane: Przypadkowy błąd nazywany jest zaszumionymi danymi.
Metody usuwania szumów to:
Binning: Metody podziału są stosowane poprzez sortowanie wartości do koszyków lub pojemników. Wygładzanie odbywa się poprzez konsultację z sąsiednimi wartościami.
Binning odbywa się poprzez wygładzanie według kosza, tj. Każdy kosz jest zastępowany przez średnią z kosza. Wygładzanie według mediany, gdzie każda wartość przedziału jest zastępowana medianą przedziału. Wygładzanie według granic bin, tj. Minimalne i maksymalne wartości w koszu to granice bin, a każda wartość bin jest zastępowana przez najbliższą wartość graniczną.
- Identyfikowanie wartości odstających
- Rozwiązywanie niespójności
# 2) Integracja danych
W przypadku łączenia wielu heterogenicznych źródeł danych, takich jak bazy danych, kostki danych lub pliki w celu analizy, proces ten nazywa się integracją danych. Może to pomóc w poprawie dokładności i szybkości procesu eksploracji danych.
Różne bazy danych mają różne konwencje nazewnictwa zmiennych, powodując nadmiarowość w bazach danych. Można przeprowadzić dodatkowe czyszczenie danych w celu usunięcia nadmiarowości i niespójności z integracji danych bez wpływu na ich wiarygodność.
Integrację danych można przeprowadzić za pomocą narzędzi do migracji danych, takich jak Oracle Data Service Integrator i Microsoft SQL itp.
# 3) Redukcja danych
Technika ta jest stosowana w celu uzyskania odpowiednich danych do analizy z zebranych danych. Rozmiar reprezentacji jest znacznie mniejszy, przy jednoczesnym zachowaniu integralności. Redukcja danych jest wykonywana przy użyciu metod takich jak Naive Bayes, drzewa decyzyjne, sieć neuronowa itp.
Oto niektóre strategie redukcji danych:
- Redukcja wymiarowości: Zmniejszenie liczby atrybutów w zbiorze danych.
- Zmniejszenie liczebności: Zastąpienie pierwotnej objętości danych mniejszymi formami reprezentacji danych.
- Kompresja danych: Skompresowana reprezentacja oryginalnych danych.
# 4) Transformacja danych
W tym procesie dane są przekształcane do postaci odpowiedniej dla procesu eksploracji danych. Dane są konsolidowane, dzięki czemu proces eksploracji jest bardziej wydajny, a wzorce łatwiejsze do zrozumienia. Transformacja danych obejmuje proces mapowania danych i generowania kodu.
Strategie transformacji danych to:
- Wygładzanie: Usuwanie szumu z danych za pomocą grupowania, technik regresji itp.
- Zbiór: Operacje sumaryczne są stosowane do danych.
- Normalizacja: Skalowanie danych w mniejszym zakresie.
- Dyskretyzacja: Nieprzetworzone wartości danych liczbowych są zastępowane przedziałami. Na przykład, Wiek.
# 5) Eksploracja danych
Data Mining to proces identyfikacji interesujących wzorców i wiedzy na podstawie dużej ilości danych. W tych krokach stosowane są inteligentne wzorce w celu wyodrębnienia wzorców danych. Dane są reprezentowane w postaci wzorców, a modele są strukturyzowane przy użyciu technik klasyfikacji i grupowania.
# 6) Ocena wzorców
Ten krok polega na zidentyfikowaniu interesujących wzorców reprezentujących wiedzę na podstawie miar ciekawości. Metody podsumowania i wizualizacji danych służą do uczynienia danych zrozumiałymi dla użytkownika.
# 7) Reprezentacja wiedzy
Reprezentacja wiedzy to etap, w którym narzędzia do wizualizacji danych i reprezentacji wiedzy są używane do reprezentowania wydobytych danych. Dane wizualizowane są w postaci raportów, tabel itp.
Proces wyszukiwania danych w Oracle DBMS
RDBMS reprezentuje dane w postaci tabel z wierszami i kolumnami. Dostęp do danych można uzyskać, pisząc zapytania do bazy danych.
Systemy zarządzania relacyjnymi bazami danych, takie jak Oracle, obsługują eksplorację danych przy użyciu CRISP-DM. Funkcje bazy danych Oracle są przydatne w przygotowaniu i zrozumieniu danych. Oracle obsługuje eksplorację danych poprzez interfejs java, interfejs PL / SQL, zautomatyzowane eksplorację danych, funkcje SQL i graficzne interfejsy użytkownika.
Proces wyszukiwania danych w magazynie danych
Hurtownia danych jest modelowana pod kątem wielowymiarowej struktury danych zwanej kostką danych. Każda komórka kostki danych przechowuje wartość niektórych miar zagregowanych.
Eksploracja danych w wielowymiarowej przestrzeni prowadzona w stylu OLAP (Online Analytical Processing), gdzie umożliwia eksplorację wielu kombinacji wymiarów na różnych poziomach szczegółowości.
Jakie są zastosowania ekstrakcji danych?
Lista obszarów, w których eksploracja danych jest szeroko stosowana, obejmuje:
# 1) Analiza danych finansowych: Data Mining jest szeroko stosowany w bankowości, inwestycjach, usługach kredytowych, kredytach hipotecznych, pożyczkach samochodowych oraz usługach ubezpieczeniowych i inwestycyjnych. Dane zebrane z tych źródeł są kompletne, wiarygodne i wysokiej jakości. Ułatwia to systematyczną analizę danych i eksplorację danych.
# 2) Handel detaliczny i telekomunikacja: Sektor handlu detalicznego gromadzi ogromne ilości danych o sprzedaży, historii zakupów klientów, transporcie towarów, konsumpcji i usługach. Eksploracja danych detalicznych pomaga zidentyfikować zachowania zakupowe klientów, wzorce i trendy zakupowe klientów, poprawić jakość obsługi klienta, lepszą retencję klientów i satysfakcję.
# 3) Nauka i inżynieria: Informatyka i inżynieria w zakresie eksploracji danych mogą pomóc w monitorowaniu stanu systemu, poprawie wydajności systemu, izolowaniu błędów oprogramowania, wykrywaniu plagiatu oprogramowania i rozpoznawaniu awarii systemu.
# 4) Wykrywanie i zapobieganie włamaniom: Włamanie jest definiowane jako dowolny zestaw działań, które zagrażają integralności, poufności lub dostępności zasobów sieciowych. Metody eksploracji danych mogą pomóc w systemie wykrywania i zapobiegania włamaniom w celu zwiększenia jego wydajności.
Brama domyślna Ethernet nie jest dostępna
# 5) Systemy rekomendujące: Systemy rekomendacyjne pomagają konsumentom poprzez tworzenie rekomendacji produktów, które są interesujące dla użytkowników.
Wyzwania związane z eksploracją danych
Poniżej wymieniono różne wyzwania związane z eksploracją danych.
- Eksploracja danych wymaga dużych baz danych i gromadzenia danych, które są trudne w zarządzaniu.
- Proces eksploracji danych wymaga ekspertów dziedzinowych, których znowu trudno jest znaleźć.
- Integracja z heterogenicznymi bazami danych to złożony proces.
- Aby korzystać z wyników eksploracji danych, należy zmodyfikować praktyki na poziomie organizacyjnym. Restrukturyzacja procesu wymaga wysiłku i kosztów.
Wniosek
Eksploracja danych to proces iteracyjny, w którym można udoskonalić proces eksploracji i zintegrować nowe dane, aby uzyskać bardziej wydajne wyniki. Data Mining spełnia wymóg efektywnej, skalowalnej i elastycznej analizy danych.
Można to uznać za naturalną ocenę technologii informacyjnej. Jako proces odkrywania wiedzy, zadania przygotowania i eksploracji danych uzupełniają proces eksploracji danych.
Procesy eksploracji danych mogą być wykonywane na dowolnych rodzajach danych, takich jak dane z baz danych i zaawansowane bazy danych, takie jak szeregi czasowe itp. Proces eksploracji danych ma również własne wyzwania.
Zaglądaj do naszego nadchodzącego samouczka, aby dowiedzieć się więcej o przykładach eksploracji danych !!
POPRZEDNIA samouczek | NEXT Tutorial
rekomendowane lektury
- Eksploracja danych: proces, techniki i główne problemy w analizie danych
- Techniki eksploracji danych: algorytm, metody i najlepsze narzędzia eksploracji danych
- 10 najlepszych narzędzi do mapowania danych przydatnych w procesie ETL (LISTA 2021)
- 10 najlepszych narzędzi do projektowania baz danych do tworzenia złożonych modeli danych
- Wydobywanie danych kontra uczenie maszynowe, sztuczna inteligencja kontra uczenie głębokie
- 15 najlepszych darmowych narzędzi do wyszukiwania danych: najbardziej kompleksowa lista
- Koncepcja, proces i strategia zarządzania danymi testowymi
- Parametryzacja danych JMeter przy użyciu zmiennych zdefiniowanych przez użytkownika