metadata data warehouse explained with examples
Ten samouczek wyjaśnia rolę metadanych w ETL, przykłady i typy metadanych, repozytorium metadanych i wyzwania w zarządzaniu metadanymi:
Data Mart w ETL zostało szczegółowo wyjaśnione w naszym poprzednim samouczku.
Pojęcie metadanych jest bardzo ważne w ETL, a ten samouczek wyjaśni wszystko na temat metadanych.
Obejmuje rolę metadanych, przykłady metadanych, a także ich typy, repozytorium metadanych, sposób zarządzania metadanymi hurtowni danych, wyzwania związane z zarządzaniem metadanymi.
Dowiesz się również, czym jest ETL oparty na metadanych i jaka jest różnica między danymi a metadanymi.
=> Przeczytaj serię bezpłatnych szkoleń dotyczących hurtowni danych tutaj.
Docelowi odbiorcy
- Programiści i testerzy hurtowni danych / ETL.
- Specjaliści od baz danych z podstawową wiedzą na temat koncepcji baz danych.
- Administratorzy baz danych / eksperci Big Data, którzy chcą zrozumieć obszary hurtowni danych / ETL.
- Absolwenci / nowicjusze, którzy szukają pracy w hurtowni danych.
Czego się nauczysz:
implementacja merge sort c ++
Metadane w ETL
Zespół (lub) hurtowni danych może używać metadanych w różnych sytuacjach do budowania, utrzymywania i zarządzania systemem. Podstawowa definicja metadanych w hurtowni danych to: „To dane o danych” .
Metadane mogą zawierać wszelkiego rodzaju informacje o danych DW, takie jak:
- Źródło wszelkich wyodrębnionych danych.
- Wykorzystanie tych danych DW.
- Wszelkiego rodzaju dane i ich wartości.
- Cechy danych.
- Logika transformacji dla wyodrębnionych danych.
- Tabele DW i ich atrybuty.
- Obiekty DW
- Sygnatury czasowe
Metadane pełnią rolę spisu treści dla danych w systemie DW, który pokazuje technikę z bardziej szczegółowymi informacjami o tych danych. W prostych słowach możesz pomyśleć o indeksie w dowolnej książce, który działa jak metadane, dla zawartości tej książki.
Podobnie, metadane działają jako indeks zawartości DW. Wszystkie takie metadane są przechowywane w repozytorium. Przeglądając Metadane, użytkownicy końcowi dowiadują się, skąd mogą rozpocząć analizę systemu DW. W przeciwnym razie użytkownikom końcowym trudno jest wiedzieć, od czego zacząć analizę danych w tak ogromnym systemie DW.
Rola metadanych w hurtowni danych
Wcześniej metadane były tworzone i obsługiwane jako dokumenty. Jednak w dzisiejszym cyfrowym świecie różne narzędzia ułatwiły tę pracę, rejestrując metadane na każdym poziomie procesu DW.
Metadane utworzone przez jedno narzędzie można ustandaryzować (tj. Dane można przenieść do jednego unikalnego formatu) i można je ponownie wykorzystać w innych narzędziach w dowolnym miejscu w systemie DW.
Ponieważ zdajemy sobie sprawę, że systemy operacyjne zachowują aktualne dane, systemy DW przechowują dane historyczne i bieżące.
Metadane muszą śledzić wszystkie zmiany zachodzące w systemach źródłowych, metodach ekstrakcji / transformacji danych oraz w strukturze (lub) zawartości danych, które pojawią się w tym procesie. Metadane będą utrzymywać różne wersje, aby śledzić wszystkie te zmiany przez kilka lat.
Wystarczające metadane dostarczone w repozytorium pomogą każdemu użytkownikowi w bardziej wydajnej i niezależnej analizie systemu. Dzięki zrozumieniu metadanych możesz uruchamiać dowolne zapytania dotyczące danych DW, aby uzyskać najlepsze wyniki.
Graficzne przedstawienie roli metadanych:
Przykłady metadanych w prostych słowach
Poniżej podano kilka przykładów metadanych.
- Metadane strony internetowej mogą zawierać język, w którym jest zakodowana, narzędzia użyte do jej zbudowania, obsługę przeglądarek itp.
- Metadane obrazu cyfrowego mogą zawierać rozmiar obrazu, rozdzielczość, intensywność kolorów, datę utworzenia obrazu itp.
- Metadane dokumentu mogą zawierać datę utworzenia dokumentu, datę ostatniej modyfikacji, jego rozmiar, autora, opis itp.
Porównanie między danymi a metadanymi
S.Nr | Dane | Metadane |
---|---|---|
1 | Dane to zbiór informacji. | Metadane to informacje o danych. |
dwa | Dane mogą (lub) nie być przetwarzane. | Metadane to zawsze dane przetworzone. |
Rodzaje metadanych
Klasyfikacja metadanych na różne typy pomoże nam lepiej je zrozumieć. Ta klasyfikacja może opierać się na jego wykorzystaniu (lub) użytkownikach itp.
Przyjrzyjmy się różnym typom metadanych poniżej:
1) Metadane zaplecza: Kieruje administratorami baz danych (lub) użytkownikami końcowymi w zakresie procesów wyodrębniania, czyszczenia i ładowania.
# 2) Metadane z frontowego pokoju: Kieruje użytkowników końcowych do pracy z narzędziami i raportami BI.
# 3) Metadane procesu: Przechowuje metadane procesu ETL, takie jak liczba załadowanych, odrzuconych, przetworzonych wierszy i czas potrzebny do załadowania do systemu DW, itp. Informacje te mogą być również dostępne dla użytkowników końcowych.
Jednocześnie statystyki tabel przejściowych są również ważne dla zespołu ETL. Te metadane będą przechowywać dane dotyczące przetwarzania tabel przemieszczania, takie jak liczba załadowanych, odrzuconych i przetworzonych wierszy oraz czas potrzebny na załadowanie do każdej tabeli pomostowej.
# 4) Pochodzenie danych: To przechowuje logiczną transformację każdego elementu systemu źródłowego do elementu docelowego DW.
# 5) Definicje biznesowe: Kontekst tabel DW został wyprowadzony z definicji biznesowych. Każdy atrybut w tabeli jest powiązany z definicją biznesową. Dlatego powinny być one przechowywane jako metadane (lub) jakikolwiek inny dokument do wykorzystania w przyszłości. Zarówno użytkownicy końcowi, jak i zespół ETL zależą od tych definicji biznesowych.
# 6) Definicje techniczne: Definicje techniczne są używane wyłącznie w obszarze przemieszczania danych bardziej niż definicje biznesowe. Głównym celem jest zmniejszenie niejednoznaczności podczas tworzenia tabel pomostowych i ponowne wykorzystanie istniejących tabel. Definicje techniczne przechowują szczegóły każdej tabeli pomostowej, takie jak jej lokalizacja i struktura.
Każda tabela pomostowa jest tutaj udokumentowana technicznie, jeśli nie jest udokumentowana, oznacza to, że tabela pomostowa nie istnieje. Pozwala to uniknąć odtwarzania tej samej tabeli pomostowej.
# 7) Metadane biznesowe: Dane będą przechowywane w warunkach biznesowych z korzyścią dla użytkowników końcowych / analityków / menedżerów / dowolnych użytkowników. Metadane biznesowe są proxy do danych systemu źródłowego, co oznacza, że nie będą na nich dokonywane żadne manipulacje danymi. Można go wyprowadzić z dowolnych dokumentów biznesowych i reguł biznesowych.
# 8) Metadane techniczne: Będzie to przechowywać dane techniczne, takie jak atrybuty tabel, ich typy danych, rozmiar, atrybuty klucza podstawowego, atrybuty klucza obcego i wszelkie indeksy. Jest to bardziej uporządkowane w porównaniu z metadanymi biznesowymi.
Metadane techniczne są przeznaczone głównie dla zespołu DW, takiego jak programiści / testerzy / analitycy / administratorzy baz danych, w celu zbudowania (lub) utrzymania systemu. Jest to również w znacznym stopniu wykorzystywane przez administratorów do monitorowania obciążenia bazy danych, tworzenia kopii zapasowych danych itp.
# 9) Metadane operacyjne: Jak wiemy, dane do systemu DW pochodzą z wielu systemów operacyjnych z różnymi typami danych i polami. Wyciągi DW przekształcają takie dane w unikalny typ i ładują wszystkie te dane do systemu.
Jednocześnie musi być w stanie połączyć dane z danymi systemu źródłowego. Metadane, które przechowują informacje o wszystkich tych operacyjnych źródłach danych, są znane jako metadane operacyjne.
# 10) Informacje o systemie źródłowym:
Możesz zbierać następujące metadane z różnych systemów źródłowych:
- Baza danych (lub) system plików: Spowoduje to zapisanie nazw baz danych systemu źródłowego (lub plików).
- Specyfikacja stołu: Spowoduje to przechowywanie wszystkich szczegółów dotyczących tabel, takich jak nazwa tabeli, jej przeznaczenie, rozmiar, atrybuty, klucze podstawowe i klucze obce.
- Zasady obsługi wyjątków: Będzie to przechowywać różne metody przywracania systemu w przypadku awarii systemu.
- Definicje biznesowe: Spowoduje to przechowywanie definicji biznesowych w celu szybkiego zrozumienia danych.
- Zasady biznesowe: Spowoduje to zapisanie zestawu reguł dla każdej tabeli, aby zrozumieć jej dane i uniknąć niespójności.
Metadane systemu źródłowego oszczędzają dużo czasu zespołowi DW podczas analizy danych.
c ++ jak stworzyć plik makefile
11.Metadane zadania ETL: Metadane zadań ETL są bardzo ważne, ponieważ przechowują szczegóły wszystkich zadań do przetworzenia w harmonogramie, aby załadować system ETL.
Te metadane przechowują następujące informacje:
- Nazwa pracy: Nazwa zadania ETL.
- Cel pracy: Cel wykonywania pracy.
- Tabele / pliki źródłowe: Zawiera nazwy i lokalizację wszystkich tabel i plików, z których dane są pobierane przez to zadanie ETL. Może mieć więcej niż jedną nazwę pliku tabeli (lub).
- Tabele / pliki docelowe: Zawiera nazwy i lokalizację wszystkich tabel i plików, do których dane są przekształcane przez to zadanie ETL. Może mieć więcej niż jedną nazwę pliku tabeli (lub).
- Odrzucone dane: Zawiera nazwy i lokalizację wszystkich tabel i plików, z których zamierzone dane źródłowe nie zostały załadowane do celu.
- Procesy wstępne: Udostępnia zadania (lub) nazwy skryptów, od których zależy bieżące zadanie. Oznacza to, że muszą one zostać pomyślnie wykonane przed uruchomieniem bieżącego zadania.
- Procesy końcowe: Zawiera nazwy zadań (lub) skryptów, które powinny zostać uruchomione natychmiast po bieżącym zadaniu, aby zakończyć proces.
- Częstotliwość: Dostarcza informacji o tym, jak często zadanie powinno być wykonywane, tj. Codziennie, co tydzień (lub) co miesiąc.
# 12) Metadane transformacji: Metadane transformacji przechowują wszystkie informacje konstrukcyjne związane z procesem ETL. Każda manipulacja danymi w procesie ETL nazywana jest transformacją danych.
Dowolny zestaw funkcji, procedur składowanych, kursorów, zmiennych i pętli w procesie ETL można uznać za transformacje. Ale takich przekształceń nie można udokumentować oddzielnie jako metadane.
Cały proces ETL jest zbudowany z transformacji danych. Niewiele transformacji w ETL można wstępnie zdefiniować i używać w całym systemie DW. Deweloperzy ETL spędzają czas na tworzeniu (lub) ponownym przetwarzaniu wszystkich transformacji danych. Ponowne wykorzystanie predefiniowanych transformacji podczas rozwoju procesu ETL przyspieszy pracę.
Przeczytaj poniższe transformacje danych, które można znaleźć w ETL:
- Wyodrębnianie danych źródłowych: Obejmuje to przekształcenia danych w celu odczytania ze źródłowych danych systemowych, takich jak zapytanie SQL Select (lub) FTP (lub) odczyt danych XML / mainframe.
- Generatory kluczy zastępczych: Nowy numer kolejny, który powinien zostać wygenerowany dla każdego wiersza tabeli bazy danych, jest przechowywany jako metadane.
- Wyszukiwanie: Odnośniki można tworzyć za pomocą wszystkich instrukcji IN, sprzężeń wewnętrznych i sprzężeń zewnętrznych. Są one używane głównie do przechowywania kluczy zastępczych ze wszystkich odpowiednich tabel wymiarów podczas ładowania faktów.
- Filtry: Filtry są zalecane do sortowania danych, które powinny zostać wyodrębnione, załadowane i odrzucone w procesie ETL. Dobrą praktyką jest filtrowanie danych na wczesnych etapach systemu ETL. Filtry są stosowane w zależności od ograniczeń (lub) reguł biznesowych.
- Agregaty: W zależności od poziomu szczegółowości danych można wykorzystać metadane związane z funkcjami agregującymi, takie jak suma, liczba, średnia itp.
- Zaktualizuj strategie: Są to zasady stosowane do rekordu podczas aktualizacji danych. Jeśli nastąpi jakakolwiek zmiana w istniejących danych, będzie to wskazywać, czy rekord powinien zostać dodany, usunięty (lub) zaktualizowany.
- Docelowy program ładujący: Program ładujący docelowy będzie przechowywać szczegóły bazy danych, nazwy tabel i nazwy kolumn, do których dane powinny zostać załadowane w procesie ETL. Ponadto zapisuje również szczegóły narzędzia do masowego ładowania, jeśli takie istnieje, które jest wykonywane podczas ładowania danych do systemu ETL.
Każdą transformację można nazwać odrębnie z krótką notatką o jej celu.
najlepszy program do monitorowania temps procesora
Poniżej przedstawiono kilka przykładów konwencji nazewnictwa dla powyższej listy przekształceń.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repozytorium metadanych w ETL
Repozytorium metadanych to miejsce, w którym dowolny typ metadanych jest przechowywany w lokalnej bazie danych (lub) w wirtualnej bazie danych. Każdy rodzaj metadanych, takich jak metadane biznesowe (lub) metadane techniczne, można rozdzielić logicznie w repozytorium.
Oprócz powyższych dwóch typów, repozytorium ma również jeszcze jeden komponent o nazwie nawigator informacji.
Nawigator informacji służy do wykonywania poniższych zadań:
- Interfejs z narzędzia do wysyłania zapytań: Zapewnia to interfejs dla narzędzi zapytań umożliwiających dostęp do metadanych DW.
- Przejdź do szczegółów: Pozwala to użytkownikowi na drążenie metadanych w celu uzyskania bardziej szczegółowych informacji. Na przykład na pierwszym poziomie użytkownik może uzyskać definicję tabeli danych. Drążąc w dół, może uzyskać atrybuty tabeli na następnym poziomie. Dokładniej analizując dane, może uzyskać szczegółowe informacje o każdym atrybucie itp.
- Przejrzyj wstępnie zdefiniowane zapytania i raporty: Umożliwia to użytkownikowi przeglądanie predefiniowanych zapytań i raportów. Działa jako odniesienie do samych zapytań ramek z odpowiednimi parametrami itp.
Graficzne przedstawienie repozytorium metadanych:
Jak można zarządzać metadanymi hurtowni danych?
Ludzie, procesy i narzędzia są kluczowymi źródłami zarządzania metadanymi.
- Ludzie powinni rozumieć metadane w celu odpowiedniego wykorzystania.
- Proces włączy metadane do narzędzi (lub) repozytorium wraz z postępem cyklu życia DW do przyszłego wykorzystania.
- Później metadanymi można zarządzać za pomocą narzędzi.
Wyzwania związane z zarządzaniem metadanymi
Po utworzeniu metadanych możesz zmierzyć się z poniższymi wyzwaniami podczas integracji i zarządzania metadanymi w systemie.
- Przeniesienie różnych formatów metadanych do standardowego formatu może wymagać więcej wysiłku, jeśli w systemie DW używane są różne narzędzia, ponieważ metadane mogą być przechowywane w arkuszach kalkulacyjnych, aplikacjach (lub) bazach danych.
- Formaty metadanych nie mają ustalonych standardów branżowych. Brak znormalizowanego procesu utrudnia przekazywanie metadanych przez różne poziomy systemu i narzędzi DW.
- Konsekwentne utrzymywanie różnych wersji historycznych metadanych jest złożonym zadaniem.
Co to jest ETL oparty na metadanych?
ETL oparty na metadanych ustanawia warstwę upraszczającą proces ładowania danych do systemu DW. Możesz zdecydować, czy przetwarzać dane w systemie (lub) nie w zależności od metadanych. Dlatego można to nazwać ETL opartym na metadanych.
Wniosek
Znacząca rola metadanych w określaniu sukcesu (lub) niepowodzenia systemu DW została szczegółowo wyjaśniona w tym samouczku.
Zbadaliśmy również szczegółowo znaczenie, rolę, przykłady, typy i wyzwania związane z metadanymi wraz z odpowiednią reprezentacją graficzną.
Mamy nadzieję, że te samouczki informacyjne z tej serii hurtowni danych wzbogaciły Twoją wiedzę na temat hurtowni danych i powiązanych pojęć !!!
Miłego czytania !!
=> Odwiedź tutaj, aby nauczyć się hurtowni danych od podstaw.
rekomendowane lektury
- Samouczek dotyczący testowania hurtowni danych z przykładami | Przewodnik po testach ETL
- Samouczek dotyczący testowania hurtowni danych ETL (kompletny przewodnik)
- Wymiarowy model danych w hurtowni danych - samouczek z przykładami
- Data Mart Tutorial - Rodzaje, przykłady i implementacja Data Mart
- Co to jest proces ETL (wyodrębnianie, przekształcanie, ładowanie) w hurtowni danych?
- 10 najlepszych narzędzi do mapowania danych przydatnych w procesie ETL [LISTA 2021]
- Przykłady eksploracji danych: najczęstsze zastosowania eksploracji danych 2021
- ETL Testing Interview Pytania i odpowiedzi