data mart tutorial types
W tym samouczku wyjaśniono koncepcje Data Mart, w tym implementację Data Mart, typy, strukturę, a także różnice między hurtownią danych a Data Mart:
W tym Kompletne serie szkoleń dotyczące hurtowni danych , przyjrzeliśmy się różnym Schematy hurtowni danych szczegółowo.
Ten samouczek pomoże ci szczegółowo poznać koncepcje Data Mart wraz z prostymi przykładami.
Zobaczymy, co to jest baza danych? Kiedy potrzebujemy bazy danych? Ekonomiczny marting danych, Koszt martwej bazy danych, Typy baz danych, Kroki we wdrażaniu bazy danych, Struktura bazy danych, Kiedy przydatny jest pilotażowy Data Mart? Wady Datamart i różnice między Data Warehouse a Data Mart.
Docelowi odbiorcy
- Programiści i testerzy hurtowni danych / ETL.
- Specjaliści od baz danych z podstawową wiedzą na temat koncepcji baz danych.
- Administratorzy baz danych / eksperci Big Data, którzy chcą zrozumieć koncepcje hurtowni danych / ETL.
- Absolwenci / świeżo upieczeni studenci, którzy szukają pracy w hurtowni danych.
Czego się nauczysz:
- Co to jest Data Mart?
- Porównanie hurtowni danych z Data Mart
- Rodzaje Data Martów
- Etapy wdrażania Data Mart
- Struktura Data Mart
- Kiedy pilot Data Mart jest przydatny?
- Wady Data Mart
- Wniosek
Co to jest Data Mart?
Hurtownia danych to niewielka część hurtowni danych, która jest głównie związana z określoną domeną biznesową, np. Marketing (lub) sprzedaż itp.
c ++ generuje liczbę losową od 0 do 1
Dane przechowywane w systemie DW są ogromne, stąd bazy danych są projektowane z podzbiorem danych, które należą do poszczególnych działów. W ten sposób określona grupa użytkowników może z łatwością wykorzystać te dane do swojej analizy.
W przeciwieństwie do hurtowni danych, która ma wiele kombinacji użytkowników, każda zbiorcza baza danych będzie miała określony zestaw użytkowników końcowych. Mniejsza liczba użytkowników końcowych skutkuje lepszym czasem odpowiedzi.
Składnice danych są również dostępne dla narzędzi analizy biznesowej (BI). Zbiorcze dane nie zawierają zduplikowanych (lub) nieużywanych danych. Są aktualizowane w regularnych odstępach czasu. Są to bazy tematyczne i elastyczne. Każdy zespół ma prawo do tworzenia i utrzymywania swoich zbiorników danych bez modyfikowania hurtowni danych (lub) innych danych zbiorczych.
Hurtownia danych jest bardziej odpowiednia dla małych firm, ponieważ kosztuje znacznie mniej niż system hurtowni danych. Czas potrzebny na zbudowanie zbiorczej bazy danych jest również krótszy niż czas potrzebny na zbudowanie hurtowni danych.
Graficzne przedstawienie Multiple Data Marts:
Kiedy potrzebujemy Data Mart?
Opierając się na konieczności, zaplanuj i zaprojektuj zbiorczą bazę danych dla swojego działu, angażując interesariuszy, ponieważ koszt operacyjny hurtowni danych może czasami być wysoki.
Rozważ poniższe powody, dla których warto utworzyć zbiorczą bazę danych:
- Jeśli chcesz podzielić dane na partycje za pomocą zestawu strategii kontroli dostępu użytkownika.
- Jeśli określony dział chce znacznie szybciej uzyskać wyniki zapytania, zamiast skanować ogromne dane DW.
- Jeśli dział chce, aby dane były tworzone na innych platformach sprzętowych (lub) programowych.
- Jeśli dział chce, aby dane były zaprojektowane w sposób odpowiedni dla jego narzędzi.
Opłacalne Data Mart
Ekonomiczną zbiorczą bazę danych można utworzyć, wykonując następujące czynności:
- Zidentyfikuj podziały funkcjonalne: Podziel dane organizacji na każdą zbiorczą bazę danych (dział), aby spełnić jej wymagania, bez dalszych zależności organizacyjnych.
- Zidentyfikuj wymagania dotyczące narzędzia dostępu użytkownika: Na rynku mogą istnieć różne narzędzia dostępu użytkownika, które wymagają różnych struktur danych. Magazyny danych służą do obsługi wszystkich tych struktur wewnętrznych bez naruszania danych DW. Jedna zbiorcza baza danych może być powiązana z jednym narzędziem zgodnie z potrzebami użytkownika. Hurtownie danych mogą również codziennie dostarczać zaktualizowane dane do takich narzędzi.
- Zidentyfikuj problemy z kontrolą dostępu: Jeśli różne segmenty danych w systemie DW wymagają prywatności i powinny być dostępne dla grupy upoważnionych użytkowników, wszystkie takie dane można przenieść do magazynów danych.
Koszt danych Mart
Koszt hurtowni danych można oszacować w następujący sposób:
- Koszt sprzętu i oprogramowania: Każda nowo dodana zbiorcza baza danych może wymagać dodatkowego sprzętu, oprogramowania, mocy obliczeniowej, sieci i miejsca na dysku do pracy nad zapytaniami żądanymi przez użytkowników końcowych. To sprawia, że martwienie danych jest kosztowną strategią. Stąd budżet powinien być dokładnie zaplanowany.
- Dostęp do sieci: Jeśli lokalizacja hurtowni danych różni się od lokalizacji hurtowni danych, wszystkie dane powinny zostać przesłane wraz z procesem ładowania zbiorczej bazy danych. W związku z tym należy zapewnić sieć do przesyłania ogromnych ilości danych, co może być kosztowne.
- Ograniczenia okna czasowego: Czas potrzebny na załadowanie zbiorczej bazy danych będzie zależał od różnych czynników, takich jak złożoność i ilość danych, przepustowość sieci, mechanizmy przesyłania danych itp.
Porównanie hurtowni danych z Data Mart
S.Nr | Hurtownia danych | Data Mart |
---|---|---|
1 | Złożone i droższe w realizacji. | Prosty i tańszy w realizacji. |
dwa | Działa na poziomie organizacji dla całej firmy. | Zakres jest ograniczony do konkretnego działu. |
3 | Wysyłanie zapytań do DW jest trudne dla użytkowników biznesowych z powodu ogromnych zależności danych. | Wykonywanie zapytań do zbiorczej bazy danych jest łatwe dla użytkowników biznesowych ze względu na ograniczone dane. |
4 | Czas realizacji jest dłuższy, może to być miesiące lub lata. | Czas realizacji jest krótszy, może wynosić dni, tygodnie lub miesiące. |
5 | Zbiera dane z różnych zewnętrznych systemów źródłowych. | Zbiera dane z kilku scentralizowanych DW (lub) wewnętrznych (lub) zewnętrznych systemów źródłowych. |
6 | Można podjąć strategiczne decyzje. | Można podejmować decyzje biznesowe. |
Rodzaje Data Martów
Magazyny danych dzielą się na trzy typy, tj. Zależne, niezależne i hybrydowe. Ta klasyfikacja jest oparta na sposobie, w jaki zostały wypełnione, tj. Z hurtowni danych (lub) z dowolnego innego źródła danych.
Ekstrakcja, transformacja i transport (ETT) to proces używany do wypełniania danych zbiorczej bazy danych z dowolnych systemów źródłowych.
Przyjrzyjmy się szczegółowo każdemu typowi !!
1) Dependent Data Mart
W zależnej zbiorczej bazie danych dane są pobierane z samej istniejącej hurtowni danych. Jest to podejście odgórne, ponieważ część zrestrukturyzowanych danych do zbiorczej bazy danych jest wyodrębniana ze scentralizowanej hurtowni danych.
Hurtownia danych może używać danych DW logicznie lub fizycznie, jak pokazano poniżej:
- Widok logiczny: W tym scenariuszu dane hurtowni danych nie są fizycznie oddzielane od DW. Odnosi się logicznie do danych DW poprzez wirtualne widoki (lub) tabele.
- Podzbiór fizyczny: W tym scenariuszu dane hurtowni danych są fizycznie oddzielone od DW.
Po opracowaniu jednej lub większej liczby zbiorników danych można zezwolić użytkownikom na dostęp tylko do składnic danych (lub), aby uzyskać dostęp zarówno do zbiorników danych, jak i do hurtowni danych.
ETT jest uproszczonym procesem w przypadku zależnych baz danych, ponieważ dane użyteczne istnieją już w scentralizowanym DW. Dokładny zestaw podsumowanych danych należy po prostu przenieść do odpowiednich baz danych.
Obraz Dependent Data Mart pokazano poniżej :
# 2) Independent Data Mart
Niezależna zbiorcza baza danych najlepiej sprawdza się w przypadku małych działów w organizacji. W tym przypadku dane nie pochodzą z istniejącej hurtowni danych. Niezależna baza danych nie jest zależna od korporacyjnego DW ani innych baz danych.
Niezależne zbiorniki danych to samodzielne systemy, w których dane są wyodrębniane, przekształcane i ładowane z zewnętrznych (lub) wewnętrznych źródeł danych. Są łatwe w projektowaniu i utrzymaniu, dopóki nie obsługują prostych potrzeb biznesowych związanych z działem.
Musisz pracować z każdą fazą procesu ETT w przypadku niezależnych baz danych w podobny sposób, jak dane zostały przetworzone w scentralizowanym DW. Jednak liczba źródeł i danych wprowadzonych do magazynów danych może być mniejsza.
Graficzne przedstawienie Independent Data Mart :
# 3) Hybrid Data Mart
W hybrydowej zbiorczej bazie danych dane są integrowane zarówno z DW, jak iz innych systemów operacyjnych. Hybrydowe bazy danych są elastyczne i mają duże struktury pamięci. Może również odnosić się do innych danych z baz danych.
Graficzne przedstawienie Hybrid Data Mart:
Etapy wdrażania Data Mart
Implementację Data Mart, która jest uważana za nieco złożoną, wyjaśniono w poniższych krokach:
- Projektowanie: Od momentu, gdy użytkownicy biznesowi zażądają zbiorczej bazy danych, faza projektowania obejmuje zbieranie wymagań, tworzenie odpowiednich danych z odpowiednich źródeł danych, tworzenie logicznych i fizycznych struktur danych oraz diagramów ER.
- Konstruowanie: Zespół zaprojektuje wszystkie tabele, widoki, indeksy itp. W systemie zbiorczej bazy danych.
- Wypełnianie: Dane zostaną wyodrębnione, przekształcone i załadowane do zbiorczej bazy danych wraz z metadanymi.
- Dostęp: Użytkownicy końcowi mają dostęp do danych Data Mart. Mogą wyszukiwać dane w celu ich analiz i raportów.
- Zarządzający: Obejmuje to różne zadania zarządcze, takie jak kontrola dostępu użytkowników, dostrajanie wydajności hurtowni danych, utrzymywanie istniejących zbiorników danych i tworzenie scenariuszy odzyskiwania hurtowni danych na wypadek awarii systemu.
Struktura Data Mart
Struktura każdej zbiorczej bazy danych jest tworzona zgodnie z wymaganiami. Struktury Data Mart są nazywane łączeniami gwiazdowymi. Ta struktura będzie się różnić w zależności od zbiorczej bazy danych.
Złączenia gwiaździste to wielowymiarowe struktury tworzone za pomocą tabel faktów i wymiarów w celu obsługi dużych ilości danych. Łączenie w gwiazdę będzie miało tabelę faktów pośrodku otoczoną tabelami wymiarów.
Odpowiednie dane tabeli faktów są powiązane z danymi tabel wymiarów z odniesieniem do klucza obcego. Tabelę faktów można otoczyć 20–30 tabelami wymiarów.
Podobnie jak w systemie DW, również w przypadku połączeń gwiazdowych tabele faktów zawierają tylko dane liczbowe, a odpowiednie dane tekstowe można opisać w tabelach wymiarów. Ta struktura przypomina schemat gwiazdy w DW.
najlepsze darmowe oprogramowanie do usuwania adware i malware
Graficzne przedstawienie struktury połączenia gwiazdy.
Ale szczegółowe dane ze scentralizowanej DW są podstawą danych każdej hurtowni danych. Wiele obliczeń zostanie przeprowadzonych na znormalizowanych danych DW, aby przekształcić je w wielowymiarowe dane z baz danych, które są przechowywane w postaci kostek.
Działa to podobnie do sposobu, w jaki dane ze starszych systemów źródłowych są przekształcane w znormalizowane dane DW.
Kiedy pilot Data Mart jest przydatny?
Program pilotażowy można wdrożyć w małym środowisku z ograniczoną liczbą użytkowników, aby upewnić się, że wdrożenie zakończy się powodzeniem przed pełnym wdrożeniem. Jednak nie jest to konieczne przez cały czas. Wdrożenia pilotażowe nie będą przydatne, gdy cel zostanie osiągnięty.
Musisz wziąć pod uwagę poniższe scenariusze, które zalecają wdrożenie pilotażowe:
- Jeśli użytkownicy końcowi są nowi w systemie hurtowni danych.
- Jeśli użytkownicy końcowi chcą czuć się komfortowo, samodzielnie pobierając dane / raporty przed przejściem do produkcji.
- Jeśli użytkownicy końcowi chcą poznać najnowsze narzędzia (lub) technologie.
- Jeśli kierownictwo chce zobaczyć korzyści jako dowód koncepcji, zanim zrobi to jako duże wydanie.
- Jeśli zespół chce, aby upewnić się, że wszystkie komponenty ETL (lub) komponenty infrastruktury działają dobrze przed wydaniem.
Wady Data Mart
Chociaż hurtownie danych mają pewne zalety w stosunku do DW, mają również pewne wady, jak wyjaśniono poniżej:
- Niepożądane bazy danych, które zostały utworzone, są trudne do utrzymania.
- Bazy danych są przeznaczone dla potrzeb małych firm. Zwiększenie rozmiaru magazynów danych zmniejszy ich wydajność.
- Jeśli tworzysz większą liczbę składnic danych, kierownictwo powinno odpowiednio zadbać o ich wersjonowanie, bezpieczeństwo i wydajność.
- Zbiory danych mogą zawierać dane historyczne (lub) podsumowane (lub) szczegółowe. Jednak aktualizacje danych DW i hurtowni danych mogą nie być wykonywane w tym samym czasie z powodu problemów z niespójnością danych.
Wniosek
Wiele organizacji przygotowuje się do hurtowni danych z perspektywy oszczędności kosztów. Dlatego w tym samouczku skupiono się na technicznych aspektach magazynów danych w systemie hurtowni danych.
Metadane w ETL są szczegółowo wyjaśnione w naszym nadchodzącym samouczku.
=> Odwiedź tutaj, aby zobaczyć serię szkoleń z zakresu hurtowni danych dla wszystkich.
rekomendowane lektury
- Samouczek dotyczący testowania hurtowni danych z przykładami | Przewodnik po testach ETL
- Typy danych w Pythonie
- Typy danych C ++
- Wymiarowy model danych w hurtowni danych - samouczek z przykładami
- Algorytm Apriori w eksploracji danych: implementacja z przykładami
- Przykłady eksploracji danych: najczęstsze zastosowania eksploracji danych 2021
- Podstawy hurtowni danych: kompletny przewodnik z przykładami
- Samouczek dotyczący testowania objętościowego: przykłady i narzędzia do testowania objętościowego