data warehousing fundamentals
Dowiedz się wszystkiego o podstawach hurtowni danych. Ten szczegółowy przewodnik wyjaśnia, czym jest hurtownia danych wraz z jej typami, cechami, zaletami i wadami:
Hurtownia danych to najnowszy trend w dziedzinie pamięci masowej w dzisiejszej branży IT.
W tym samouczku wyjaśniono, czym jest hurtownia danych? Dlaczego hurtownie danych są kluczowe? Rodzaje aplikacji hurtowni danych, charakterystyka hurtowni danych, zalety i wady hurtowni danych.
Lista samouczków dotyczących hurtowni danych z tej serii:
Samouczek nr 1: Podstawy hurtowni danych
Samouczek nr 2: Co to jest proces ETL w hurtowni danych?
Samouczek nr 3: Testowanie hurtowni danych
Samouczek nr 4: Wymiarowy model danych w hurtowni danych
Samouczek nr 5: Typy schematów w modelowaniu hurtowni danych
Samouczek nr 6: Data Mart Tutorial
Samouczek nr 7: Metadane w ETL
Omówienie samouczków z tej serii dotyczącej hurtowni danych
Tutorial_Num | Czego się nauczysz |
---|---|
Samouczek nr 7 | Metadane w ETL W tym samouczku wyjaśniono rolę metadanych w ETL, przykłady i typy metadanych, repozytorium metadanych i wyzwania w zarządzaniu metadanymi. |
Samouczek nr 1 | Podstawy hurtowni danych Dowiedz się wszystkiego o pojęciach dotyczących hurtowni danych z tego samouczka. Ten szczegółowy przewodnik wyjaśnia, czym jest hurtownia danych wraz z jej typami, cechami, zaletami i wadami. |
Samouczek nr 2 | Co to jest proces ETL w hurtowni danych? Ten szczegółowy samouczek dotyczący procesu ETL wyjaśnia przepływ procesu i kroki związane z procesem ETL (wyodrębnianie, transformacja i ładowanie) w hurtowni danych. |
Samouczek nr 3 | Testowanie hurtowni danych Cele i znaczenie testowania hurtowni danych, obowiązki testowania ETL, błędy we wdrażaniu DW i ETL szczegółowo w tym samouczku. |
Samouczek nr 4 | Wymiarowy model danych w hurtowni danych W tym samouczku wyjaśniono zalety i mity wymiarowego modelu danych w hurtowni danych. Dowiesz się również o tabelach wymiarów i tabelach faktów z przykładami. |
Samouczek nr 5 | Typy schematów w modelowaniu hurtowni danych W tym samouczku opisano różne typy schematów hurtowni danych. Dowiedz się, czym jest schemat gwiezdny i schemat płatka śniegu oraz różnicę między schematem gwiazdy i płatka śniegu. |
Samouczek nr 6 | Data Mart Tutorial W tym samouczku wyjaśniono koncepcje Data Mart, w tym implementację Data Mart, typy, strukturę, a także różnice między hurtownią danych a usługą Data Mart. |
Czego się nauczysz:
Podstawy hurtowni danych: kompletny przewodnik
Docelowi odbiorcy
- Programiści i testerzy hurtowni danych / ETL.
- Specjaliści od baz danych z podstawową wiedzą na temat koncepcji baz danych.
- Administratorzy baz danych / eksperci Big Data, którzy chcą zrozumieć koncepcje hurtowni danych.
- Absolwenci / świeżo upieczeni absolwenci uczelni, którzy szukają pracy w hurtowni danych.
Co to jest hurtownia danych?
Hurtownia danych (DW) to repozytorium ogromnej ilości uporządkowanych danych. Te dane są konsolidowane z jednego lub kilku różnych źródeł danych. DW to relacyjna baza danych przeznaczona głównie do raportowania analitycznego i terminowego podejmowania decyzji w organizacjach.
Dane do tego celu są izolowane i optymalizowane od danych o transakcjach źródłowych, co nie będzie miało żadnego wpływu na główny biznes. Jeśli organizacja wprowadza jakąkolwiek zmianę biznesową, DW jest używana do badania skutków tej zmiany, a zatem DW jest również używana do monitorowania procesu niepodejmowania decyzji.
najlepsze darmowe oprogramowanie do tworzenia kopii zapasowych dla systemu Windows 10 2017
Hurtownia danych jest w większości systemem tylko do odczytu, ponieważ dane operacyjne są znacznie oddzielone od DW. Zapewnia to środowisko do pobierania największej ilości danych z dobrym zapisem zapytań.
Tym samym DW będzie działał jako silnik zaplecza dla narzędzi Business Intelligence, który wyświetla raporty, dashboardy dla użytkowników biznesowych. DW jest szeroko stosowany w sektorach bankowym, finansowym, detalicznym itp.
Dlaczego hurtownie danych są kluczowe?
Poniżej wymieniono niektóre z powodów, dla których hurtownia danych ma kluczowe znaczenie.
- Hurtownia danych gromadzi wszystkie dane operacyjne z kilku heterogenicznych źródeł „różnych formatów” i poprzez proces wyodrębniania, przekształcania i ładowania (ETL) ładuje dane do DW w „standardowym formacie wymiarowym” w całej organizacji.
- Hurtownia danych przechowuje zarówno „dane bieżące, jak i dane historyczne” na potrzeby raportowania analitycznego i podejmowania decyzji opartych na faktach.
- Pomaga organizacjom w podejmowaniu „mądrzejszych i szybkich decyzji” dotyczących obniżania kosztów i zwiększania przychodów poprzez porównywanie raportów kwartalnych i rocznych w celu poprawy ich wyników.
Typy aplikacji hurtowni danych
Business Intelligence (BI) to gałąź hurtowni danych służąca do podejmowania decyzji. Po załadowaniu danych w DW, BI odgrywa główną rolę, analizując dane i przedstawiając je użytkownikom biznesowym.
W praktyce termin „aplikacje hurtowni danych” oznacza, w ilu różnych typach dane mogą być przetwarzane i wykorzystywane.
Mamy trzy typy aplikacji DW, jak wspomniano poniżej.
- Przetwarzanie informacji
- Przetwarzanie analityczne
- Eksploracja danych, która służy do BI
1) Przetwarzanie informacji
Jest to rodzaj aplikacji, w której hurtownia danych pozwala na bezpośredni, indywidualny kontakt z przechowywanymi w niej danymi.
Ponieważ dane mogą być przetwarzane poprzez pisanie bezpośrednich zapytań na dane (lub) z podstawową analizą statystyczną danych, a końcowe wyniki zostaną przekazane użytkownikom biznesowym w postaci raportów, tabel, wykresów lub wykresów.
DW obsługuje następujące narzędzia do przetwarzania informacji:
(i) Narzędzia zapytań: Biznes (lub) analityk uruchamia zapytania przy użyciu narzędzi zapytań do eksploracji danych i generowania wyników w postaci raportów lub grafik zgodnie z wymaganiami biznesowymi.
(ii) Narzędzia do raportowania: Jeśli firma chce widzieć wyniki w dowolnym zdefiniowanym formacie i zgodnie z harmonogramem, tj. Codziennie, co tydzień lub co miesiąc, skorzysta z narzędzi raportowania. Tego rodzaju raporty można zapisywać i przeglądać w dowolnym momencie.
pytania i odpowiedzi na wywiady dla doświadczonych użytkowników
(iii) Narzędzia statystyczne: Jeśli firma chce przeprowadzić analizę na szerokim spojrzeniu na dane, do wygenerowania takich wyników zostaną wykorzystane narzędzia statystyczne. Firmy mogą wyciągać wnioski i przewidywać, rozumiejąc te strategiczne wyniki.
# 2) Przetwarzanie analityczne
Jest to rodzaj aplikacji, w której hurtownia danych umożliwia analityczne przetwarzanie przechowywanych w niej danych. Dane można analizować za pomocą następujących operacji, takich jak Slice-and-Dice, Drill Down, Roll Up i Pivoting.
(i) Slice-and-Dice : Hurtownia danych umożliwia operacjom typu „plaster i kostka” analizowanie danych uzyskiwanych z wielu poziomów z kombinacją różnych perspektyw. Operacja pokrój i kości wewnętrznie wykorzystuje mechanizm przechodzenia do szczegółów. Cięcie działa na danych wymiarowych.
W ramach wymagań biznesowych, jeśli koncentrujemy się na jednym obszarze, wycinanie analizuje wymiary tego konkretnego obszaru zgodnie z wymaganiami i daje wyniki. Dicing działa na operacjach analitycznych. Dicing powiększa dla określonego zestawu atrybutów we wszystkich wymiarach, aby zapewnić różne perspektywy. Rozważane są wymiary z jednego lub kilku kolejnych wycinków.
(ii) Drąż w dół : Jeśli firma chce przejść do bardziej szczegółowego poziomu dowolnej liczby podsumowań, przejdź do bardziej szczegółowego poziomu, aby przejść do mniejszego poziomu szczegółowości. Daje to świetne wyobrażenie o tym, co się dzieje i na czym należy bardziej skoncentrować się na biznesie.
Przeprowadź drążenie ścieżek od poziomu hierarchii do mniejszego poziomu szczegółowości w celu analizy przyczyn źródłowych. Można to łatwo zrozumieć na przykładzie, ponieważ analiza sprzedaży może odbywać się z Poziom kraju -> Poziom regionu -> Poziom stanu -> Poziom dystryktu -> Poziom sklepu.
(iii) Roll up : Roll up działa przeciwnie do operacji drążenia w dół. Jeśli firma potrzebuje podsumowania danych, pojawia się podsumowanie. Agreguje dane poziomu szczegółowości, przesuwając się w górę w hierarchii wymiarowej.
Raporty zbiorcze służą do analizy rozwoju i wydajności systemu.
Można to zrozumieć za pomocą pliku Przykład jak w przypadku roll-upu sprzedaży, z którego można zbierać sumy Poziom miasta -> Poziom stanu -> Poziom regionu -> Poziom kraju .
(iv) Pivot : Obracanie analizuje dane wymiarowe, obracając dane w kostkach. Na przykład, wymiar wierszowy można zamienić na wymiar kolumny i odwrotnie.
# 3) Eksploracja danych
Jest to rodzaj aplikacji, w której hurtownia danych umożliwia odkrywanie wiedzy o danych, a wyniki będą reprezentowane za pomocą narzędzi wizualizacyjnych. W powyższych dwóch typach aplikacji informacje mogą być napędzane przez użytkowników.
Ponieważ dane w różnych firmach są ogromne, trudno jest przeszukiwać hurtownię danych i analizować ją, aby uzyskać wszystkie możliwe wgląd w dane. Następnie pojawia się eksploracja danych, która prowadzi do odkrywania wiedzy.
Prowadzi to do danych ze wszystkimi przeszłymi skojarzeniami, wynikami itp. I przewiduje przyszłość. Dlatego jest to oparte na danych, a nie na użytkownikach. Dane można znaleźć, znajdując ukryte wzorce, skojarzenia, klasyfikacje i przewidywania.
Eksploracja danych dogłębnie wykorzystuje dane, aby przewidywać przyszłość. Na podstawie prognoz sugeruje również działania, jakie należy podjąć.
Poniżej podano różne działania Data Mining:
- Wzory: Eksploracja danych wykrywa wzorce występujące w bazie danych. Użytkownicy mogą zapewnić dane wejściowe biznesowe, na podstawie których oczekuje się pewnej wiedzy o wzorcach przy podejmowaniu decyzji.
- Stowarzyszenia / relacje: Eksploracja danych odkrywa relacje między obiektami z częstotliwością ich reguł asocjacji. Ta relacja może zachodzić między dwoma lub więcej obiektami (lub) może odkryć reguły we właściwościach tego samego obiektu.
- Klasyfikacja: Eksploracja danych organizuje dane w zestawie predefiniowanych klas. Więc jeśli jakikolwiek obiekt zostanie pobrany z danych, klasyfikacja skojarzy odpowiednią etykietę klasy z tym obiektem.
- Prognoza: Eksploracja danych porównuje zestaw istniejących wartości, aby znaleźć najlepsze możliwe przyszłe wartości / trendy w biznesie.
Dlatego w oparciu o wszystkie powyższe wyniki eksploracja danych proponuje również zestaw działań do podjęcia.
Charakterystyka hurtowni danych
Hurtownia danych jest budowana w oparciu o następujące cechy danych: zorientowane podmiotowo, zintegrowane, nieulotne i czasowe.
# 1) Zorientowany na temat: Możemy zdefiniować hurtownię danych jako zorientowaną podmiotowo, ponieważ możemy analizować dane w odniesieniu do określonego obszaru tematycznego, a nie stosowania mądrych danych. Zapewnia to bardziej zdefiniowane wyniki, co ułatwia podejmowanie decyzji. W przypadku systemu edukacji obszarami przedmiotowymi mogą być uczniowie, przedmioty, stopnie, nauczyciele itp.
# 2) Zintegrowany: Dane w hurtowni danych są integrowane z różnych źródeł, takich jak inne relacyjne bazy danych, pliki płaskie itp. Tak ogromna ilość danych jest pobierana w celu efektywnej analizy danych. Mogą jednak wystąpić konflikty danych, ponieważ różne źródła danych mogą mieć różne formaty. Hurtownia danych przenosi wszystkie te dane w spójny format w całym systemie.
# 3) Nieulotne: Po załadowaniu danych do hurtowni danych nie można ich zmienić. Logicznie jest to do zaakceptowania, ponieważ częste zmiany danych nie pozwalają na ich analizę. Częste zmiany w operacyjnej bazie danych mogą być ładowane do hurtowni danych zgodnie z harmonogramem, w trakcie tego procesu dodawane są nowe dane, jednak dane wcześniejsze nie są kasowane i pozostają danymi historycznymi.
# 4) Wariant czasowy: Wszystkie dane historyczne wraz z najnowszymi danymi w hurtowni danych odgrywają kluczową rolę w pobieraniu danych o dowolnym czasie trwania. Jeśli firma chce mieć jakieś raporty, wykresy itp., To do porównania z poprzednimi latami i analizy trendów wymagane są wszystkie stare dane sprzed 6 miesięcy, 1 roku lub nawet starsze, itp.
Korzyści z hurtowni danych
Gdy system hurtowni danych jest produktywny, organizacja uzyskuje następujące korzyści, używając go:
- Rozszerzona analiza biznesowa
- Zwiększona wydajność systemu i zapytań
- Analiza biznesowa z wielu źródeł
- Terminowy dostęp do danych
- Lepsza jakość i spójność danych
- Inteligencja historyczna
- Wysoki zwrot z inwestycji
1) Ulepszona analiza biznesowa: Wcześniej, kiedy nie było hurtowni danych i analityki biznesowej, użytkownicy biznesowi i analitycy podejmowali decyzje z ograniczoną ilością danych i z własnym przeczuciem.
Przykład tabeli skrótów języka c ++
Firma DW & BI wprowadziła zmianę, dostarczając wglądu w prawdziwe fakty i rzeczywiste dane organizacji, które są gromadzone przez pewien okres czasu. Użytkownicy biznesowi mogą bezpośrednio wyszukiwać dowolne dane dotyczące procesów biznesowych, takich jak marketing, finanse, sprzedaż itp., W oparciu o ich potrzeby w zakresie podejmowania strategicznych decyzji i mądrych decyzji biznesowych.
# 2) Zwiększona wydajność systemu i zapytań: Hurtownia danych gromadzi obszerne informacje z heterogenicznych systemów i umieszcza je w jednym systemie, dzięki czemu do szybkiego wyszukiwania danych można użyć jednego silnika zapytań.
# 3) Analiza biznesowa z wielu źródeł: Czy wiesz, jak ogólnie działa Business Intelligence na danych? Pochłania dane z wielu systemów, podsystemów, platform i źródeł danych do pracy nad projektem. Jednak hurtownia danych rozwiązuje ten problem dla BI, konsolidując wszystkie dane projektu bez żadnych duplikatów.
# 4) Terminowy dostęp do danych: Użytkownicy biznesowi odniosą korzyści, poświęcając mniej czasu na pobieranie danych. Mają pod ręką narzędzia, za pomocą których mogą wyszukiwać dane przy minimalnej wiedzy technicznej i generować raporty. To sprawia, że użytkownicy biznesowi spędzają wystarczająco dużo czasu na analizie danych, zamiast na ich gromadzeniu.
# 5) Lepsza jakość i spójność danych: Hurtownia danych przekształca dane o odmiennych formatach systemu źródłowego do jednego formatu. W związku z tym być może te same jednostki biznesowe, które pozyskują dane do hurtowni danych, mogą ponownie wykorzystywać repozytorium DW dla swoich raportów biznesowych i zapytań.
W związku z tym z punktu widzenia organizacji wszystkie jednostki biznesowe będą mieć spójne wyniki / raporty. W ten sposób te dobrej jakości i spójne dane pomagają w prowadzeniu udanego biznesu.
# 6) Inteligencja historyczna: Hurtownia danych przechowuje wszystkie dane historyczne, które nie są obsługiwane przez żadne systemy transakcyjne. Ta duża ilość danych jest wykorzystywana do analizowania danych w określonym przedziale czasowym i raportowania ich oraz do analizowania trendów w celu przewidywania przyszłości.
# 7) Wysoki zwrot z inwestycji (ROI): Każdy zaczyna biznes, oczekując dobrych zwrotów z inwestycji, w postaci większych zysków i mniejszych wydatków. W realnym świecie danych wiele badań dowiodło, że wdrożenie hurtowni danych i systemów Business Intelligence przyniosło duże przychody i pozwoliło zaoszczędzić na kosztach.
Do tej pory powinieneś być w stanie zrozumieć, w jaki sposób dobrze zaprojektowany system DW przynosi korzyści Twojej firmie.
Wady hurtowni danych
Chociaż jest to bardzo udany system, dobrze jest poznać kilka pułapek w systemie:
- Tworzenie hurtowni danych jest zdecydowanie czasochłonnym i złożonym procesem.
- Koszty utrzymania są wysokie, ponieważ system wymaga ciągłych aktualizacji. Może również wzrosnąć, jeśli nie zostanie odpowiednio wykorzystany.
- Programiści, testerzy i użytkownicy powinni zostać odpowiednio przeszkoleni, aby zrozumieć system DW i wdrożyć go technicznie.
- Mogą istnieć poufne dane, których nie można załadować do DW w celu podjęcia decyzji.
- Restrukturyzacja jakichkolwiek procesów biznesowych (lub) systemów źródłowych ma duży wpływ na DW.
Wniosek
Mamy nadzieję, że ten samouczek wprowadzający dostarczył podstawowych informacji o hurtowniach danych. Dogłębnie przyjrzeliśmy się wszystkim podstawowym koncepcjom hurtowni danych.
W tym kompleksowym samouczku poznaliśmy definicję, typy, cechy, zalety i wady hurtowni danych.
=> Przeczytaj serię szkoleń dotyczących łatwego magazynowania danych.
rekomendowane lektury
- Przykłady eksploracji danych: najczęstsze zastosowania eksploracji danych 2021
- Jak działa testowanie oparte na danych (przykłady QTP i selenu)
- Eksploracja danych: proces, techniki i główne problemy w analizie danych
- Samouczek dotyczący testowania hurtowni danych ETL (kompletny przewodnik)
- Najlepsza DARMOWA seria samouczków języka C #: najlepszy przewodnik po języku C # dla początkujących
- Samouczek dotyczący sieci komputerowych: kompletny przewodnik
- QTP Tutorial # 18 - Objaśnienie struktur opartych na danych i hybrydowych z przykładami QTP
- Ponad 10 najlepszych narzędzi do gromadzenia danych ze strategiami gromadzenia danych