oracle data warehouse
Przewodnik po hurtowni danych Oracle z korzyściami, architekturą, ryzykiem i porównaniem z systemem OLTP (Online Transaction Processing):
W poprzednim samouczku Kompleksowy przewodnik po Oracle , dowiedzieliśmy się o produktach i usługach Oracle w różnych dziedzinach, takich jak aplikacje, bazy danych, system operacyjny itp. Ten artykuł zapewni dogłębną wiedzę na temat hurtowni danych Oracle. Ale zanim to nastąpi, najpierw zrozummy pojęcie Business Intelligence (BI).
Business Intelligence
Business Intelligence to domena oprogramowania, która obejmuje określone metody, technologie, narzędzia i aplikacje, które pomagają w strukturyzowaniu, udoskonalaniu i przekształcaniu danych zbiorczych w inteligentny i zrozumiały format, który może być używany przez klientów do generowania niestandardowych raportów, a także pomaga w podejmowaniu działalności decyzje.
wyodrębnij adresy e-mail ze strony internetowej za darmo
Dostępne są różne opcje zaspokajające tę potrzebę, takie jak hurtownie danych, OLAP (przetwarzanie transakcji online), eksploracja danych, integracja danych, inżynieria decyzyjna, arkusze kalkulacyjne itp.
Enterprise Data Warehousing (EDW) jest jednym z podstawowych elementów BI, który służy potrzebom analitycznym i raportowym przedsiębiorstw. Hurtownia danych to relacyjny system zarządzania bazami danych (RDBMS), który przechowuje skonsolidowane dane otrzymane z wielu źródeł do późniejszego wykorzystania.
Czego się nauczysz:
- Omówienie hurtowni danych Oracle
- Porównanie hurtowni danych OLTP Vs
- Hurtownia danych i Data Mart
- Omówienie procesu ETL
- Architektura hurtowni danych
- Wniosek
Omówienie hurtowni danych Oracle
Dlaczego nazywa się to „hurtownią danych”?
Spróbujmy przypomnieć sobie znaczenie słowa „hurtownia”, aby odnieść się do terminu „hurtownia danych”.
Magazyn fizyczny to repozytorium służące do przechowywania towarów otrzymanych z różnych źródeł, które mogą być później dostarczane do klienta w zależności od jego potrzeb.
[wizerunek źródło ]
Podobnie hurtownia danych jest repozytorium danych otrzymanych z różnych systemów źródłowych. Tymi źródłami mogą być dowolne systemy pamięci masowej, takie jak zbiorniki danych, pliki płaskie lub dowolne urządzenia do przechowywania danych z różnych domen przedsiębiorstwa, takich jak HR, sprzedaż, operacje, zarządzanie zasobami i marketing itp.
Cel posiadania hurtowni danych
Przedsiębiorstwo mogło słyszeć o koncepcji hurtowni danych, ale nie jest pewne, czy powinno włączyć ją do swojego przedsiębiorstwa. Mimo to zawsze istniałaby potrzeba zrzucania danych z różnych źródeł na wspólny grunt i archiwizowania ich w celu zwolnienia przestrzeni dyskowej z systemów transakcyjnych. W tym przypadku system hurtowni danych staje się wymogiem biznesowym.
Aby rozwijać się na rynku, kierownictwo powinno być dobre w podejmowaniu decyzji, które można podjąć tylko po dokładnym przestudiowaniu przeszłych trendów w organizacji. Dlatego te zarchiwizowane dane są przechowywane w hurtowni danych w dobrze zorganizowanym i obliczonym formacie, tak aby można je było skierować do analizy biznesowej w przyszłości.
Korzyści z hurtowni danych
Hurtownia danych, jeśli zostanie pomyślnie wdrożona, może przynieść następujące korzyści:
# 1) Uprościło pracę analityków, dostarczając ulepszoną wersję rozwiązań Business Intelligence. Wydobywa dane z wielu systemów źródłowych, przekształca je i przechowuje, które mogą być bezpośrednio wyszukiwane przez firmę w celu analizy.
Oferuje również różne narzędzia, które obsługują:
- Generowanie niestandardowych raportów biznesowych.
- Interaktywne pulpity nawigacyjne wyświetlające wymagane informacje.
- Możliwość przeglądania pulpitów nawigacyjnych tylko w celu uzyskania szczegółowych informacji.
- Eksploracja danych i analiza trendów.
#dwa) Nawet po otrzymaniu danych z różnych systemów źródłowych dane w hurtowni danych pozostają spójne w wyniku przekształceń, które zaszły podczas procesu ETL. Spójne dane dają decydentowi pewność dokładności.
# 3) Hurtownie danych są również definiowane jako oszczędzające czas, ponieważ krytyczne dane wymagane przez interesariuszy do podejmowania decyzji biznesowych są dostępne w jednym miejscu i można je łatwo odzyskać.
# 4) Są one przeznaczone do przechowywania danych historycznych i dlatego można je sprawdzać w celu badania trendów w różnych okresach. Pomaga również interesariuszom w określeniu przyszłej ścieżki wzrostu.
Ryzyko związane z korzystaniem z hurtowni danych
Oprócz korzyści, każde nowe wdrożenie wiąże się również z szeregiem zagrożeń, którymi należy się zająć.
Poniżej wymieniono niektóre z zagrożeń:
- Niezgodność systemów źródłowych z systemem hurtowni danych może wiązać się z wykonaniem dużej ilości pracy ręcznej.
- Nieprawidłowe oszacowanie czasu procesu ETL może prowadzić do przerwania pracy.
- Są to bardzo zaawansowane systemy magazynowe i dlatego wymagają dużej konserwacji. Każdy przepływ pracy lub zmiany biznesowe mogą kosztować bardzo wysokie.
- Konfigurowanie hurtowni danych jest procesem czasochłonnym, ponieważ zrozumienie przepływów biznesowych i identyfikacja możliwości integracji w celu zaprojektowania hurtowni wymaga dużo czasu.
- Bezpieczeństwo danych jest tutaj zawsze ryzykowne, ponieważ zawiera odwieczne dane historyczne, które w przypadku wycieku mogą wpłynąć na biznes.
Porównanie hurtowni danych OLTP Vs
Różnice między OLTP a hurtownią danych można zrozumieć z poniższej tabeli.
OLTP | Magazyn danych |
---|---|
Wstawianie i aktualizacje to główne operacje wykonywane przez użytkowników końcowych w systemach OLTP. | Zapytania dotyczące hurtowni danych są najczęściej wykonywane za pomocą instrukcji SELECT i można je aktualizować tylko przy użyciu usług ETL. |
Systemy OLTP obsługują transakcje biznesowe. | Hurtownia danych wspiera decyzje biznesowe podejmowane po analizie zakończonych transakcji biznesowych. |
Dane pozostają niestabilne, tj. Ciągle się zmieniają | Nie należy zmieniać danych. |
Przechowują najnowsze dane. | Przechowują dane historyczne. |
Przechowuje surowe dane bez żadnych obliczeń. | Zawiera podsumowane i dobrze obliczone dane. |
Dane zostaną znormalizowane. | Dane pozostaną zdenormalizowane. |
Rozmiar bazy danych Oracle może wynosić od 50 MB do 100 GB. | Rozmiar bazy danych Oracle może wahać się od 100 GB do 2 TB. |
Hurtownia danych i Data Mart
Hurtownia danych i DataMart to nie oba terminy, które brzmią podobnie i wydają się być związane z przechowywaniem danych.
Tak, są powiązane i oba służą do przechowywania danych. Główną różnicą między nimi jest pojemność przechowywania danych, a różnica ta pomaga użytkownikom końcowym wybrać odpowiednią jednostkę pamięci masowej dla ich systemów.
Data Mart ma mniejszą pojemność do przechowywania danych w porównaniu z hurtownią danych i dlatego może być traktowana jako jej podzbiór. Magazyny danych są zwykle identyfikowane w celu przechowywania ograniczonych danych, które mogą dotyczyć określonego działu lub branży, podczas gdy hurtownie danych mogą służyć do przechowywania skonsolidowanych danych dla wszystkich.
Weźmy przykład witryny e-commerce z różnymi kategoriami towarów, takich jak moda, akcesoria, artykuły gospodarstwa domowego, książki i przybory szkolne, urządzenia elektroniczne itp.
Dlatego hurtownie danych mogą być zaprojektowane do przechowywania kategorii danych produktów, podczas gdy hurtownie danych mogą służyć do przechowywania pełnych danych witryny, w tym historii w jednym miejscu.
który program do pobierania wideo mp4 jest kompatybilny z youtube
Składnice danych mają mniejszy rozmiar, można je tworzyć znacznie szybciej bez przeprowadzania wielu analiz, co jest wymagane przy projektowaniu hurtowni danych. Jednak utrzymanie synchronizacji kilku zbiorników danych w celu zachowania spójności danych wymaga wiele wysiłku.
Omówienie procesu ETL
ETL (Extraction, Transformation and Loading) to proces wyodrębniania danych z różnych systemów źródłowych, przekształcania ich i ładowania do systemu Hurtowni Danych. Jest to złożony proces, który wymaga interakcji z różnymi systemami źródłowymi w celu ekstrakcji danych, a zatem jest również trudny technicznie.
Transformacja ponownie wymaga wielu analiz, aby zrozumieć format systemów źródłowych i wprowadzić dane do wspólnego formatu, aby te same dane mogły być przechowywane w hurtowni danych.
Proces ETL to cykliczne zadanie, które może być wykonywane codziennie, co tydzień lub nawet co miesiąc, w zależności od wymagań biznesowych.
Architektura hurtowni danych
Przyjrzyjmy się architekturze hurtowni danych, która jest przeznaczona głównie do przechowywania dopracowanych danych dla wstępnie zdefiniowanych wymagań biznesowych. Architektura składa się z 5 komponentów z przepływem danych od góry do dołu.
Składniki są następujące:
- Źródła danych
- Inscenizacja danych
- Hurtownia danych (przechowywanie danych)
- Data marzec (przechowywanie danych)
- Prezentacja danych
Rozumiemy kolejno wszystkie wymienione powyżej etapy.
# 1) Źródła danych
Istnieją różne systemy źródłowe, które działają jako dane wejściowe do systemów hurtowni danych.
Te systemy źródłowe mogą być:
- Relacyjne bazy danych, takie jak Oracle, DB2, MySQL, MS Access itp., Które mogą być używane do rejestrowania codziennych transakcji dowolnej organizacji. Te codzienne transakcje biznesowe mogą być związane z ERP, CRM, sprzedażą, finansami i marketingiem itp.
- Pilniki płaskie
- usługi internetowe
- Kanały RSS i podobne źródła.
# 2) Inscenizacja danych
co jest lepszym Windowsem lub Linuksem
Gdy źródła danych są już gotowe, następnym krokiem byłoby wyodrębnienie tych danych z systemów źródłowych do obszaru przemieszczania hurtowni.
Ponieważ dane zostały pobrane z różnych systemów, które korzystają z różnych formatów przechowywania, konieczna jest zmiana struktury danych w celu dostosowania ich do wspólnego formatu. Dlatego kolejnym krokiem jest transformacja danych.
Podczas transformacji następuje czyszczenie danych, które obejmuje stosowanie reguł biznesowych, filtrowanie danych, usuwanie redundancji, formatowanie danych, sortowanie danych itp.
# 3) Hurtownia danych (przechowywanie danych)
Po wyodrębnieniu i przekształceniu danych zostaną załadowane do wielowymiarowego środowiska, jakim jest Hurtownia Danych. Teraz te przetworzone dane mogą być wykorzystywane przez użytkowników końcowych do analizy i innych celów.
# 4) Data Marts (przechowywanie danych)
Jak wspomniano powyżej, dane są teraz gotowe do wykorzystania przez użytkowników końcowych, istnieje opcjonalny proces tworzenia Data Martów jako kolejny krok. Te zbiorcze zbiory danych mogą służyć do przechowywania podsumowanych danych z określonego działu lub branży do specjalnego użytku.
Na przykład, oddzielne zbiorniki danych można dodać dla działów, takich jak sprzedaż, finanse, marketing itp. jako kolejny krok, który będzie przechowywać określone dane i umożliwi analitykowi wykonywanie szczegółowych zapytań na potrzeby biznesowe. Uniemożliwia również każdemu innemu użytkownikowi końcowemu dostęp do całego magazynu, a tym samym zapewnia bezpieczeństwo danych.
# 5) Narzędzia dostępu do danych (prezentacja danych)
Istnieje wiele predefiniowanych narzędzi Business Intelligence, których użytkownicy mogą używać w celu uzyskiwania dostępu do hurtowni danych lub składnic danych. Te narzędzia front-end są zaprojektowane w niezwykle przyjazny dla użytkownika sposób, dając użytkownikom różnorodne opcje dostępu do danych.
Opcje są wymienione poniżej:
- Poprzez zastosowanie zapytania do Oracle lub dowolnej innej bazy danych bezpośrednio przez SQL.
- Generowanie raportów.
- Tworzenie aplikacji.
- Korzystanie z narzędzi Data Mining itp.
Niewiele popularnych narzędzi magazynowych dostępnych na rynku to:
- Analytix DS
- Amazon Redshift
- Oprogramowanie Ab Initio
- Code Futures
- Holistyczne zarządzanie danymi
- Informatics Corporation
Hurtownie danych w chmurze
Hurtownie danych są nadmiernie rozpoznawane na świecie. Następne pytanie, które się pojawia: czy stosujemy zoptymalizowane podejście do wdrażania hurtowni danych?
Następnie wprowadzono hurtownię danych w chmurze, która zyskała przewagę nad hurtownią danych przedsiębiorstwa (EDW). Koncepcja hurtowni danych opartych na chmurze ma wiele zalet.
Są to następujące:
(i) Skalowalność: Dane w systemach chmurowych można łatwo skalować w górę iw dół bez kłopotów, a skalowanie w tradycyjnych hurtowniach danych pochłania dużo czasu i zasobów.
(ii) Oszczędność kosztów: Hurtownie danych w chmurze znacząco wpłynęły na inwestycje wymagane do konfiguracji magazynu. Zmniejszyli masowy koszt początkowy, eliminując koszt
-
- Utrzymanie sprzętu / serwerowni.
- Personel wymagany do konserwacji.
- Inne koszty operacyjne.
(iii) Wydajność: Wydajność to kolejny czynnik, który pozwolił systemom opartym na chmurze zdominować tradycyjne. Jeśli firma jest rozszerzana globalnie i trzeba uzyskać dostęp do danych z różnych części świata w szybszym trybie, najlepiej użyć hurtowni w chmurze.
Przetwarzanie masowo równoległe (MPP) jest jedną z metod wspólnego przetwarzania wykorzystywanych przez magazyny w celu osiągnięcia tego samego.
(iv) Łączność: Jak wspomniano powyżej, jeśli trzeba uzyskać dostęp do danych z wielu lokalizacji geograficznych, użytkownicy potrzebują doskonałej łączności z tymi magazynami, a hurtownia w chmurze oferuje to samo.
Wniosek
Mamy nadzieję, że po przeczytaniu powyższego artykułu wszyscy zrozumieliście dobrze system Oracle Data Warehousing. Daj nam znać, jeśli potrzebujesz spostrzeżeń na określony temat dotyczący hurtowni danych, abyśmy mogli omówić to samo w nadchodzących samouczkach.
POPRZEDNIA samouczek | NEXT Tutorial
rekomendowane lektury
- Co to jest jezioro danych | Hurtownia danych a usługa Data Lake
- Samouczek dotyczący testowania hurtowni danych z przykładami | Przewodnik po testach ETL
- 10 najpopularniejszych narzędzi hurtowni danych i technologii testowania
- Wymiarowy model danych w hurtowni danych - samouczek z przykładami
- Metadane w hurtowni danych (ETL) wyjaśnione w przykładach
- Samouczek testowania hurtowni danych ETL (kompletny przewodnik)
- Typy schematów w modelowaniu hurtowni danych - schemat gwiazdy i płatka śniegu
- Co to jest proces ETL (wyodrębnianie, przekształcanie, ładowanie) w hurtowni danych?