what is data lake data warehouse vs data lake
W tym samouczku wyjaśniono wszystko na temat usługi Data Lake, w tym jej potrzeby, definicji, architektury, korzyści i różnic między usługą Data Lake a hurtownią danych:
Termin „Data Lake” jest często używany w dzisiejszym świecie IT. Czy zastanawiałeś się kiedyś, co to jest i skąd dokładnie pochodzi ten termin?
W erze technologii informatycznych, w której dane wzmacniają się w dzień iw nocy w różnych formach, koncepcja jeziora danych staje się z pewnością ważna i użyteczna.
Przyjrzyjmy się szczegółowo, czym jest jezioro danych i jakie są jego zalety, zastosowania itp. Tutaj.
Czego się nauczysz:
- Co to jest jezioro danych i jak to działa?
- Wniosek
Co to jest jezioro danych i jak to działa?
Jezioro danych to system lub scentralizowane repozytorium danych, które umożliwia przechowywanie wszystkich ustrukturyzowanych, częściowo ustrukturyzowanych, niestrukturalnych i binarnych danych w ich naturalnym / natywnym / surowym formacie.
Dane strukturalne mogą obejmować tabele z RDBMS; dane częściowo ustrukturyzowane obejmują pliki CSV, pliki XML, logi, JSON itp .; dane nieustrukturyzowane mogą obejmować pliki PDF, dokumenty tekstowe, pliki tekstowe, wiadomości e-mail itp .; a dane binarne mogą obejmować pliki audio, wideo i obrazy.
Opiera się na płaskiej architekturze do przechowywania danych. Ogólnie dane są przechowywane w postaci obiektów blob lub plików.
(wizerunek źródło )
Dzięki usłudze Data Lake możesz przechowywać całe przedsiębiorstwo tak, jak jest w jednym miejscu, bez konieczności wcześniejszej strukturyzowania danych. Możesz bezpośrednio wykonywać na nim różne typy analiz, w tym uczenie maszynowe, analizę w czasie rzeczywistym, lokalne przenoszenie danych, przenoszenie danych w czasie rzeczywistym, pulpity nawigacyjne i wizualizacje.
Zachowuje wszystkie zawarte w nim dane w oryginalnej formie i zakłada, że analiza nastąpi później, na żądanie.
Analogia Data Lake
(wizerunek źródło )
Termin Data Lake został wymyślony przez Jamesa Dixona, ówczesnego CTO w Pentaho. Definiuje zbiorcze dane (podzbiór hurtowni danych) jako podobne do butelki na wodę wypełnionej oczyszczoną, destylowaną wodą, zapakowanej i skonstruowanej do bezpośredniego i łatwego użycia.
Z drugiej strony jest analogiczny do zbiornika wodnego w jego naturalnej postaci. Dane przepływają ze strumieni (różne funkcje biznesowe / systemy źródłowe) do jeziora. Konsumenci jeziora danych, tj. Użytkownicy mają dostęp do jeziora w celu analizy, badania, pobierania próbek i nurkowania.
Podobnie jak woda w jeziorze zaspokaja różne potrzeby ludzi, takie jak wędkowanie, pływanie łódką, dostarczanie wody pitnej itp., Podobnie architektura jeziora danych służy wielu celom.
rodzaj testowania w inżynierii oprogramowania
Naukowiec danych może go użyć do eksploracji danych i stworzenia hipotezy. Daje analitykom danych możliwość analizy danych i odkrywania wzorców. Zapewnia użytkownikom biznesowym i interesariuszom tryb eksploracji danych.
Daje także analitykom raportującym możliwość projektowania raportów i przedstawiania ich biznesowi. Wręcz przeciwnie, hurtownia danych zawiera spakowane dane do ściśle określonych celów, podobnie jak butelka bisleri, która może być używana tylko do wody pitnej.
Data Lake Market - wzrost, trendy i prognozy
Rynek jezior danych jest podzielony na podstawie produktu (rozwiązania lub usługi), wdrożenia (lokalnie lub w chmurze), branży klientów (handel detaliczny, bankowość, usługi użyteczności publicznej, ubezpieczenia, IT, opieka zdrowotna, telekomunikacja, wydawnictwa, produkcja) oraz regiony.
Zgodnie z raportem opublikowanym przez Mordor Intelligence, poniżej znajduje się migawka rynku dla jeziora danych:
(wizerunek źródło )
1) Podsumowanie rynku
Rynek jezior danych oszacowano na 3,74 mld USD w 2019 r. I przewiduje się, że do 2025 r. Osiągnie poziom 17,60 mld USD, przy CAGR (złożonym rocznym wskaźniku wzrostu) na poziomie 29,9% w całym okresie objętym prognozą 2020-2025.
Te zbiorniki danych coraz częściej stają się ekonomiczną opcją dla wielu organizacji zamiast hurtowni danych. W przeciwieństwie do jezior danych, hurtownie danych wymagają dodatkowego przetwarzania danych przed wejściem do magazynu.
Koszt zarządzania jeziorem danych jest mniejszy w porównaniu z hurtownią danych, ponieważ tworzenie bazy danych dla hurtowni wymaga dużej ilości przetwarzania i miejsca.
# 2) Główni gracze
Przewiduje się, że rynek Data Lake będzie skonsolidowanym rynkiem zdominowanym przez pięciu kluczowych graczy, jak widać na poniższym obrazku.
# 3) Kluczowe trendy
- Oczekuje się, że jego wykorzystanie znacznie wzrośnie w sektorze bankowym. Banki wykorzystują jeziora danych, aby dostarczać analizy w ruchu. Pomaga również w rozwiązaniu wielu silosów w sektorze bankowym.
- Ponieważ na całym świecie obserwuje się ogromny wzrost płatności cyfrowych / wykorzystania portfeli mobilnych, zakres analizy dużych zbiorów danych, a tym samym możliwości dla nich, rosną.
- Przewiduje się, że Ameryka Północna będzie miała wysoki poziom przyjęcia dla jezior danych. Badanie przeprowadzone przez Capgemini mówi, że ponad 60% organizacji finansowych w USA uważa, że analityka dużych zbiorów danych działa jak wyróżnik dla biznesu i zapewnia im przewagę konkurencyjną. Ponad 90% organizacji uważa, że inwestowanie w projekty związane z dużymi zbiorami danych zwiększa szanse powodzenia w przyszłości.
- Są one niezbędne do korzystania z aplikacji inteligentnych liczników, aw Stanach Zjednoczonych przewiduje się, że w 2021 r. Zostanie zainstalowanych około 90 milionów inteligentnych liczników. Stąd też przewiduje się duże zapotrzebowanie na nie.
Dlaczego jest wymagane Data Lake?
Celem jeziora danych jest zapewnienie nieprzetworzonego widoku danych (danych w ich najczystszej postaci).
Przykłady
Obecnie wiele dużych firm, w tym Google, Amazon, Cloudera, Oracle, Microsoft i kilka innych, ma oferty Data Lake.
Wiele organizacji korzysta z usług przechowywania w chmurze, takich jak Azure Data Lake lub Amazon S3. Firmy używają również rozproszonego systemu plików, takiego jak Apache Hadoop. Ewoluowała również koncepcja jeziora danych osobowych, które umożliwia zarządzanie i udostępnianie własnych dużych zbiorów danych.
Jeśli mówimy o zastosowaniach przemysłowych, jest to bardzo odpowiednie dla dziedziny opieki zdrowotnej. Ze względu na nieustrukturyzowany format wielu danych w opiece zdrowotnej ( Na przykład, Notatki lekarza, dane kliniczne, historia chorób pacjenta itp.) Oraz wymagania dotyczące wglądu w czasie rzeczywistym, jezioro danych jest świetną opcją zamiast hurtowni danych.
Oferuje elastyczne rozwiązania także w sektorze edukacji, gdzie dane są bardzo obszerne i bardzo surowe.
W sektorze transportowym, głównie w zarządzaniu łańcuchem dostaw lub logistyce, pomaga w prognozowaniu i osiągnięciu korzyści w zakresie redukcji kosztów.
Jeziora danych są również wykorzystywane w przemyśle lotniczym i elektroenergetycznym.
Przykładem jego wdrożenia jest GE Predix (opracowany przez General Electric), który jest platformą przemysłowego jeziora danych oferującą silne kompetencje w zakresie zarządzania danymi w celu tworzenia, wdrażania i zarządzania aplikacjami przemysłowymi, które łączą się z aktywami przemysłowymi, gromadzą i analizują dane oraz dostarczają w czasie rzeczywistym spostrzeżenia dotyczące ulepszania infrastruktury i procesów przemysłowych.
Różnica między hurtownią danych a usługą Data Lake
Często ludziom trudno jest zrozumieć, czym różni się jezioro od hurtowni danych. Twierdzą również, że jest to to samo, co hurtownia danych. Ale to nie jest rzeczywistość.
Jedyną wspólną cechą jeziora danych i hurtowni danych jest to, że oba są repozytoriami przechowywania danych. Reszta, oni są inni. Mają różne przypadki użycia i cele.
Różnice wyjaśniono poniżej:
Data Lake | Hurtownia danych | |
---|---|---|
Analityka | Jezioro danych może służyć do uczenia maszynowego, profilowania danych wykrywania danych i analizy predykcyjnej. | Hurtownia danych może służyć do Business Intelligence, wizualizacji i raportowania wsadowego. |
Dane | Data Lake zachowa w nim wszystkie surowe dane. Może być strukturalny, nieustrukturyzowany lub częściowo ustrukturyzowany. Może się zdarzyć, że niektóre dane z jeziora danych nigdy nie zostaną wykorzystane. | Hurtownia danych obejmuje tylko te dane, które są przetwarzane i dopracowane, tj. Dane ustrukturyzowane, które są wymagane do raportowania i rozwiązywania określonych problemów biznesowych. |
Użytkownicy | Ogólnie rzecz biorąc, użytkownicy jeziora danych to naukowcy i programiści danych. | Na ogół użytkownicy hurtowni danych to profesjonaliści biznesowi, użytkownicy operacyjni i analitycy biznesowi. |
Dostępność | Jezioro danych jest łatwo dostępne, łatwe i szybkie w aktualizacji, ponieważ nie ma żadnej struktury. | W hurtowni danych aktualizacja danych jest operacją bardziej skomplikowaną i kosztowną, ponieważ hurtownie danych mają strukturę projektową. |
Schemat | Schemat przy zapisie. Zaprojektowany przed wdrożeniem DW. | Schemat odczytu. Napisane w czasie analizy. |
Architektura | Architektura płaska | Architektura hierarchiczna |
Cel, powód | Cel surowych danych przechowywanych w jeziorach danych nie jest ustalony lub jest nieokreślony. Czasami dane mogą wpływać do jeziora danych z myślą o konkretnym zastosowaniu w przyszłości lub po prostu mieć je pod ręką. Jezioro danych ma mniej zorganizowane i mniej filtrowane dane. | Przetwarzane dane przechowywane w hurtowni mają określony i określony cel. DW zorganizował i przefiltrował dane. W związku z tym wymaga mniej miejsca w pamięci niż jezioro danych. |
Przechowywanie | Zaprojektowany z myślą o niedrogim przechowywaniu. Sprzęt jeziora danych bardzo różni się od sprzętu hurtowni danych. Wykorzystuje gotowe serwery w połączeniu z tanią pamięcią masową. To sprawia, że jezioro danych jest dość ekonomiczne i wysoce skalowalne do terabajtów i petabajtów. Ma to na celu przechowywanie wszystkich danych w jeziorze danych, dzięki czemu można w dowolnym momencie cofnąć się do czasu i przeprowadzić analizę. | Kosztowne w przypadku dużych ilości danych. Hurtownia danych ma drogie miejsce na dysku, dzięki czemu jest bardzo wydajna. Dlatego w celu zaoszczędzenia miejsca model danych jest uproszczony, a w hurtowni danych przechowywane są tylko te dane, które są naprawdę potrzebne do podejmowania decyzji biznesowych. |
Wsparcie dla typów danych | Usługa Data Lake bardzo dobrze obsługuje nietradycyjne typy danych, takie jak dzienniki serwera, dane z czujników, aktywność w sieciach społecznościowych, tekst, obrazy, multimedia itp. Wszystkie dane są przechowywane niezależnie od źródła i struktury. | Ogólnie hurtownia danych składa się z danych pobranych z systemów transakcyjnych. Nie obsługuje zbyt dobrze nietradycyjnych typów danych. Przechowywanie i używanie nietradycyjnych danych może być kosztowne i trudne w przypadku hurtowni danych. |
Bezpieczeństwo | Bezpieczeństwo jezior danych jest na etapie „dojrzewania”, ponieważ jest to pojęcie stosunkowo nowe niż hurtownia danych. | Bezpieczeństwo hurtowni danych jest na etapie „dojrzałości”. |
Zwinność | Bardzo zwinny; skonfigurować i ponownie skonfigurować zgodnie z wymaganiami. | Mniej zwinny; stała konfiguracja. |
Architektura Data Lake
Schemat architektury
Powyżej znajduje się schemat architektury koncepcyjnej jeziora danych. Po lewej stronie widać, że mamy źródła danych, które mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane.
Te źródła danych są łączone w magazyn danych surowych, który wykorzystuje dane w postaci surowej, tj. Dane bez żadnych przekształceń. To niedrogi, trwały i skalowalny magazyn.
Następnie mamy analityczne obszary izolowane, których można używać do wykrywania danych, eksploracyjnej analizy danych i modelowania predykcyjnego. Zasadniczo jest to wykorzystywane przez naukowców zajmujących się danymi do eksploracji danych, tworzenia nowych hipotez i definiowania przypadków użycia.
Następnie istnieje silnik przetwarzania wsadowego, który przetwarza surowe dane do postaci nadającej się do użytku przez konsumenta, tj. W ustrukturyzowanym formacie, który można wykorzystać do raportowania użytkownikom końcowym.
Następnie mamy silnik przetwarzania w czasie rzeczywistym, który pobiera dane strumieniowe i przekształca je.
Kluczowe cechy jeziora danych
Aby repozytorium danych big data zostało sklasyfikowane jako Data Lake, powinno ono posiadać następujące trzy atrybuty:
# 1) Pojedyncze wspólne repozytorium danych zwykle przechowywane w rozproszonym systemie plików (DFS).
Dane Hadoop przechowują dane w ich natywnej formie i przechwytują zmiany w danych oraz względną semantykę podczas cyklu życia danych. Takie podejście jest szczególnie korzystne w przypadku kontroli zgodności i audytów wewnętrznych.
Jest to ulepszenie w stosunku do konwencjonalnej hurtowni danych przedsiębiorstwa, w której gdy dane przechodzą transformacje, agregacje i modyfikacje, trudno jest umieścić dane jako całość, gdy jest to wymagane, a firmy starają się znaleźć źródło / pochodzenie danych.
# 2) Zawiera funkcje planowania i planowania zadań (na przykład za pomocą dowolnego narzędzia do planowania, takiego jak YARN itp.).
pomoc techniczna w trakcie rozmowy kwalifikacyjnej pytania i odpowiedzi
Wykonywanie obciążeń jest niezbędną potrzebą przedsiębiorstwa Hadoop, a YARN oferuje zarządzanie zasobami i centralną platformę zapewniającą ciągłe procesy, bezpieczeństwo i narzędzia do zarządzania danymi w klastrach Hadoop, zapewniając przepływ pracy analitycznej na wymaganym poziomie dostępu do danych i mocy obliczeniowej.
# 3) Obejmuje zestaw narzędzi i funkcji wymaganych do wykorzystywania, przetwarzania lub pracy z danymi.
Łatwa i szybka dostępność dla użytkowników jest jedną z kluczowych cech jeziora danych, ponieważ organizacje przechowują dane w ich natywnej lub czystej postaci.
Dane w dowolnej formie, tj. Ustrukturyzowane, nieustrukturyzowane lub częściowo ustrukturyzowane, są umieszczane w takiej postaci, w jakiej są w jeziorze danych. Umożliwia właścicielom danych łączenie danych o klientach, dostawcach i operacjach, usuwając wszelkie techniczne lub polityczne bariery w udostępnianiu danych.
Korzyści
(wizerunek źródło )
- Wszechstronny : Wystarczająco kompetentny do przechowywania wszelkiego rodzaju ustrukturyzowanych / nieustrukturyzowanych danych, od danych CRM po działania w sieciach społecznościowych.
- Większa elastyczność schematu : Nie wymaga planowania ani wcześniejszej wiedzy na temat analizy danych. Przechowuje wszystkie dane w oryginalnej formie i zakłada, że analiza nastąpi później, na żądanie. Jest to bardzo przydatne w przypadku OLAP. Na przykład, Jezioro danych Hadoop pozwala na uwolnienie się od schematów, dzięki czemu można oddzielić schemat od danych.
- Analiza decyzji w czasie rzeczywistym : Korzystają z ogromnej ilości spójnych danych i algorytmów głębokiego uczenia się, aby uzyskać analizę decyzji w czasie rzeczywistym. Możliwość uzyskiwania wartości z nieograniczonej liczby typów danych.
- Skalowalne: Są znacznie bardziej skalowalne niż tradycyjne hurtownie danych, a także mniej kosztowne.
- Zaawansowana analityka / zgodność z SQL i innymi językami: W przypadku jezior danych istnieje wiele sposobów wykonywania zapytań dotyczących danych. W przeciwieństwie do tradycyjnych hurtowni danych, które obsługują tylko SQL do prostej analizy, oferują wiele innych opcji i obsługi językowej do analizy danych. Są również kompatybilne z narzędziami do uczenia maszynowego, takimi jak Spark MLlib.
- Demokratyzacja danych: Zdemokratyzowany dostęp do danych za pośrednictwem jednego, zintegrowanego widoku danych w całej organizacji przy wykorzystaniu efektywnej platformy zarządzania danymi. Zapewnia to pełną dostępność danych.
- Lepsza jakość danych: Ogólnie rzecz biorąc, uzyskujesz lepszą jakość danych dzięki jeziorom danych dzięki korzyściom technologicznym, takim jak przechowywanie danych w formacie natywnym, skalowalność, wszechstronność, elastyczność schematów, obsługa języka SQL i innych języków oraz zaawansowana analityka.
Wyzwania i zagrożenia
Jeziora danych mają wiele zalet. Ale tak, jest też kilka wyzwań i zagrożeń z nimi związanych, którymi organizacja musi się ostrożnie zająć.
Oni są:
- Jeśli nie zostaną odpowiednio zaprojektowane, mogą zamienić się w bagna danych. Czasami organizacje po prostu wyrzucają nieograniczone dane do tych jezior bez żadnej strategii i celu.
- Czasami analitycy, którzy chcą wykorzystać dane, nie wiedzą, jak to zrobić, ponieważ eksploracja w jeziorach danych jest dość trudna. W ten sposób po pewnym czasie tracą na znaczeniu i rozmachu. Organizacje muszą pracować nad usunięciem tej bariery dla analityków.
- Ponieważ mamy wiele zdezorganizowanych danych w jeziorach danych, nie są one wystarczająco świeże ani aktualne, aby można je było wykorzystać w produkcji. Dlatego dane w tych jeziorach pozostają w trybie pilotażowym i nigdy nie są wprowadzane do produkcji.
- Dane nieustrukturyzowane mogą prowadzić do bezużytecznych danych.
- Czasami organizacje doświadczają, że nie ma to znaczącego wpływu na biznes w odniesieniu do poczynionych inwestycji. Wymaga to zmiany sposobu myślenia. Aby wpływy miały miejsce, firmy muszą zachęcać menedżerów i liderów do podejmowania decyzji w oparciu o analizy uzyskane z tych zasobów danych.
- Bezpieczeństwo i kontrola dostępu są również jednym z zagrożeń podczas pracy z nimi. Niektóre dane, które mogą być objęte ochroną prywatności i są wymagane przepisami, są umieszczane w jeziorach danych bez żadnego nadzoru.
Realizacja
W przedsiębiorstwie całkiem sensowne jest wdrożenie Data Lake w zwinny sposób.
Oznacza to, że wdrożenie usługi Data Lake MVP w pierwszej kolejności wymaga przetestowania jej przez użytkowników pod względem jakości, łatwości dostępu, pamięci masowej i możliwości analitycznych, uzyskania informacji zwrotnych, a następnie dodania złożonych wymagań i funkcji, aby zwiększyć wartość usługi Lake.
Ogólnie organizacja przechodzi przez poniższe cztery podstawowe etapy wdrażania:
(wizerunek źródło )
Scena 1:
Podstawowe jezioro danych: Na tym etapie zespół ustala podstawową architekturę, technologię (opartą na chmurze lub starszą) oraz praktyki dotyczące bezpieczeństwa i zarządzania dla jeziora danych. Jest w stanie przechowywać wszystkie surowe dane pochodzące z różnych źródeł przedsiębiorstwa i łączyć dane wewnętrzne i zewnętrzne w celu dostarczania wzbogaconych informacji.
Etap 2:
Piaskownica: ulepszenie zdolności analitycznych: Na tym etapie naukowcy zajmujący się danymi uzyskują dostęp do rezerwuaru danych, aby przeprowadzić wstępne eksperymenty w celu wykorzystania surowych danych i zaprojektowania modeli analitycznych w celu spełnienia potrzeb biznesowych.
Etap 3:
podciąg (0,0) java
Hurtownie danych i współpraca z Data Lake: Na tym etapie organizacja zaczyna wykorzystywać Data Lake w synergii z istniejącymi hurtowniami danych. Przesyłane są do nich dane o niskim priorytecie, dzięki czemu nie zostaną przekroczone limity magazynów danych.
Przedstawia perspektywę uzyskania spostrzeżeń na podstawie zimnych danych lub wysłania do nich zapytań w celu znalezienia informacji, które nie są indeksowane przez konwencjonalne bazy danych.
Etap 4:
Od początku do końca przyjęcie Data Lake: Jest to ostatni i dojrzały etap pozyskiwania, w którym staje się kluczowym elementem architektury danych organizacji i efektywnie prowadzonej operacji wyszukiwania bezpośredniego. Do tego czasu jezioro danych zastąpiłoby EDW i stało się jedynym źródłem wszystkich danych przedsiębiorstwa.
Organizacja może wykonywać następujące czynności za pośrednictwem jeziora danych:
- Twórz złożone rozwiązania do modelowania i analizy danych dla różnych potrzeb biznesowych.
- Projektuj interaktywne pulpity nawigacyjne, które konsolidują wnioski z jeziora danych oraz różnych aplikacji i źródeł danych.
- Wdrażaj zaawansowane programy analityczne lub robotyki, ponieważ obsługuje operacje obliczeniowe.
W tym momencie ma również silne środki bezpieczeństwa i zarządzania.
Dostawcy usługi Data Lake
W branży są różni dostawcy dostarczający narzędzia do jeziora danych.
(wizerunek źródło )
Jeśli spojrzymy na duże firmy:
- Przetwarzanie danych dostarcza inteligentne narzędzie do jeziora danych. BDM (Big Data Management) 10.2.2 to najnowsza dostępna wersja.
- Jest taki sprzedawca telewidz który również dostarcza narzędzie.
- Przedsiębiorstwo Talend który jest popularny ze względu na ich narzędzia ETL, udostępnia również narzędzie Data Lake.
- Następnie mamy narzędzie open source o nazwie Kylo z Teradata firma. Zespół o nazwie „Think Big” w firmie Teradata opracował to narzędzie.
- Przedsiębiorstwo Dane z beczek Inc świadczy również te usługi.
- Od Microsoft , możesz znaleźć Jezioro danych Azure dostępne w branży.
- Oprogramowanie HVR dostarcza również rozwiązania do konsolidacji jeziora danych.
- Dane o podium, firma Qlik dostarcza produkty narzędziowe, takie jak rurociągi jeziora danych, wielostrefowe jezioro danych.
- Płatek śniegu ma również produkt Data Lake.
- Zaloni to firma zajmująca się jeziorami danych, która przetwarza ogromne ilości danych za pomocą Big Data.
Tak więc wszyscy są popularnymi dostawcami usług, a także sprzedawcami takich narzędzi.
Jeśli szukasz praktyki i budowania swojej wiedzy o jeziorach danych, możesz wybrać Informatica lub Kylo. Jeśli szukasz usługi w chmurze, możesz wybrać Looker, Informatica i Talend. Ci trzej dostawcy dostarczają jeziora danych w chmurze AWS. Możesz także uzyskać 1-miesięczny bezpłatny okres próbny od Kylo.
Wniosek
W tym samouczku szczegółowo omówiliśmy koncepcję jeziora danych. Omówiliśmy podstawową ideę jeziora danych, jego architekturę, kluczowe cechy, korzyści, wraz z przykładami, przypadkami użycia itp.
Widzieliśmy również, czym różni się jezioro danych od hurtowni danych. Omówiliśmy również czołowych dostawców świadczących usługi powiązane.
Miłego czytania !!
rekomendowane lektury
- Samouczek dotyczący testowania hurtowni danych z przykładami | Przewodnik po testach ETL
- 10 najlepszych narzędzi do testowania i walidacji danych strukturalnych dla SEO
- Eksploracja danych: proces, techniki i główne problemy w analizie danych
- Data Mart Tutorial - Rodzaje, przykłady i implementacja Data Mart
- 10 najpopularniejszych narzędzi hurtowni danych i technologii testowania
- Wymiarowy model danych w hurtowni danych - samouczek z przykładami
- Ponad 10 najlepszych narzędzi do gromadzenia danych ze strategiami gromadzenia danych
- Funkcja puli danych w produkcie IBM Rational Quality Manager do zarządzania danymi testowymi