complete guide big data analytics
To jest obszerny przewodnik po Big Data Analytics z jego przypadkami użycia, architekturą, przykładami i porównaniami z Big Data i Data Science:
Analityka Big Data zyskała popularność, ponieważ korporacje takie jak Facebook, Google i Amazon stworzyły własne nowe paradygmaty rozproszonego przetwarzania danych i analiz, aby zrozumieć skłonności swoich klientów do wydobywania wartości z dużych zbiorów danych.
W tym samouczku wyjaśniamy analizę dużych zbiorów danych i porównujemy ją z Big Data i Data Science. Omówimy niezbędne atrybuty, które firmy muszą posiadać w swojej strategii dotyczącej dużych zbiorów danych, oraz sprawdzoną metodologię. Wspomnimy również o najnowszych trendach i niektórych przypadkach użycia analityki danych.
Jak pokazano na poniższym obrazku, Analytics wymaga wykorzystania umiejętności informatycznych, umiejętności biznesowych i nauki o danych. Analiza dużych zbiorów danych jest w centrum wykorzystywania wartości z dużych zbiorów danych i pomaga uzyskać informacje dotyczące materiałów eksploatacyjnych dla organizacji.
(wizerunek źródło )
Czego się nauczysz:
- Co to jest analiza dużych zbiorów danych
- Wniosek
Co to jest analiza dużych zbiorów danych
Big Data Analytics zajmuje się wykorzystaniem zbioru technik statystycznych, narzędzi i procedur analitycznych do Big Data.
Zalecana Czytanie => Wprowadzenie do Big Data
To właśnie analityka pomaga w wydobywaniu cennych wzorców i znaczących spostrzeżeń z dużych zbiorów danych w celu wspierania podejmowania decyzji opartych na danych. To z powodu pojawienia się nowych źródeł danych, takich jak media społecznościowe i dane IoT, popularne stały się duże zbiory danych i analizy.
Tendencja ta prowadzi do powstania obszaru praktyki i badań zwanego „nauką o danych”, który obejmuje techniki, narzędzia, technologie i procesy eksploracji danych, czyszczenia, modelowania i wizualizacji.
Big Data kontra Big Data Analytics kontra nauka o danych
DO porównanie między dużymi zbiorami danych, nauką o danych i analizą dużych zbiorów danych można zrozumieć z poniższej tabeli.
Podstawa | Big Data | Data Science | Analiza dużych zbiorów danych |
---|---|---|---|
Narzędzia i technologie | Ekosystem Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Role i umiejętności zawodowe | Utrzymanie infrastruktury pamięci masowej, przetwarzanie danych oraz wiedza na temat Hadoop i jej integracja z innymi narzędziami. | Transformacja danych, inżynieria danych, zarządzanie danymi, modelowanie danych i wizualizacja | BI i zaawansowana analityka, statystyka, modelowanie danych i uczenie maszynowe, umiejętności matematyczne, komunikacja, doradztwo. |
Oznaczenia | Architekt Big Data Programista Big Data Inżynier Big Data | Data Scientist Inżynier uczenia maszynowego | Analityk Big Data Analityk Biznesowy Inżynier Business Intelligence Specjalista ds. Analityki biznesowej Programista wizualizacji danych Menedżer ds. Analiz |
Około. Średnia roczna pensja w USD | 100 000 | 90 000 | 70 000 |
Sugerowana lektura = >> Nauka o danych kontra informatyka
Co powinna mieć każda strategia analizy Big Data
Dobrze zdefiniowana, zintegrowana i kompleksowa strategia przyczynia się do podejmowania cennych decyzji opartych na danych w organizacji i wspiera je. W tej sekcji wymieniliśmy najbardziej krytyczne kroki, które należy wziąć pod uwagę podczas definiowania strategii analizy dużych zbiorów danych.
Krok 1: Ocena
Ocena, już dostosowana do celów biznesowych, wymaga zaangażowania kluczowych interesariuszy, stworzenia zespołu członków z odpowiednim zestawem umiejętności, oceny zasad, ludzi, procesów oraz zasobów technologicznych i danych. W razie potrzeby można w ten proces zaangażować klientów ocenianych.
Krok 2: Priorytetyzacja
Po dokonaniu oceny należy wyprowadzić przypadki użycia, nadać im priorytety za pomocą analiz predykcyjnych big data, analiz preskryptywnych i analiz poznawczych. Możesz również użyć narzędzia, takiego jak matryca priorytetów, i dalej filtrować przypadki użycia, korzystając z informacji zwrotnych i informacji od kluczowych interesariuszy.
Krok 3: Mapa drogowa
Na tym etapie wymagane jest utworzenie harmonogramu czasowego i opublikowanie go dla wszystkich. Mapa drogowa musi zawierać wszystkie szczegóły dotyczące złożoności, funduszy, nieodłącznych korzyści z przypadków użycia i mapowanych projektów.
Krok 4: Zarządzanie zmianami
Wdrożenie zarządzania zmianami wymaga zarządzania dostępnością, integralnością, bezpieczeństwem i użytecznością danych. Skuteczny program zarządzania zmianą, wykorzystujący istniejący system zarządzania danymi, zachęca do działań i członków w oparciu o ciągłe monitorowanie.
Krok 5: Odpowiedni zestaw umiejętności
Określenie odpowiedniego zestawu umiejętności ma kluczowe znaczenie dla sukcesu organizacji w świetle aktualnych trendów w branży. Dlatego należy podążać za właściwymi liderami i wprowadzać programy edukacyjne, aby kształcić krytycznych interesariuszy.
Krok 6: Niezawodność, skalowalność i bezpieczeństwo
Właściwe podejście i skuteczna strategia analizy dużych zbiorów danych sprawiają, że proces analizy jest niezawodny dzięki efektywnemu wykorzystaniu możliwych do interpretacji modeli obejmujących zasady nauki o danych. Strategia analizy dużych zbiorów danych musi również od samego początku uwzględniać aspekty bezpieczeństwa, aby zapewnić solidny i ściśle zintegrowany potok analityczny.
Potok danych i proces do analizy danych
Planując potok analizy danych, należy wziąć pod uwagę trzy podstawowe aspekty. Są to następujące:
- Wejście: Format danych i wybór technologii do przetworzenia, opiera się na naturze danych, tj. czy dane są szeregami czasowymi i jakością.
- Wynik: Wybór złączy , raporty i wizualizacje zależą od wiedzy technicznej użytkowników końcowych i ich wymagań dotyczących zużycia danych.
- Tom: Rozwiązania skalujące są planowane na podstawie ilości danych, aby uniknąć przeciążenia systemu przetwarzania dużych zbiorów danych.
Omówmy teraz typowy proces i etapy potoku analizy dużych zbiorów danych.
Etap 1: Przetwarzanie danych
Przetwarzanie danych to pierwszy i najważniejszy krok w potoku danych. Uwzględnia trzy aspekty danych.
- Źródło danych - Jest to istotne z punktu widzenia wyboru architektury potoku big data.
- Struktura danych - Serializacja jest kluczem do utrzymania jednorodnej struktury w całym potoku.
- Czystość danych - Analityka jest równie dobra jak dane bez problemów, takich jak brakujące wartości i wartości odstające itp.
Etap 2: ETL / Magazynowanie
Kolejnym ważnym modułem są narzędzia do przechowywania danych do wykonywania ETL (Extract Transform Load). Przechowywanie danych w odpowiednim centrum danych zależy od:
- Sprzęt komputerowy
- Doświadczenie w zarządzaniu
- Budżet
(wizerunek źródło )
Niektóre sprawdzone narzędzia ETL / Warehousing w centrach danych to:
- Apache Hadoop
- Apache Hive
- Parkiet Apache
- Silnik zapytań Presto
Firmy działające w chmurze, takie jak Google, AWS, Microsoft Azure, udostępniają te narzędzia na zasadzie płatności jednostkowej i oszczędzają początkowe wydatki kapitałowe.
Etap 3: Analiza i wizualizacja
Biorąc pod uwagę ograniczenia Hadoop w zakresie szybkich zapytań, należy używać platform analitycznych i narzędzi, które pozwalają na szybkie i ad-hoc zapytania z wymaganą wizualizacją wyników.
>> Zalecana lektura: Narzędzia Big Data
Etap 4: Monitorowanie
Po skonfigurowaniu infrastruktury do pozyskiwania, przechowywania i analiz za pomocą narzędzi do wizualizacji, następnym krokiem jest posiadanie narzędzi informatycznych i monitorowania danych do monitorowania. Obejmują one:
- Wykorzystanie procesora lub karty graficznej
- Zużycie pamięci i zasobów
- Sieci
Niektóre narzędzia warte rozważenia to:
- Datadog
- Grafana
Narzędzia do monitorowania są niezbędne w potoku analizy dużych zbiorów danych i pomagają monitorować jakość i integralność potoku.
Architektura Big Data Analytics
Poniższy diagram architektury pokazuje, w jaki sposób nowoczesne technologie wykorzystują zarówno nieustrukturyzowane, jak i ustrukturyzowane źródła danych do przetwarzania Hadoop i Map-redukuj, systemów analitycznych w pamięci i analizy w czasie rzeczywistym, aby uzyskać połączone wyniki operacji w czasie rzeczywistym i podejmowania decyzji.
(wizerunek źródło )
Aktualne trendy w analizie danych
W tej sekcji wymieniliśmy podstawowe aspekty, na które należy zwrócić uwagę przy wdrażaniu lub śledzeniu trendów analizy dużych zbiorów danych w branży.
1) Źródła Big Data
Istnieją przede wszystkim trzy źródła Big Data. Są one wymienione poniżej:
- Dane społecznościowe: Dane wygenerowane w wyniku korzystania z mediów społecznościowych. Te dane pomagają w zrozumieniu uczucia i zachowanie klientów i może być przydatna w analityce marketingowej.
- Dane maszyny: Dane te są pobierane z urządzeń przemysłowych i aplikacji wykorzystujących czujniki IoT. Pomaga w zrozumieniu narody zachowanie i zapewnia wgląd w procesy .
- Dane transakcyjne: Jest generowany w wyniku działań użytkowników zarówno offline, jak i online, dotyczących zleceń płatniczych, faktur, pokwitowań itp. Większość tego rodzaju danych wymaga wstępne przetwarzanie i czyszczenie zanim będzie można go użyć do analizy.
# 2) Przechowywanie danych SQL / NoSQL
W porównaniu z tradycyjnymi bazami danych lub RDBMS, bazy danych NoSQL okazują się lepsze do zadań wymaganych do analizy dużych zbiorów danych.
Bazy danych NoSQL z natury radzą sobie całkiem dobrze z danymi nieustrukturyzowanymi i nie są ograniczone do kosztownych modyfikacji schematów, skalowania pionowego i zakłóceń właściwości ACID.
# 3) Analiza predykcyjna
Predictive Analytics oferuje spersonalizowane spostrzeżenia, które prowadzą organizacje do generowania nowych odpowiedzi klientów lub zakupów i możliwości sprzedaży krzyżowej. Organizacje używają analiz predykcyjnych do prognozowania poszczególnych elementów na szczegółowym poziomie, aby przewidywać przyszłe wyniki i zapobiegać potencjalnym problemom. Jest to dodatkowo łączone z danymi historycznymi i przekształcane w analizy nakazowe.
Niektóre obszary, w których z powodzeniem zastosowano analizy predykcyjne Big Data, to biznes, ochrona dzieci, systemy wspomagania decyzji klinicznych, prognozowanie portfela, prognozy na poziomie ekonomicznym i ubezpieczenie.
# 4) Uczenie głębokie
W przypadku konwencjonalnego przetwarzania danych duże zbiory danych są przytłaczające. Okazuje się, że tradycyjne techniki uczenia maszynowego do analizy danych spłaszczają się pod względem wydajności wraz ze wzrostem różnorodności i ilości danych.
Analytics napotyka wyzwania związane ze zmianami formatu, wysoce rozproszonymi źródłami wejściowymi, niezrównoważonymi danymi wejściowymi i szybko zmieniającymi się danymi strumieniowymi, a algorytmy głębokiego uczenia dość skutecznie radzą sobie z takimi wyzwaniami.
Głębokie uczenie znalazło swoje efektywne zastosowanie w indeksowaniu semantycznym, wykonywaniu zadań rozróżniających, znakowaniu obrazów semantycznych i wideo, kierowaniu społecznym, a także w hierarchicznych, wielopoziomowych podejściach do uczenia się w obszarach rozpoznawania obiektów, znakowania danych, wyszukiwania informacji i języka naturalnego przetwarzanie.
# 5) Jeziora danych
Przechowywanie różnych zestawów danych w różnych systemach i łączenie ich do celów analitycznych z tradycyjnymi podejściami do zarządzania danymi okazuje się kosztowne i prawie niewykonalne. Dlatego organizacje tworzą jeziora danych, które przechowują dane w ich surowym, natywnym formacie do celów analitycznych.
Poniższy obraz przedstawia przykładowe jezioro danych w architekturze Big Data.
(wizerunek źródło )
Zastosowania analizy dużych zbiorów danych
Poniżej wymieniliśmy kilka typowych przypadków użycia:
1) Analiza klientów
Analiza Big Data jest przydatna do różnych celów, takich jak mikro-marketing, marketing jeden do jednego, dokładniejsza segmentacja i masowe dostosowywanie dla klientów firmy. Firmy mogą tworzyć strategie personalizacji swoich produktów i usług w zależności od skłonności klientów do sprzedaży dodatkowej lub krzyżowej podobnej lub innej gamy produktów i usług.
# 2) Analiza operacji
Analiza operacji pomaga w poprawianiu ogólnego procesu podejmowania decyzji i wyników biznesowych poprzez wykorzystanie istniejących danych i wzbogacanie ich o dane maszyny i IoT.
Na przykład, Analityka big data w opiece zdrowotnej umożliwiła zmierzenie się z wyzwaniami i nowymi możliwościami związanymi z optymalizacją wydatków na opiekę zdrowotną, poprawą monitorowania badań klinicznych, prognozowaniem i planowaniem reakcji na epidemie chorób, takie jak COVID-19.
# 3) Zapobieganie oszustwom
Analityka Big Data może przynieść ogromne korzyści, pomagając przewidywać i ograniczać próby oszustw, głównie w sektorach finansowym i ubezpieczeniowym.
Na przykład, Firmy ubezpieczeniowe rejestrują w czasie rzeczywistym dane demograficzne, zarobki, roszczenia medyczne, wydatki na adwokata, pogodę, nagrania głosowe klienta i notatki z centrum telefonicznego. Konkretne szczegóły w czasie rzeczywistym pomagają w opracowywaniu modeli predykcyjnych poprzez połączenie informacji wymienionych powyżej z danymi historycznymi w celu wczesnej identyfikacji spekulowanych oszukańczych roszczeń.
# 4) Optymalizacja cen
Firmy wykorzystują analitykę dużych zbiorów danych, aby zwiększyć marże zysku poprzez znalezienie najlepszej ceny na poziomie produktu, a nie na poziomie kategorii. Duże firmy uważają, że uzyskanie szczegółowych informacji i złożoności zmiennych cenowych, które zmieniają się regularnie dla tysięcy produktów, jest zbyt przytłaczające.
Oparta na analityce strategia optymalizacji cen, taka jak dynamiczna punktacja transakcji, umożliwia firmom ustalanie cen dla klastrów produktów i segmentów w oparciu o ich dane i wgląd w poszczególne poziomy transakcji, aby uzyskać szybkie wygrane od wymagających klientów.
Często Zadawane Pytania
Pytanie 1) Czy analityka dużych zbiorów danych to dobra kariera?
Odpowiedź: Jest to wartość dodana dla każdej organizacji, pozwalająca na podejmowanie świadomych decyzji i zapewniająca przewagę nad konkurencją. Zmiana kariery w Big Data zwiększa Twoje szanse na zostanie kluczowym decydentem w organizacji.
P # 2) Dlaczego analiza dużych zbiorów danych jest ważna?
Odpowiedź: Pomaga organizacjom w tworzeniu nowych możliwości rozwoju i zupełnie nowych kategorii produktów, które mogą łączyć i analizować dane branżowe. Firmy te dysponują obszernymi informacjami o produktach i usługach, nabywcach i dostawcach, preferencjach konsumentów, które można rejestrować i analizować.
Pytanie 3) Co jest wymagane do analizy dużych zbiorów danych?
Odpowiedź: Zakres technologii, z którymi dobry analityk Big Data musi się zapoznać, jest ogromny. Aby opanować analitykę Big Data, trzeba znać różne narzędzia, oprogramowanie, sprzęt i platformy. Na przykład, Arkusze kalkulacyjne, zapytania SQL i R / R Studio i Python to niektóre podstawowe narzędzia.
Na poziomie przedsiębiorstwa oprócz systemów Linux, Hadoop, Java, Scala, Python, Spark, Hadoop i HIVE, ważne są narzędzia takie jak MATLAB, SPSS, SAS i Congnos.
Pytania obiektywne:
Q # 4) Która z poniższych baz danych nie jest bazą danych NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Odpowiedź: PostgreSQL
Pytanie 5) Czy Cassandra jest NoSQL?
- Prawdziwe
- Fałszywy
Odpowiedź: Prawdziwe
P # 6) Które z poniższych nie jest własnością Hadoop?
algorytm pierwszego przeszukiwania szerokości c ++
- Otwarte źródło
- Oparty na Javie
- Przetwarzanie rozproszone
- Czas rzeczywisty
Odpowiedź: Czas rzeczywisty
P # 7) Wybierz wszystkie czynności, które NIE są wykonywane przez naukowca danych.
- Twórz modele uczenia maszynowego i popraw ich wydajność.
- Ocena modeli statystycznych w celu walidacji analiz
- Podsumuj zaawansowane analizy za pomocą narzędzi do wizualizacji danych
- Prezentacja wyników analizy technicznej zespołom wewnętrznym i klientom biznesowym
Odpowiedź: Prezentacja wyników analizy technicznej zespołom wewnętrznym i klientom biznesowym
Dalsza lektura = >> Kluczowe różnice między Data Analyst i Data Scientist
P # 8) Jakie czynności wykonuje analityk danych?
- Oczyść i uporządkuj surowe dane
- Znajdowanie interesujących trendów w danych
- twórz dashboardy i wizualizacje do łatwej interpretacji
- Wszystkie powyższe
Odpowiedź: Wszystkie powyższe
P # 9) Która z poniższych czynności jest wykonywana przez inżyniera danych?
- Integracja nowych źródeł danych z istniejącym potokiem analizy danych
- Rozwój interfejsów API do wykorzystania danych
- monitorowanie i testowanie systemu pod kątem ciągłości działania
- Wszystkie powyższe
Odpowiedź: Wszystkie powyższe
Pytanie 10) Prawidłowa kolejność przepływu danych do celów analitycznych to
- Źródła danych, przygotowanie danych, transformacja danych, projektowanie algorytmów, analiza danych
- Źródła danych, transformacja danych, projektowanie algorytmów, przygotowanie danych, analiza danych
- Źródła danych, projektowanie algorytmów, przygotowanie danych, transformacja danych, analiza danych
- Źródła danych, przygotowanie danych, projektowanie algorytmów, transformacja danych, analiza danych
Odpowiedź: Źródła danych, przygotowanie danych, transformacja danych, projektowanie algorytmów, analiza danych
P # 11) Analiza danych jest procesem liniowym.
- Prawdziwe
- Fałszywy
Odpowiedź: Fałszywy
P # 12) Analiza eksploracyjna NIE jest
- Odpowiedź szczegółowe pytania dotyczące wstępnej analizy danych
- Określ problemy ze zbiorem danych
- Opracuj szkic odpowiedzi na pytanie
- Sprawdź, czy dane są prawidłowe, aby odpowiedzieć na pytanie
Odpowiedź: Odpowiedźszczegółowe pytania dotyczące wstępnej analizy danych
P # 13) Pytanie przewidywane to inna nazwa nadana pytaniu wnioskowemu.
- Prawdziwe
- Fałszywy
Odpowiedź: Fałszywy
Wniosek
Omówiliśmy najważniejsze aspekty analityki Big Data. Wyjaśniliśmy najbardziej rozpowszechnione przypadki użycia i trendy w branży analizy dużych zbiorów danych, aby uzyskać maksymalne korzyści.
rekomendowane lektury
- 7 najlepszych firm zajmujących się analizą danych w 2021 r. (Zaktualizowana lista w 2021 r.)
- 15 najlepszych narzędzi Big Data (Big Data Analytics Tools) w 2021 roku
- 10 najlepszych narzędzi do analizy danych dla idealnego zarządzania danymi (LISTA 2021)
- 10 najlepszych narzędzi do nauki o danych w 2021 r., Aby wyeliminować programowanie
- Samouczek dotyczący Big Data dla początkujących | Co to jest Big Data?
- Top 13 najlepszych firm Big Data 2021 roku
- 10 najlepszych narzędzi do modelowania danych do zarządzania złożonymi projektami
- Ponad 10 najlepszych narzędzi do zarządzania danymi, które zaspokoją Twoje potrzeby w zakresie danych w 2021 roku