top 29 data engineer interview questions
Lista najczęściej zadawanych pytań i odpowiedzi podczas wywiadów inżynierów danych, które pomogą Ci przygotować się do nadchodzącej rozmowy kwalifikacyjnej:
Obecnie inżynieria danych jest najbardziej poszukiwaną dziedziną rozwoju oprogramowania i stała się jedną z najszybciej rozwijających się możliwości zatrudnienia na świecie. Ankieterzy chcą mieć najlepszych inżynierów danych dla swojego zespołu i dlatego zwykle przeprowadzają dokładne rozmowy kwalifikacyjne z kandydatami. Szukają pewnych umiejętności i wiedzy. Trzeba więc być odpowiednio przygotowanym, aby sprostać ich oczekiwaniom.
Czego się nauczysz:
- Obowiązki inżyniera danych
- Umiejętności inżyniera danych
- Często zadawane pytania podczas wywiadu z inżynierem danych
- Wniosek
Obowiązki inżyniera danych
Obowiązki obejmują:
- Przetwarzanie i nadzorowanie danych w firmie.
- Utrzymuj i obsługuj system źródłowy danych i obszary przemieszczania.
- Uprość czyszczenie danych wraz z późniejszym budowaniem i poprawianiem powielania danych.
- Udostępnij i wykonaj transformację danych i proces ETL.
- Wyodrębnianie i tworzenie zapytań danych ad hoc.
Umiejętności inżyniera danych
Mając kwalifikacje, potrzebujesz również pewnych umiejętności. Oba są kluczowe, gdy przygotowujesz się na stanowisko inżyniera danych. Tutaj wymieniamy 5 najważniejszych umiejętności, w przypadkowej kolejności, których będziesz potrzebować, aby odnieść sukces jako inżynier danych.
- Umiejętności w wizualizacji danych.
- Python i SQL.
- Znajomość modelowania danych zarówno dla Big Data, jak i hurtowni danych
- Matematyka
- Know-how w ETL
- Doświadczenie kosmiczne Big Data
Musisz więc popracować nad ulepszeniem tych zestawów umiejętności, zanim zaczniesz przygotowywać się do rozmowy kwalifikacyjnej. A kiedy już szlifujesz swoje umiejętności, oto kilka pytań do rozmowy kwalifikacyjnej, które możesz przygotować, aby ankieterzy zwrócili na Ciebie uwagę i również Cię zatrudnili.
Często zadawane pytania podczas wywiadu z inżynierem danych
Ogólne pytania do rozmowy kwalifikacyjnej
P 1) Dlaczego studiowałeś inżynierię danych?
Odpowiedź: To pytanie ma na celu poznanie Twojego wykształcenia, doświadczenia zawodowego i pochodzenia. To mógł być naturalny wybór, jeśli chodzi o kontynuację studiów z zakresu systemów informatycznych lub informatyki. A może pracowałeś w podobnej dziedzinie lub przechodzisz z zupełnie innego obszaru roboczego.
Jakakolwiek jest Twoja historia, nie wahaj się ani nie unikaj. Dzieląc się, zwracaj uwagę na umiejętności, których nauczyłeś się po drodze, i doskonałą pracę, którą wykonałeś.
Jednak nie zaczynaj opowiadać historii. Zacznij od swojego wykształcenia, a następnie przejdź do części, w której wiedziałeś, że chcesz zostać inżynierem danych. A następnie przejdź do tego, jak tu dotrzeć.
P # 2) Jaka jest według ciebie najtrudniejsza rzecz w byciu inżynierem danych?
Odpowiedź: Musisz szczerze odpowiedzieć na to pytanie. Nie każdy aspekt każdej pracy jest łatwy i Twój ankieter o tym wie. Celem tego pytania nie jest wskazanie twojej słabości, ale poznanie, jak radzisz sobie z rzeczami, z którymi trudno ci sobie poradzić.
Możesz powiedzieć coś w rodzaju: „Jako inżynier danych trudno mi spełnić prośbę wszystkich działów w firmie, w której większość z nich często ma sprzeczne wymagania. Dlatego często trudno mi odpowiednio je zbalansować.
Ale dało mi to cenny wgląd w funkcjonowanie działów i rolę, jaką odgrywają w ogólnej strukturze firmy ”. A to tylko jeden przykład. Możesz i powinieneś przedstawić swój punkt widzenia.
Pytanie 3) Opowiedz nam o zdarzeniu, w którym miałeś zebrać dane z różnych źródeł, ale napotkałeś nieoczekiwane problemy i jak je rozwiązałeś?
Odpowiedź: To pytanie jest dla Ciebie okazją do zademonstrowania swoich umiejętności rozwiązywania problemów i przystosowania się do nagłych zmian planu. Można by odpowiedzieć na to pytanie ogólnie lub konkretnie w kontekście inżynierii danych. Jeśli nie przeżyłeś takiego doświadczenia, możesz udzielić hipotetycznej odpowiedzi.
Oto przykładowa odpowiedź: „W mojej poprzedniej firmie franczyzowej ja i mój zespół mieliśmy zbierać dane z różnych lokalizacji i systemów. Ale jedna z franczyz zmieniła swój system bez uprzedniego powiadomienia. Spowodowało to kilka problemów związanych z gromadzeniem i przetwarzaniem danych.
Aby rozwiązać ten problem, musieliśmy najpierw wymyślić szybkie, krótkoterminowe rozwiązanie umożliwiające pobranie podstawowych danych do systemu firmy. Następnie opracowaliśmy długoterminowe rozwiązanie, aby zapobiec ponownemu wystąpieniu takich problemów ”.
P # 4) Czym różni się praca inżyniera danych od pracy architekta danych?
Odpowiedź: To pytanie ma na celu sprawdzenie, czy rozumiesz, że istnieją różnice w zespole hurtowni danych. Nie możesz pomylić się z odpowiedzią. Obowiązki obu z nich pokrywają się lub różnią w zależności od potrzeb działu utrzymania bazy danych lub firmy.
Można powiedzieć, że „zgodnie z moim doświadczeniem, różnica między rolami inżyniera danych i architekta danych jest różna w zależności od firmy. Chociaż ściśle ze sobą współpracują, istnieją różnice w ich ogólnych obowiązkach.
Za zarządzanie serwerami i budowanie architektury systemu danych firmy odpowiada architekt danych. A praca inżyniera danych polega na testowaniu i utrzymywaniu tej architektury. Oprócz tego my, inżynierowie danych, dbamy o to, by dane udostępniane analitykom były wysokiej jakości i wiarygodne ”.
Pytania do wywiadów technicznych
Pytanie 5) Jakie są cztery V w Big Data?
(wizerunek źródło )
Odpowiedź:
Cztery V Big Data to:
- Pierwsze V to Prędkość który odnosi się do tempa, w jakim Big Data jest generowany w czasie. Można to więc uznać za analizę danych.
- Drugie V to Różnorodność różnych form Big Data, czy to w obrazach, plikach dzienników, plikach multimedialnych i nagraniach głosowych.
- Trzecie V to Tom danych. Może to być liczba użytkowników, liczba tabel, rozmiar danych lub liczba rekordów.
- Czwarty V to Prawdziwość związane z niepewnością lub pewnością danych. Innymi słowy, decyduje o tym, na ile możesz być pewien dokładności danych.
Pytanie 6) Czym różnią się dane ustrukturyzowane od danych nieustrukturyzowanych?
Odpowiedź: Poniższa tabela wyjaśnia różnice:
Dane strukturalne | Dane nieustrukturyzowane | |
---|---|---|
7) | Zagregowane dane są zawarte w jednym wymiarze. | Dane są podzielone na różne tabele wymiarów. |
1) | Może być przechowywany w MS Access, Oracle, SQL Server i innych podobnych tradycyjnych systemach baz danych. | Nie można go przechowywać w tradycyjnym systemie baz danych. |
dwa) | Może być przechowywany w różnych kolumnach i wierszach. | Nie można go przechowywać w wierszach ani kolumnach. |
3) | Przykładem danych strukturalnych są transakcje aplikacyjne online. | Przykłady nieustrukturyzowanych danych to tweety, wyszukiwania w Google, polubienia na Facebooku itp. |
4) | Można go łatwo zdefiniować w modelu danych. | Nie można go zdefiniować zgodnie z modelem danych. |
5) | Ma stały rozmiar i zawartość. | Występuje w różnych rozmiarach i zawartości. |
P # 7) Jakie narzędzia ETL są Ci znane?
Odpowiedź: Nazwij wszystkie narzędzia ETL, z którymi pracowałeś. Możesz powiedzieć: „Pracowałem z SAS Data Management, IBM Infosphere i SAP Data Services. Ale moim ulubionym jest PowerCenter firmy Informatica. Jest wydajny, ma niezwykle wysoką wydajność i jest elastyczny. Krótko mówiąc, ma wszystkie ważne właściwości dobrego narzędzia ETL.
Sprawnie obsługują operacje na danych biznesowych i gwarantują dostęp do danych nawet w przypadku zmian zachodzących w biznesie lub jego strukturze ”. Upewnij się, że rozmawiasz tylko o tych, z którymi pracowałeś i tymi, z którymi lubisz pracować. Albo może później zatankować twój wywiad.
P # 8) Opowiedz nam o schematach projektowych modelowania danych.
Odpowiedź: Modelowanie danych obejmuje dwa typy schematów projektowych.
Są one wyjaśnione w następujący sposób:
- Pierwszy to Harmonogram gwiazdy , który jest podzielony na dwie części - tabelę faktów i tabelę wymiarów. Tutaj oba stoły są połączone. Schemat gwiaździsty jest najprostszym stylem schematu zbiorczej bazy danych i jest również powszechnie stosowany. Został tak nazwany, ponieważ jego struktura przypomina gwiazdę.
- Drugi to Schemat płatka śniegu co jest rozszerzeniem schematu gwiazdy. Dodaje dodatkowe wymiary i jest nazywany płatkiem śniegu, ponieważ jego struktura przypomina płatek śniegu.
P # 9) Jaka jest różnica między schematem Star a schematem Snowflake?
(wizerunek źródło )
Odpowiedź: Poniższa tabela wyjaśnia różnice:
Harmonogram Gwiazda | Schemat płatka śniegu | |
---|---|---|
1) | Tabela wymiarów zawiera hierarchie wymiarów. | Istnieją oddzielne tabele dla hierarchii. |
dwa) | Tutaj tabele wymiarów otaczają tabelę faktów. | Tabele wymiarów otaczają tabelę faktów, a następnie są dodatkowo otoczone tabelami wymiarów. |
3) | Tabela faktów i dowolna tabela wymiarów są połączone tylko jednym złączeniem. | Aby pobrać dane, potrzeba wielu złączeń. |
4) | Pochodzi z prostą konstrukcją DB. | Ma złożoną konstrukcję DB. |
5) | Działa dobrze nawet w przypadku zdenormalizowanych zapytań i struktur danych. | Działa tylko ze znormalizowaną strukturą danych. |
6) | Nadmiarowość danych - wysoka. | Nadmiarowość danych - bardzo niska. |
8) | Szybsze przetwarzanie kostek. | Złożone sprzężenie spowalnia przetwarzanie kostki. |
P # 10) Jaka jest różnica między hurtownią danych a operacyjną bazą danych?
Odpowiedź: Poniższa tabela wyjaśnia różnice:
Hurtownia danych | Operacyjna baza danych | |
---|---|---|
7) | Obsługuje kilka OLTP, takich jak klienci współbieżni. | Obsługuje wielu jednoczesnych klientów. |
1) | Są one przeznaczone do wspomagania analitycznego przetwarzania dużych ilości. | Obsługują one przetwarzanie transakcji o dużym wolumenie. |
dwa) | Dane historyczne mają wpływ na hurtownię danych. | Bieżące dane mają wpływ na operacyjną bazę danych. |
3) | Nowe, nieulotne dane są dodawane regularnie, ale rzadko są zmieniane. | Dane są regularnie aktualizowane w miarę potrzeb. |
4) | Służy do analizy miar biznesowych według atrybutów, obszarów tematycznych i kategorii. | Jest przeznaczony do przetwarzania w czasie rzeczywistym i prowadzenia transakcji biznesowych. |
5) | Zoptymalizowany pod kątem dużych obciążeń i złożonych zapytań z dostępem do wielu wierszy w każdej tabeli. | Zoptymalizowany pod kątem prostego pojedynczego zestawu transakcji, takich jak pobieranie i dodawanie jednego wiersza na raz dla każdej tabeli. |
6) | Jest pełen ważnych i spójnych informacji i nie wymaga weryfikacji w czasie rzeczywistym. | Poprawiono sprawdzanie poprawności przychodzących informacji i używanie tabel danych walidacyjnych. |
8) | Jej systemy są głównie zorientowane podmiotowo. | Jej systemy są głównie zorientowane na procesy. |
9) | Wyjście danych. | Dane w. |
10) | Można uzyskać dostęp do ogromnej liczby danych. | Dostęp do ograniczonej liczby danych. |
jedenaście) | Stworzony dla OLAP, przetwarzanie analityczne on-line. | Stworzony dla OLTP, przetwarzanie transakcji on-line. |
Q # 11) Zwróć uwagę na różnicę między OLTP i OLAP.
Odpowiedź: Poniższa tabela wyjaśnia różnice:
OLTP | OLAP | |
---|---|---|
7) | Ilość danych nie jest zbyt duża. | Zawiera dużą ilość danych. |
1) | Służy do zarządzania danymi operacyjnymi. | Służy do zarządzania danymi informacyjnymi. |
dwa) | Korzystają z niej klienci, urzędnicy i informatycy. | Używają go menedżerowie, analitycy, dyrektorzy i inni pracownicy umysłowi. |
3) | Jest zorientowany na klienta. | Jest zorientowany na rynek. |
4) | Zarządza bieżącymi danymi, które są niezwykle szczegółowe i służą do podejmowania decyzji. | Zarządza ogromną ilością danych historycznych. Zapewnia również funkcje agregacji i podsumowania, a także zarządzanie danymi i ich przechowywanie na różnych poziomach szczegółowości. Dzięki temu dane stają się wygodniejsze do wykorzystania w procesie podejmowania decyzji. |
5) | Posiada bazę danych o rozmiarze 100 MB-GB. | Posiada bazę danych o rozmiarze 100 GB-TB. |
6) | Wykorzystuje model danych ER (relacje między jednostkami) wraz z projektem bazy danych, który jest zorientowany na aplikację. | OLAP wykorzystuje model płatka śniegu lub gwiazdy wraz z projektem bazy danych, który jest zorientowany tematycznie. |
8) | Tryb dostępu - odczyt / zapis. | Tryb dostępu to głównie zapis. |
9) | Całkowicie znormalizowany. | Częściowo znormalizowane. |
10) | Jego szybkość przetwarzania jest bardzo duża. | Szybkość przetwarzania zależy od liczby zawartych w nim plików, złożonych zapytań i wsadowego odświeżania danych |
Q # 12) Wyjaśnij główną koncepcję stojącą za platformą Apache Hadoop.
Odpowiedź: Opiera się na algorytmie MapReduce. W tym algorytmie do przetwarzania ogromnego zbioru danych wykorzystywane są operacje mapowania i redukcji. Mapuj, filtruje i sortuje dane, a Reduce podsumowuje dane. Skalowalność i tolerancja błędów to kluczowe punkty tej koncepcji. Możemy osiągnąć te funkcje w Apache Hadoop, wydajnie implementując MapReduce i wielowątkowość.
P # 13) Czy kiedykolwiek pracowałeś z Hadoop Framework?
(wizerunek źródło )
Odpowiedź: Wielu menedżerów ds. Rekrutacji pyta podczas rozmowy o narzędzie Hadoop, aby wiedzieć, czy znasz narzędzia i języki używane w firmie. Jeśli pracowałeś z Hadoop Framework, powiedz im szczegóły swojego projektu, aby wydobyć światło na swoją wiedzę i umiejętności związane z narzędziem i jego możliwościami. A jeśli nigdy z nim nie pracowałeś, sprawdzą się również niektóre badania wykazujące znajomość jego atrybutów.
Możesz powiedzieć, na przykład, „Pracując nad projektem zespołowym, miałem okazję pracować z Hadoop. Skoncentrowaliśmy się na zwiększeniu wydajności przetwarzania danych, dlatego ze względu na możliwość zwiększenia szybkości przetwarzania danych bez obniżania jakości podczas ich rozproszonego przetwarzania zdecydowaliśmy się na Hadoop.
A ponieważ moja poprzednia firma spodziewała się znacznego wzrostu przetwarzania danych w ciągu najbliższych kilku miesięcy, przydała się również jego skalowalność. Hadoop jest również siecią open source opartą na Javie, dzięki czemu jest najlepszą opcją dla projektów z ograniczonymi zasobami i łatwą w użyciu bez dodatkowego szkolenia. ”
jak zrobić głęboką kopię tablicy java
P # 14) Wspomnij o kilku ważnych cechach Hadoop.
Odpowiedź: Funkcje są następujące:
- Hadoop to darmowa platforma typu open source, w której możemy zmieniać kod źródłowy zgodnie z naszymi wymaganiami.
- Obsługuje szybciej rozproszone przetwarzanie danych. HDFS Hadoop przechowuje dane w sposób rozproszony i używa MapReduce do równoległego przetwarzania danych.
- Hadoop jest wysoce tolerancyjny i domyślnie w różnych węzłach pozwala użytkownikowi stworzyć trzy repliki każdego bloku. Jeśli więc jeden z węzłów nie powiedzie się, możemy odzyskać dane z innego węzła.
- Jest również skalowalny i kompatybilny z wieloma urządzeniami.
- Ponieważ Hadoop przechowywał dane w klastrach, niezależnie od wszystkich innych operacji. Dlatego jest niezawodny. Na zapisane dane nie ma wpływu awaria maszyn. Jest więc również wysoce dostępny.
P # 15) Jak możesz zwiększyć przychody firmy, analizując Big Data?
Odpowiedź: Analiza Big Data jest istotną częścią firm, ponieważ pomaga im się odróżnić, a także zwiększa przychody. Analiza dużych zbiorów danych oferuje firmom spersonalizowane sugestie i zalecenia dzięki analizie predykcyjnej.
Pomaga również firmom we wprowadzaniu nowych produktów w oparciu o preferencje i potrzeby klientów. Pomaga to firmom zarabiać znacznie więcej, około 5-20% więcej. Firmy takie jak Bank of America, LinkedIn, Twitter, Walmart, Facebook itp. Używają analizy Big Data, aby zwiększyć swoje przychody.
P # 16) Jakie kroki należy wykonać wdrażając rozwiązanie Big Data?
Odpowiedź: Wdrażając rozwiązanie Big Data należy wykonać trzy kroki:
- Przetwarzanie danych To pierwszy krok do wdrożenia rozwiązania Big Data. Jest to ekstrakcja danych z różnych źródeł, takich jak SAP, MYSQL, Salesforce, pliki dziennika, wewnętrzna baza danych itp. Pozyskiwanie danych może odbywać się poprzez przesyłanie strumieniowe w czasie rzeczywistym lub zadania wsadowe.
- Przechowywanie danych Po pozyskaniu danych wyodrębnione dane powinny zostać gdzieś zapisane. Jest przechowywany w bazach danych HDFS lub NoSQL. HDFS działa dobrze w przypadku dostępu sekwencyjnego przez HBase do losowego odczytu lub zapisu.
- Przetwarzanie danych- To trzeci i ostatni krok wdrażania rozwiązania Big Data. Po zapisaniu dane są przetwarzane przez jedną z głównych platform, takich jak MapReduce lub Pig.
P # 17) Co to jest skaner bloków i bloków w HDFS?
Odpowiedź: Blok to minimalna ilość danych, które można zapisać lub odczytać w HDFS. 64 MB to domyślny rozmiar bloku.
Skaner bloków to program, który okresowo śledzi liczbę bloków w DataNode wraz z weryfikacją ich pod kątem ewentualnych błędów sum kontrolnych i uszkodzeń danych.
P # 18) Jakie wyzwania napotkaliście podczas wprowadzania nowych aplikacji do analizy danych, jeśli kiedykolwiek je wprowadziliście?
Odpowiedź: Jeśli nigdy nie wprowadziłeś nowej analizy danych, możesz to po prostu powiedzieć. Ponieważ są dość drogie, a więc firmy rzadko to robią. Ale jeśli firma zdecyduje się w nią zainwestować, może to być niezwykle ambitny projekt. Instalacja, podłączanie, używanie i konserwacja tych narzędzi wymagałaby wysoko wykwalifikowanych pracowników.
Jeśli więc kiedykolwiek przeszedłeś przez ten proces, powiedz im, jakie przeszkody napotkałeś i jak je pokonałeś. Jeśli nie, powiedz im szczegółowo, co wiesz o tym procesie. To pytanie określa, czy masz podstawową wiedzę, aby poradzić sobie z problemami, które mogą pojawić się podczas wprowadzania nowych aplikacji do analizy danych.
Przykładowa odpowiedź; „Brałem udział w wprowadzaniu nowej analizy danych w mojej poprzedniej firmie. Cały proces jest skomplikowany i wymaga dobrze zaplanowanego procesu w celu zapewnienia możliwie płynnego przejścia.
Jednak nawet przy doskonałym planowaniu nie zawsze możemy uniknąć nieprzewidzianych okoliczności i problemów. Jedną z takich kwestii był niesamowicie wysoki popyt na licencje użytkowników. Wykroczyło poza to, czego się spodziewaliśmy. Aby uzyskać dodatkowe licencje, firma musiała realokować środki finansowe.
Ponadto szkolenie musiało być zaplanowane w taki sposób, aby nie utrudniało przepływu pracy. Musieliśmy również zoptymalizować infrastrukturę, aby obsługiwać dużą liczbę użytkowników ”.
P # 19) Co się stanie, jeśli NameNode ulegnie awarii w klastrze HDFS?
Odpowiedź: Klaster HDFS ma tylko jeden NameNode i utrzymuje metadane DataNode. Posiadanie tylko jednego NameNode zapewnia klastrom HDFS pojedynczy punkt awarii.
Tak więc, jeśli NameNode ulegnie awarii, systemy mogą stać się niedostępne. Aby temu zapobiec, możemy określić pomocniczy NameNode, który przyjmuje okresowe punkty kontrolne w systemach plików HDFS, ale nie jest kopią zapasową NameNode. Ale możemy go użyć do odtworzenia NameNode i ponownego uruchomienia.
Q # 20) Różnica między NAS i DAS w klastrze Hadoop.
Odpowiedź: W NAS warstwy pamięci masowej i obliczeniowej są oddzielne, a następnie pamięć jest rozdzielana między różne serwery w sieci. W DAS magazyn jest zwykle dołączony do węzła obliczeniowego. Apache Hadoop działa na zasadzie przetwarzania w pobliżu określonej lokalizacji danych.
W związku z tym dysk pamięci powinien być lokalny dla obliczeń. DAS pomaga uzyskać wydajność w klastrze Hadoop i może być używany na zwykłym sprzęcie. Krótko mówiąc, jest to bardziej opłacalne. Preferowana jest pamięć masowa NAS o dużej przepustowości około 10 GbE.
Pytanie 21) Czy budowanie bazy danych NoSQL jest lepsze niż budowanie relacyjnej bazy danych?
(wizerunek źródło )
Odpowiedź: W odpowiedzi na to pytanie musisz wykazać się wiedzą na temat obu baz danych. Musisz również poprzeć to przykładem sytuacji pokazującym, w jaki sposób zastosujesz lub zastosowałeś know-how w prawdziwym projekcie.
Twoja odpowiedź może brzmieć mniej więcej tak: „W niektórych sytuacjach warto zbudować bazę danych NoSQL. W mojej ostatniej firmie, kiedy system franczyzowy gwałtownie się rozrastał, musieliśmy szybko zwiększać skalę, aby jak najlepiej wykorzystać wszystkie posiadane dane operacyjne i sprzedażowe.
Skalowanie w poziomie jest lepsze niż skalowanie w górę w przypadku większych serwerów w przypadku zwiększonego obciążenia związanego z przetwarzaniem danych. Jest to opłacalne i łatwiejsze do wykonania dzięki bazom danych NoSQL, ponieważ może z łatwością radzić sobie z ogromnymi ilościami danych. Jest to przydatne, gdy trzeba szybko reagować na znaczne zmiany obciążenia danymi w przyszłości.
Chociaż relacyjne bazy danych zapewniają lepszą łączność z dowolnymi narzędziami analitycznymi. Ale bazy danych NoSQL mają wiele do zaoferowania ”.
P # 22) Co robisz, gdy napotkasz nieoczekiwany problem z utrzymaniem danych? Czy wypróbowałeś jakieś nieszablonowe rozwiązania?
Odpowiedź: W sposób nieunikniony, od czasu do czasu pojawiają się nieoczekiwane problemy w każdym rutynowym zadaniu, nawet podczas obsługi danych. To pytanie ma na celu sprawdzenie, czy potrafisz radzić sobie w sytuacjach wysokiego napięcia i jak.
Możesz powiedzieć coś w stylu „utrzymanie danych może być rutynowym zadaniem, ale ważne jest, aby uważnie obserwować określone zadania, w tym upewnić się, że skrypty są pomyślnie wykonywane.
Pewnego razu podczas sprawdzania integralności natknąłem się na uszkodzony indeks, który mógł spowodować poważne problemy w przyszłości. Dlatego wymyśliłem nowe zadanie konserwacji, aby zapobiec dodawaniu uszkodzonych indeksów do bazy danych firmy ”.
P # 23) Czy kiedykolwiek szkoliłeś kogoś w swojej dziedzinie? Jeśli tak, co było dla Ciebie największym wyzwaniem?
Odpowiedź: Zazwyczaj inżynierowie danych są potrzebni, aby przeszkolić swoich współpracowników w zakresie nowych systemów lub procesów, które utworzyłeś, lub przeszkolić nowych pracowników w zakresie już istniejących systemów i architektury. Tak więc, zadając to pytanie, Twój ankieter chce wiedzieć, czy sobie z tym poradzisz. Jeśli nie miałeś okazji sam kogoś wyszkolić, porozmawiaj o wyzwaniach, przed którymi stanął ktoś, kto trenował lub znasz.
Próbka idealnej odpowiedzi będzie wyglądać mniej więcej tak. „Tak, miałem okazję przeszkolić małe i duże grupy współpracowników. Szkolenie nowych pracowników z dużym doświadczeniem w innej firmie to najtrudniejsze zadanie, z jakim się spotkałem. Często są tak przyzwyczajeni do podchodzenia do danych z innej perspektywy, że mają trudności z zaakceptowaniem sposobu, w jaki robimy rzeczy.
Często są bardzo uparty i myślą, że wiedzą wszystko dobrze, dlatego dużo czasu zajmuje im uświadomienie sobie, że problem może mieć więcej niż jedno rozwiązanie. Staram się zachęcić ich do otwarcia umysłów i zaakceptowania alternatywnych możliwości, podkreślając skuteczność naszej architektury i procesów ”.
P # 24) Jakie są zalety i wady pracy w chmurze?
(wizerunek źródło )
Odpowiedź:
Plusy:
- Brak kosztów infrastruktury.
- Minimalne zarządzanie.
- Bez kłopotów z zarządzaniem i administracją.
- Łatwy dostęp.
- Płać za to, czego używasz.
- Jest niezawodny.
- Oferuje kontrolę danych, tworzenie kopii zapasowych i odzyskiwanie.
- Ogromne miejsce do przechowywania.
Cons:
- Potrzebuje dobrego połączenia internetowego o równie dobrej przepustowości, aby dobrze funkcjonować.
- Ma swoje przestoje.
- Twoja kontrola nad infrastrukturą będzie ograniczona.
- Jest niewielka elastyczność.
- Ma pewne bieżące koszty.
- Mogą wystąpić problemy z bezpieczeństwem i problemy techniczne.
Q # 25) Praca inżynierów danych jest zwykle „za kulisami”. Czy czujesz się komfortowo, pracując z dala od „reflektora”?
Odpowiedź: Twój menedżer ds. Rekrutacji chce wiedzieć, czy lubisz światło reflektorów, czy też potrafisz dobrze pracować w obu sytuacjach. Twoja odpowiedź powinna im powiedzieć, że chociaż lubisz światło reflektorów, dobrze czujesz się również podczas pracy w tle.
„Liczy się dla mnie to, że powinienem być ekspertem w swojej dziedzinie i przyczyniać się do rozwoju mojej firmy. Jeśli muszę pracować w świetle reflektorów, to też czuję się komfortowo. Jeśli jest jakaś kwestia, którą menedżerowie muszą się zająć, nie zawaham się przed podniesieniem swojego głosu i zwróceniem ich uwagi ”.
P # 26) Co się dzieje, gdy skaner bloków wykryje uszkodzony blok danych?
Odpowiedź: Przede wszystkim DataNode raportuje do NameNode. Następnie NameNode rozpoczyna tworzenie nowej repliki poprzez replikę uszkodzonego bloku. Uszkodzony blok danych nie zostanie usunięty, jeśli liczba replikacji odpowiednich replik jest zgodna ze współczynnikiem replikacji.
P # 27) Czy kiedykolwiek znalazłeś nowe, innowacyjne zastosowanie dla już istniejących danych? Czy wpłynęło to pozytywnie na firmę?
Odpowiedź: To pytanie ma na celu sprawdzenie, czy jesteś zmotywowany i chętny do przyczynienia się do sukcesu projektów. Jeśli to możliwe, odpowiedz na pytanie, podając przykład, w którym kierowałeś projektem lub wpadłeś na pomysł. A jeśli kiedykolwiek przedstawiłeś nowatorskie rozwiązanie problemu, nie przegap tego.
Przykładowa odpowiedź: „W mojej ostatniej pracy brałem udział w ustalaniu, dlaczego mamy dużą rotację pracowników. Uważnie obserwowałem dane z różnych działów, w których znalazłem wysoce skorelowane dane w kluczowych obszarach, takich jak finanse, marketing, operacje itp. Oraz wskaźnik rotacji pracowników.
Współpracował z analitykami działu w celu lepszego zrozumienia tych korelacji. Z naszym zrozumieniem dokonaliśmy kilku strategicznych zmian, które pozytywnie wpłynęły na wskaźnik rotacji pracowników ”.
P # 28) Jakie umiejętności nietechniczne są Twoim zdaniem najbardziej przydatne jako inżynier danych?
Odpowiedź: Staraj się unikać najbardziej oczywistych odpowiedzi, takich jak umiejętności komunikowania się lub interpersonalne. Można powiedzieć: „ustalanie priorytetów i wielozadaniowość często przydały się w mojej pracy. Dostajemy różne zadania w ciągu dnia, ponieważ współpracujemy z różnymi działami. Dlatego też konieczne staje się nadanie im priorytetów. Ułatwia nam to pracę i pomaga skutecznie je wszystkie zakończyć ”.
P # 29) Jakie są typowe problemy, z którymi musiałeś się zmierzyć jako inżynier danych?
Odpowiedź: są to:
- Ciągła integracja w czasie rzeczywistym.
- Przechowywanie ogromnych ilości danych i informacji z tych danych.
- Ograniczenia zasobów.
- Zastanawianie się, jakich narzędzi użyć i które mogą przynieść najlepsze rezultaty.
Wniosek
Inżynieria danych może wydawać się rutynową nudną pracą, ale ma wiele interesujących aspektów. Wynika to jasno z możliwych pytań, jakie mogą zadać ankieterzy. Powinniście być gotowi odpowiedzieć nie tylko na techniczne pytania książkowe, ale także na pytania sytuacyjne, takie jak te wymienione powyżej. Tylko wtedy będziesz w stanie udowodnić, że dobrze wykonujesz swoją pracę i na to zasługujesz.
Wszystkiego najlepszego!!
rekomendowane lektury
- Pytania i odpowiedzi do wywiadu
- ETL Pytania i odpowiedzi podczas rozmowy kwalifikacyjnej testującej
- 32 najlepsze pytania i odpowiedzi do wywiadów z danymi
- Najpopularniejsze pytania i odpowiedzi do wywiadów JSON
- Najważniejsze pytania i odpowiedzi do wywiadów Teradata
- 24 najpopularniejsze pytania do wywiadów z modelowaniem danych ze szczegółowymi odpowiedziami
- Top 50+ baz danych pytań i odpowiedzi do wywiadów
- 30 najpopularniejszych pytań i odpowiedzi do wywiadów SAS