Rozwiązanie Data Lake w chmurze

Robert Half

Adanto demokratyzuje dane dzięki rozwiązaniu Data Lake w chmurze


Adanto zapewnia łatwy dostęp do surowych danych dla wielu działów światowego lidera w branży doradztwa i profesjonalnych usług personalnych z Doliny Krzemowej oraz pomaga zinstytucjonalizować opartą na danych kulturę cyfrową w całym przedsiębiorstwie.

Opis

Data Lake to platforma zarządzania danymi obejmująca całe przedsiębiorstwo, która przechowuje różne źródła danych w ich natywnym formacie, dopóki klient nie prześle ich do analizy. Dlatego zamiast umieszczać dane w specjalnie zbudowanym magazynie danych, dane są przenoszone do Data Lake w ich oryginalnym formacie.

Poprzez konsolidację danych eliminuje się silosy informacyjne, co zwiększa wykorzystanie i udostępnianie informacji. Obniża to również koszty poprzez redukcję serwerów i licencji, tanią skalowalność, elastyczność w obsłudze z nowymi systemami oraz możliwość przechowywania danych do czasu, aż odbiorca danych – programista lub użytkownik biznesowy – będzie gotowy do ich użycia.

Wyzwania:

  • Słaba elastyczność i dostępność do analizy danych,
  • Silosy danych i informacji,
  • Brak wykorzystania i udostępniania informacji w celu podejmowania decyzji biznesowych,
  • Rosnący koszt proliferacji wielu serwerów i licencji, złożoność IT,
  • Bardzo kosztowna skalowalność, brak elastyczności w stosowaniu z nowymi systemami,

Usługi wykonane

Data Science

Analiza danych i analiza biznesowa

Data Warehousing

Big Data

Nauczanie maszynowe

Sztuczna inteligencja

DevOps

Security (Bezpieczeństwo)

Usługi infrastrukturalne

Salesforce

Amazon Cloud

Azure Cloud

Kluczowe cele

  • Pojedyncze miejsce przechowywania dla wszystkich nieprzetworzonych danych dostępne do analizy dla każdego z działu,
  • Zestaw procesów dla zwiększającego się obciążenia ,

Procedury zarządzania danymi

Stworzenie linii tematycznej, wydziałowej, biznesowej – centralne Data Marty,

Tworzenie aplikacji analitycznych dla różnych potrzeb biznesowych,

Rozwiązanie

Data Lake to elementy infrastruktury wspierające systemy innowacji. Systemy innowacji mają na celu tworzenie nowych modeli biznesowych, produktów lub usług z zamysłem fail-fast - szybkiego odrzucania pomysłów. Jednak udana innowacja oznacza dokonywanie inwestycji na dużą skalę. To właśnie ten ostatni punkt, dotyczący skalowania innowacji, wymaga przemyślanego podejścia do projektowania Data Lake i zintegrowania go z istniejącą infrastrukturą, aby przejść od eksperymentów do rzetelnych informacji

  • Dane przechowywane w niedrogim magazynie danychAmazon S3 Bucket
  • Struktura wbudowana w format Parquet używana w HDFS/Hive do wywoływania danych,
  • Klaster Hadoop/Sparc oparty na chmurze, skonfigurowany w centrum danych AWS z funkcją automatycznego skalowania,
  • Procesy ładowania przyrostowego działają w klastrze EMR w AWS i wykonują codzienne ściąganie danych za pomocą Apache Sqoop,
  • Uwolnienie mocy analizy biznesowej na wyciągnięcie ręki użytkownika ,
  • Zapewnienie niestandardowych narzędzi do raportowania i procesu raportowania,
  • Włączenie uczenia maszynowego w celu odkrycia ukrytego potencjału dostępnych danych,
  • Optymalizacja i automatyzacja procesów biznesowych na podstawie powiązanych danych,

Zastosowane technologie

  • Źródła danych/Silosy,
    • >60 źródeł danych,
    • >200 GB nowych danych dziennie,
  • Jeden magazyn danych (dane przechowywane w różnych magazynach danych opartych na chmurze AWS w zależności od typu danych),
    • Amazon S3
    • Amazon EC2 (usługa Elastic Compute Cloud zapewniająca bezpieczną, skalowalną moc obliczeniową),
    • Amazon Redshift (magazyn danych dla standardowych zapytań SQL i narzędzi BI),
    • Amazon RDS (relacyjna baza danych dla wielu typów instancji: PostgreSQL, MySQL, Oracle Server, Microsoft SQL Server),
    • Apache Sqoop (narzędzie systemu operacyjnego do zbiorczego przesyłania danych),
    • Amazon HDFS (Parquet) (klaster Hadoop z EMRElastic MapReduce),
  • Narzędzia do tworzenia zapytań i analizy,
    • Apache Hive, Pig, Spark (interfejs bazodanowy systemu operacyjnego do HDFS i silnika przetwarzającego),
    • R (statystyczny język programowania systemu operacyjnego do eksploracji danych i obliczeń statystycznych),
    • Mahout/scikit-learn (narzędzia systemu operacyjnego do tworzenia aplikacji do uczenia maszynowego),
    • Pentaho, QlikView, PowerBI, SAS (narzędzia do analizy danych, analizy biznesowej i raportowania),