Case studies - Data Lake

Ogromne repozytorium danych w ramach europejskiego systemu Destination Earth

Destination Earth Data Lake - DEDL case study cover image 1920px 1Destination Earth Data Lake - DEDL case study cover image 1920px 1

Data Lake to ogromne repozytorium danych oparte na usługach w chmurze, które stanowi podstawę Destination Earth - flagowej inicjatywy Unii Europejskiej mającej na celu opracowanie bardzo dokładnego modelu Ziemi, co przyczyni się do europejskiej transformacji cyfrowej i ekologicznej.

Data Lake to ogromne repozytorium danych oparte na usługach chmurowych, które stanowi kluczowy komponent systemu Destination Earth (DestinE) - sztandarowej inicjatywy Komisji Europejskiej, której celem jest modelowanie i monitorowanie naszej planety oraz symulowanie zjawisk naturalnych z niespotykaną dotąd dokładnością. Cyfrowa replika naszej planety umożliwi monitorowanie złożonych interakcji ekosystemów naszej planety i działalności człowieka z niespotykaną dotąd dokładnością. Pomoże to lepiej przewidywać zjawiska pogodowe i opracować skuteczniejsze strategie przeciwdziałania skutkom zmian klimatu. Inicjatywa przyczynia się do europejskiej transformacji cyfrowej i ekologicznej, budując bardziej zrównoważoną przyszłość dla wszystkich obywateli Europy.

CloudFerro dostarcza kluczowy element systemu - Data Lake - ogromne repozytorium danych, które jest podstawą systemu Destination Earth, zarządzanego przez Europejską Organizację Eksploatacji Satelitów Meteorologicznych EUMETSAT. Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. Zakres prac CloudFerro obejmuje koordynację projektu Data Lake i dostarczenie infrastruktury chmurowej (w modelu IaaS Infrastruktura-jako-Usługa i PaaS Platforma-jako-Usługa), usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia.

Cele i założenia projektu

Gwałtowne zmiany klimatu stanowią coraz większe obciążenie dla zdrowia, społeczeństwa i gospodarki europejskiej. Aby stawić czoła wyzwaniom w zakresie środowiska i klimatu, Komisja Europejska wraz z organizacjami partnerskimi - Europejską Organizacją Eksploatacji Satelitów Meteorologicznych (EUMETSAT), Europejską Agencją Kosmiczną (ESA) i Europejskim Centrum Prognoz Średnioterminowych (ECMWF), uruchomiła przełomową inicjatywę - Destination Earth (DestinE).

Długoterminowym celem DestinE jest opracowanie cyfrowej repliki Ziemi, która umożliwi modelowanie wszystkich elementów ekosystemu Ziemi w bardzo dokładny sposób, aby pomóc w monitorowaniu zjawisk naturalnych i działań człowieka, przewidywaniu zjawisk pogodowych i klimatycznych oraz testowaniu scenariuszy dla bardziej zrównoważonego rozwoju. Projekt jest wspierany przez program Horizon Europe oraz inne znaczące europejskie i krajowe inicjatywy w dziedzinie badań i innowacji.

Najważniejsze korzyści:

Destination Earth Data Lake - 004 open source

Skalowalność

Skalowalna architektura infrastruktury chmurowej do obsługi rosnącej liczby zbiorów danych i użytkowników

Destination Earth Data Lake - 1444 browser ciety

Bliskość danych

Użytkownicy Destination Earth znajdują się blisko danych.

Destination Earth Data Lake - 003 elastic

Przetwarzanie near data

Zapewnienie większej wydajności poprzez przetwarzanie tylko wartościowych danych.

Destination Earth Data Lake - 002 coding

Rozproszona lokaliacja

Infrastruktura data Bridges (tzw. mostów danych) zbudowana wokół superkomputerów w celu zapewnienia skutecznej wymiany danych i przetwarzania near data.

Destination Earth Data Lake - 001

Otwartość na innych dostawców

System akceptuje wszystkie typy, kształty i rozmiary plików danych przechowywanych obecnie i w przyszłości.

Destination Earth Data Lake - 6 cloud computing

Zharmonizowany dostęp do danych

Łatwy dostęp do danych z Cyfrowych Bliźniaków Ziemi i pochodzących od sfederowanych dostawców danych.


System Destination Earth

Kluczowe elementy systemu DestinE obejmują:

  • Core Service Platform obsługiwana przez ESA,
  • DestinE Data Lake zarządzane przez EUMETSAT
  • Digital Twins zarządzane przez ECMWF.

    Destination Earth Data Lake -
    Fig. 1. System Destination Earth Źródło: EUMETSAT.

    Dane

    Dane przechowywane w repozytorium Data Lake pochodzą z:

    • Własnych systemów satelitarnych EUMETSAT
    • Misji ESA
    • Satelitów konstelacji Copernicus Sentinel
    • ECMWF
    • Innych znaczących europejskich dostawców danych.
    Destination Earth Data Lake - Categories of data in DEDL case study www
    Fig. 2. Kategorie danych w repozytorium Data Lake. Źródło: EUMETSAT.

    Opis świadczonych usług

    Data Lake bazuje na kilku usługach, które razem stanowią fundament systemu Destination Earth:

    • Dostęp do danych i ich wyszukiwanie
    • Usługi przetwarzania wielkich zbiorów danych
    • Usługi wsparcia
    Destination Earth Data Lake -
    Fig. 3. Usługi Data Lake. Źródło: EUMETSAT.

    Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. W lokalizacjach tych znajdują się również potężne superkomputery zbudowane w ramach programu EuroHPC, które biorą udział w modelowaniu cyfrowym, zapewniając ogromną moc obliczeniową niezbędną do tego typu przetworzeń. Superkomputery HPC będą przetwarzać modele  stworzone w ramach komponentu Cyfrowych Bliźniaków, a wyniki tych analiz będą przekazywane do repozytorium Data Lake.  

    Lokalizacje centrów danych, w których znajduje się infrastruktura Data Lake to:

    • Warszawa – lokalizacja centralna
    • Kajaani w Finlandii
    • Bolonia we Włoszech
    • Barcelona w Hiszpanii
    • Darmstadt w Niemczech.

    Destination Earth Data Lake - DL Infrastructure A
    Fig. 4. Data Lake - rozproszona infrastruktura systemu. Źródło: EUMETSAT.

    Infrastruktura projektu składa się z niezależnych lokalizacji połączonych w sieć za pomocą rozwiązania WAN.

    • Dostęp do Internetu wynosi 100G na każdą lokalizację
    • Wirtualna linia prywatna między lokalizacjami to połączenie 10G
    • Dedykowane połączenie z HPC

    Jako główny wykonawca dla EUMETSAT, CloudFerro odpowiada za:

    • Koordynację prac związanych z dostarczeniem  Data Lake
    • Dostawę infrastruktury chmurowej w modelu Infrastruktura-jako-Usługa i  Platforma-jako-Usługa (Ponad 60 PB pamięci masowej i ponad 23.500 zainstalowanych procesorów CPU)
    • Zapewnienie usług do przetwarzania wielkich zbiorów danych
    • Obsługę i utrzymanie Data Lake.

    Na potrzeby realizacji projektu polska firma współpracuje z dwoma innymi europejskimi partnerami – CS Group odpowiedzialnym za obszar dostępu do zgromadzonych danych, oraz EODC, który odpowiada za wdrożenie narzędzi do przetwarzania danych.

    Destination Earth Data Lake - DEDL scope graphic 1
    Fig. 5. Usługi świadczone przez CloudFerro i partneró w projekcie Data Lake. Źródło: EUMETSAT.

    Data Lake jest samodzielnym komponentem:

    • Zbudowany z geograficznie rozproszonych elementów
    • Rozproszone usługi - z płynnym dostępem

    Data Lake dostarcza także usługi Wyszukiwania i Dostępu do Danych poprzez tzw.  Zharmonizowany Dostęp do Danych (HDA), aby uprościć wyszukiwanie danych i dostęp do:

    • Dwóch pierwszych Cyfrowych Bliźniaków Ziemi, zarządzanych przez ECMWF („Extreme Weather” i „Climate Change Adaptation”)
    • Zewnętrznych sfederowanych przestrzeni danych, umożliwiających wykorzystanie wielu publicznych źródeł danych wspieranych przez UE,
    • Danych generowanych przez użytkowników systemu Destination Earth.

    Przetwarzanie wielkich zbiorów danych:

    • usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia

    Data Lake ma na celu zapewnienie płynnego dostępu do wszystkich danych określonych w portfolio danych Destination Earth. Repozytorium będzie dostępne z dużej liczby zewnętrznych przestrzeni danych, Cyfrowych Bliźniaków Ziemi lub aplikacji działających na platformie DestinE Core Service Platform, niezależnie od typu i lokalizacji danych.

    Data Lake dostarczy usługi, które poprzez federację z różnymi repozytoriami danych, umożliwią użytkownikom dostęp do danych w jak najkrótszym czasie – bazując na lokalizacji danych w obrębie Data Lake.

    Na chwilę obecną, system DestinE adresowany jest do użytkowników z sektora publicznego, a w przyszłości, będzie służyć również naukowcom, badaczom, sektorowi prywatnemu i ogółowi społeczeństwa. Pełne wdrożenie systemu ma nastąpić w ciągu 7-10 lat (do 2030-33 roku).


    If you have any query, contact us. Our experts will be happy to assist you.

    We will answer all your questions as soon as possible.