Case studies - Data Lake

Ogromne repozytorium danych w ramach europejskiego systemu Destination Earth

Destination Earth Data Lake - DEDL case study cover image 1920px 1Destination Earth Data Lake - DEDL case study cover image 1920px 1

Data Lake to ogromne repozytorium danych oparte na usługach w chmurze, które stanowi podstawę Destination Earth - flagowej inicjatywy Unii Europejskiej mającej na celu opracowanie bardzo dokładnego modelu Ziemi, co przyczyni się do europejskiej transformacji cyfrowej i ekologicznej.

Data Lake to ogromne repozytorium danych oparte na usługach chmurowych, które stanowi kluczowy komponent systemu Destination Earth (DestinE) - sztandarowej inicjatywy Komisji Europejskiej, której celem jest modelowanie i monitorowanie naszej planety oraz symulowanie zjawisk naturalnych z niespotykaną dotąd dokładnością. Cyfrowa replika naszej planety umożliwi monitorowanie złożonych interakcji ekosystemów naszej planety i działalności człowieka z niespotykaną dotąd dokładnością. Pomoże to lepiej przewidywać zjawiska pogodowe i opracować skuteczniejsze strategie przeciwdziałania skutkom zmian klimatu. Inicjatywa przyczynia się do europejskiej transformacji cyfrowej i ekologicznej, budując bardziej zrównoważoną przyszłość dla wszystkich obywateli Europy.

CloudFerro dostarcza kluczowy element systemu - Data Lake - ogromne repozytorium danych, które jest podstawą systemu Destination Earth, zarządzanego przez Europejską Organizację Eksploatacji Satelitów Meteorologicznych EUMETSAT. Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. Zakres prac CloudFerro obejmuje koordynację projektu Data Lake i dostarczenie infrastruktury chmurowej (w modelu IaaS Infrastruktura-jako-Usługa i PaaS Platforma-jako-Usługa), usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia.

Cele i założenia projektu

Gwałtowne zmiany klimatu stanowią coraz większe obciążenie dla zdrowia, społeczeństwa i gospodarki europejskiej. Aby stawić czoła wyzwaniom w zakresie środowiska i klimatu, Komisja Europejska wraz z organizacjami partnerskimi - Europejską Organizacją Eksploatacji Satelitów Meteorologicznych (EUMETSAT), Europejską Agencją Kosmiczną (ESA) i Europejskim Centrum Prognoz Średnioterminowych (ECMWF), uruchomiła przełomową inicjatywę - Destination Earth (DestinE).

Długoterminowym celem DestinE jest opracowanie cyfrowej repliki Ziemi, która umożliwi modelowanie wszystkich elementów ekosystemu Ziemi w bardzo dokładny sposób, aby pomóc w monitorowaniu zjawisk naturalnych i działań człowieka, przewidywaniu zjawisk pogodowych i klimatycznych oraz testowaniu scenariuszy dla bardziej zrównoważonego rozwoju. Projekt jest wspierany przez program Horizon Europe oraz inne znaczące europejskie i krajowe inicjatywy w dziedzinie badań i innowacji.

Najważniejsze korzyści:

Destination Earth Data Lake - 004 open source

Skalowalność

Skalowalna architektura infrastruktury chmurowej do obsługi rosnącej liczby zbiorów danych i użytkowników

Destination Earth Data Lake - 1444 browser ciety

Bliskość danych

Użytkownicy Destination Earth znajdują się blisko danych.

Destination Earth Data Lake - 003 elastic

Przetwarzanie near data

Zapewnienie większej wydajności poprzez przetwarzanie tylko wartościowych danych.

Destination Earth Data Lake - 002 coding

Rozproszona lokaliacja

Infrastruktura data Bridges (tzw. mostów danych) zbudowana wokół superkomputerów w celu zapewnienia skutecznej wymiany danych i przetwarzania near data.

Destination Earth Data Lake - 001

Otwartość na innych dostawców

System akceptuje wszystkie typy, kształty i rozmiary plików danych przechowywanych obecnie i w przyszłości.

Destination Earth Data Lake - 6 cloud computing

Zharmonizowany dostęp do danych

Łatwy dostęp do danych z Cyfrowych Bliźniaków Ziemi i pochodzących od sfederowanych dostawców danych.


System Destination Earth

Kluczowe elementy systemu DestinE obejmują:

 • Core Service Platform obsługiwana przez ESA,
 • DestinE Data Lake zarządzane przez EUMETSAT
 • Digital Twins zarządzane przez ECMWF.

  Destination Earth Data Lake -
  Fig. 1. System Destination Earth Źródło: EUMETSAT.

  Dane

  Dane przechowywane w repozytorium Data Lake pochodzą z:

  • Własnych systemów satelitarnych EUMETSAT
  • Misji ESA
  • Satelitów konstelacji Copernicus Sentinel
  • ECMWF
  • Innych znaczących europejskich dostawców danych.
  Destination Earth Data Lake - Categories of data in DEDL case study www
  Fig. 2. Kategorie danych w repozytorium Data Lake. Źródło: EUMETSAT.

  Opis świadczonych usług

  Data Lake bazuje na kilku usługach, które razem stanowią fundament systemu Destination Earth:

  • Dostęp do danych i ich wyszukiwanie
  • Usługi przetwarzania wielkich zbiorów danych
  • Usługi wsparcia
  Destination Earth Data Lake -
  Fig. 3. Usługi Data Lake. Źródło: EUMETSAT.

  Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. W lokalizacjach tych znajdują się również potężne superkomputery zbudowane w ramach programu EuroHPC, które biorą udział w modelowaniu cyfrowym, zapewniając ogromną moc obliczeniową niezbędną do tego typu przetworzeń. Superkomputery HPC będą przetwarzać modele  stworzone w ramach komponentu Cyfrowych Bliźniaków, a wyniki tych analiz będą przekazywane do repozytorium Data Lake.  

  Lokalizacje centrów danych, w których znajduje się infrastruktura Data Lake to:

  • Warszawa – lokalizacja centralna
  • Kajaani w Finlandii
  • Bolonia we Włoszech
  • Barcelona w Hiszpanii
  • Darmstadt w Niemczech.

  Destination Earth Data Lake - DL Infrastructure A
  Fig. 4. Data Lake - rozproszona infrastruktura systemu. Źródło: EUMETSAT.

  Infrastruktura projektu składa się z niezależnych lokalizacji połączonych w sieć za pomocą rozwiązania WAN.

  • Dostęp do Internetu wynosi 100G na każdą lokalizację
  • Wirtualna linia prywatna między lokalizacjami to połączenie 10G
  • Dedykowane połączenie z HPC

  Jako główny wykonawca dla EUMETSAT, CloudFerro odpowiada za:

  • Koordynację prac związanych z dostarczeniem  Data Lake
  • Dostawę infrastruktury chmurowej w modelu Infrastruktura-jako-Usługa i  Platforma-jako-Usługa (Ponad 60 PB pamięci masowej i ponad 23.500 zainstalowanych procesorów CPU)
  • Zapewnienie usług do przetwarzania wielkich zbiorów danych
  • Obsługę i utrzymanie Data Lake.

  Na potrzeby realizacji projektu polska firma współpracuje z dwoma innymi europejskimi partnerami – CS Group odpowiedzialnym za obszar dostępu do zgromadzonych danych, oraz EODC, który odpowiada za wdrożenie narzędzi do przetwarzania danych.

  Destination Earth Data Lake - DEDL scope graphic 1
  Fig. 5. Usługi świadczone przez CloudFerro i partneró w projekcie Data Lake. Źródło: EUMETSAT.

  Data Lake jest samodzielnym komponentem:

  • Zbudowany z geograficznie rozproszonych elementów
  • Rozproszone usługi - z płynnym dostępem

  Data Lake dostarcza także usługi Wyszukiwania i Dostępu do Danych poprzez tzw.  Zharmonizowany Dostęp do Danych (HDA), aby uprościć wyszukiwanie danych i dostęp do:

  • Dwóch pierwszych Cyfrowych Bliźniaków Ziemi, zarządzanych przez ECMWF („Extreme Weather” i „Climate Change Adaptation”)
  • Zewnętrznych sfederowanych przestrzeni danych, umożliwiających wykorzystanie wielu publicznych źródeł danych wspieranych przez UE,
  • Danych generowanych przez użytkowników systemu Destination Earth.

  Przetwarzanie wielkich zbiorów danych:

  • usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia

  Data Lake ma na celu zapewnienie płynnego dostępu do wszystkich danych określonych w portfolio danych Destination Earth. Repozytorium będzie dostępne z dużej liczby zewnętrznych przestrzeni danych, Cyfrowych Bliźniaków Ziemi lub aplikacji działających na platformie DestinE Core Service Platform, niezależnie od typu i lokalizacji danych.

  Data Lake dostarczy usługi, które poprzez federację z różnymi repozytoriami danych, umożliwią użytkownikom dostęp do danych w jak najkrótszym czasie – bazując na lokalizacji danych w obrębie Data Lake.

  Na chwilę obecną, system DestinE adresowany jest do użytkowników z sektora publicznego, a w przyszłości, będzie służyć również naukowcom, badaczom, sektorowi prywatnemu i ogółowi społeczeństwa. Pełne wdrożenie systemu ma nastąpić w ciągu 7-10 lat (do 2030-33 roku).


  If you have any query, contact us. Our experts will be happy to assist you.

  We will answer all Your questions as soon as possible.