Destination Earth Data Lake
Ogromne repozytorium danych w ramach europejskiego systemu Destination Earth
Data Lake to ogromne repozytorium danych oparte na usługach w chmurze, które stanowi podstawę Destination Earth - flagowej inicjatywy Unii Europejskiej mającej na celu opracowanie bardzo dokładnego modelu Ziemi, co przyczyni się do europejskiej transformacji cyfrowej i ekologicznej.
Data Lake to ogromne repozytorium danych oparte na usługach chmurowych, które stanowi kluczowy komponent systemu Destination Earth (DestinE) - sztandarowej inicjatywy Komisji Europejskiej, której celem jest modelowanie i monitorowanie naszej planety oraz symulowanie zjawisk naturalnych z niespotykaną dotąd dokładnością. Cyfrowa replika naszej planety umożliwi monitorowanie złożonych interakcji ekosystemów naszej planety i działalności człowieka z niespotykaną dotąd dokładnością. Pomoże to lepiej przewidywać zjawiska pogodowe i opracować skuteczniejsze strategie przeciwdziałania skutkom zmian klimatu. Inicjatywa przyczynia się do europejskiej transformacji cyfrowej i ekologicznej, budując bardziej zrównoważoną przyszłość dla wszystkich obywateli Europy.
CloudFerro dostarcza kluczowy element systemu - Data Lake - ogromne repozytorium danych, które jest podstawą systemu Destination Earth, zarządzanego przez Europejską Organizację Eksploatacji Satelitów Meteorologicznych EUMETSAT. Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. Zakres prac CloudFerro obejmuje koordynację projektu Data Lake i dostarczenie infrastruktury chmurowej (w modelu IaaS Infrastruktura-jako-Usługa i PaaS Platforma-jako-Usługa), usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia.
Cele i założenia projektu
Gwałtowne zmiany klimatu stanowią coraz większe obciążenie dla zdrowia, społeczeństwa i gospodarki europejskiej. Aby stawić czoła wyzwaniom w zakresie środowiska i klimatu, Komisja Europejska wraz z organizacjami partnerskimi - Europejską Organizacją Eksploatacji Satelitów Meteorologicznych (EUMETSAT), Europejską Agencją Kosmiczną (ESA) i Europejskim Centrum Prognoz Średnioterminowych (ECMWF), uruchomiła przełomową inicjatywę - Destination Earth (DestinE).
Długoterminowym celem DestinE jest opracowanie cyfrowej repliki Ziemi, która umożliwi modelowanie wszystkich elementów ekosystemu Ziemi w bardzo dokładny sposób, aby pomóc w monitorowaniu zjawisk naturalnych i działań człowieka, przewidywaniu zjawisk pogodowych i klimatycznych oraz testowaniu scenariuszy dla bardziej zrównoważonego rozwoju. Projekt jest wspierany przez program Horizon Europe oraz inne znaczące europejskie i krajowe inicjatywy w dziedzinie badań i innowacji.
Najważniejsze korzyści:
System Destination Earth
Kluczowe elementy systemu DestinE obejmują:
- Core Service Platform obsługiwana przez ESA,
- DestinE Data Lake zarządzane przez EUMETSAT
- Digital Twins zarządzane przez ECMWF.
Dane
Dane przechowywane w repozytorium Data Lake pochodzą z:
- Własnych systemów satelitarnych EUMETSAT
- Misji ESA
- Satelitów konstelacji Copernicus Sentinel
- ECMWF
- Innych znaczących europejskich dostawców danych.
Opis świadczonych usług
Data Lake bazuje na kilku usługach, które razem stanowią fundament systemu Destination Earth:
- Dostęp do danych i ich wyszukiwanie
- Usługi przetwarzania wielkich zbiorów danych
- Usługi wsparcia
Środowisko chmurowe Data Lake, dostarczane i obsługiwane przez polskie CloudFerro, jest przeznaczone do przechowywania ponad kilkudziesięciu PB danych. Będą one przechowywane w prywatnych chmurach obliczeniowych zlokalizowanych w centrach danych w całej Europie. W lokalizacjach tych znajdują się również potężne superkomputery zbudowane w ramach programu EuroHPC, które biorą udział w modelowaniu cyfrowym, zapewniając ogromną moc obliczeniową niezbędną do tego typu przetworzeń. Superkomputery HPC będą przetwarzać modele stworzone w ramach komponentu Cyfrowych Bliźniaków, a wyniki tych analiz będą przekazywane do repozytorium Data Lake.
Lokalizacje centrów danych, w których znajduje się infrastruktura Data Lake to:
- Warszawa – lokalizacja centralna
- Kajaani w Finlandii
- Bolonia we Włoszech
- Barcelona w Hiszpanii
- Darmstadt w Niemczech.
Infrastruktura projektu składa się z niezależnych lokalizacji połączonych w sieć za pomocą rozwiązania WAN.
- Dostęp do Internetu wynosi 100G na każdą lokalizację
- Wirtualna linia prywatna między lokalizacjami to połączenie 10G
- Dedykowane połączenie z HPC
Jako główny wykonawca dla EUMETSAT, CloudFerro odpowiada za:
- Koordynację prac związanych z dostarczeniem Data Lake
- Dostawę infrastruktury chmurowej w modelu Infrastruktura-jako-Usługa i Platforma-jako-Usługa (Ponad 60 PB pamięci masowej i ponad 23.500 zainstalowanych procesorów CPU)
- Zapewnienie usług do przetwarzania wielkich zbiorów danych
- Obsługę i utrzymanie Data Lake.
Na potrzeby realizacji projektu polska firma współpracuje z dwoma innymi europejskimi partnerami – CS Group odpowiedzialnym za obszar dostępu do zgromadzonych danych, oraz EODC, który odpowiada za wdrożenie narzędzi do przetwarzania danych.
Data Lake jest samodzielnym komponentem:
- Zbudowany z geograficznie rozproszonych elementów
- Rozproszone usługi - z płynnym dostępem
Data Lake dostarcza także usługi Wyszukiwania i Dostępu do Danych poprzez tzw. Zharmonizowany Dostęp do Danych (HDA), aby uprościć wyszukiwanie danych i dostęp do:
- Dwóch pierwszych Cyfrowych Bliźniaków Ziemi, zarządzanych przez ECMWF („Extreme Weather” i „Climate Change Adaptation”)
- Zewnętrznych sfederowanych przestrzeni danych, umożliwiających wykorzystanie wielu publicznych źródeł danych wspieranych przez UE,
- Danych generowanych przez użytkowników systemu Destination Earth.
Przetwarzanie wielkich zbiorów danych:
- usługi przetwarzania dużych zbiorów danych, w tym przetwarzania rozproszonego i przepływów pracy, a także usługi utrzymania i wsparcia
Data Lake ma na celu zapewnienie płynnego dostępu do wszystkich danych określonych w portfolio danych Destination Earth. Repozytorium będzie dostępne z dużej liczby zewnętrznych przestrzeni danych, Cyfrowych Bliźniaków Ziemi lub aplikacji działających na platformie DestinE Core Service Platform, niezależnie od typu i lokalizacji danych.
Data Lake dostarczy usługi, które poprzez federację z różnymi repozytoriami danych, umożliwią użytkownikom dostęp do danych w jak najkrótszym czasie – bazując na lokalizacji danych w obrębie Data Lake.
Na chwilę obecną, system DestinE adresowany jest do użytkowników z sektora publicznego, a w przyszłości, będzie służyć również naukowcom, badaczom, sektorowi prywatnemu i ogółowi społeczeństwa. Pełne wdrożenie systemu ma nastąpić w ciągu 7-10 lat (do 2030-33 roku).
If you have any query, contact us. Our experts will be happy to assist you.
We will answer all your questions as soon as possible.