Przełom w obserwacji Ziemi przy wykorzystaniu globalnych embeddingów AI
Z dumą informujemy, że w wyniku współpracy badawczej CloudFerro i Φ-lab, laboratorium badawczego Europejskiej Agencji Kosmicznej (ESA), opublikowany został pierwszy globalny zbiór danych embeddingów dla obserwacji Ziemi (EO). Ta przełomowa publikacja integruje najnowocześniejsze technologie AI, aby zwiększyć możliwości EO i zapewnić bardziej precyzyjną i skalowalną analizę danych satelitarnych. Społeczność AI może wykorzystywać globalne embeddingi dla EO w swoich badaniach i tworzeniu aplikacji
Embeddingi te, pochodzące z zaawansowanych modeli AI, przekształcają ogromne ilości obrazów satelitarnych w wydajne, wielowymiarowe reprezentacje wektorowe. Pozwalają na bardziej inteligentną i szybszą analizę danych z EO na niespotykaną dotąd skalę. Globalne embeddingi zostały obliczone przy użyciu platformy chmurowej CREODIAS, której operatorem jest CloudFerro, korzystając z instancji wyposażonych w szybkie procesory GPU.
„Sposób wykorzystania danych obserwacji Ziemi (EO) zmieni się diametralnie dzięki szerokiej dostępności embeddingów opartych na pełnych archiwach danych z Sentineli. Prototyp, który stworzyliśmy, to pierwszy krok w kierunku zrozumienia wartości, jaką wnosi to rozwiązanie” – powiedział dr Mikołaj Czerkawski z ESA Φ-lab, który kierował rozwojem MajorTOM oraz współpracą techniczną z CloudFerro. „Poprzez rozwój i udostępnienie projektu w modelu open-source pokazujemy, jak programy takie jak Copernicus, które oparte są na otwartych danych, mogą po raz kolejny przynieść wyjątkowe korzyści szerszej społeczności” – dodaje.
Czym są embeddingi i jak działają?
Embeddingi to wektorowa numeryczna reprezentacja złożonych danych, takich jak tekst czy zobrazowania. Ta ustrukturyzowana forma przechowuje relacje i znaczenie semantyczne w danych, co pozwala modelom AI przetwarzać i analizować je z wyjątkową znajomością kontekstu i precyzją. Dzięki temu maszyny są w stanie wykrywać wzorce, podobieństwa i powiązania, które w innym przypadku byłyby trudne do zauważenia.
„Jesteśmy dumni, że możemy być w czołówce takich innowacji i realizować ten ambitny projekt z ekspertami AI z ESA Φ-lab. Embeddingi danych Sentinel wygenerowane za pomocą Major TOM i hostowane na naszej platformie CREODIAS przyniosą nowe możliwości społeczności geoprzestrzennej, udostępniając globalnie wysokiej jakości dane gotowe do przetworzeń AI” – powiedział dr Jędrzej Bojanowski, Data Science Manager z CloudFerro. „Ta współpraca podkreśla nasze zaangażowanie i wkład w rewolucję AI i wprowadzenie jej do ekosystemu danych EO, w tym danych Copernicus” – dodaje.
Embeddingi przekształcają surowe dane w formę, którą można łatwo interpretować, umożliwiając modelom AI wyciąganie głębszych wniosków. Dzięki temu podejściu możliwa jest bardziej precyzyjna analiza oraz postęp w takich obszarach, jak uczenie maszynowe, zrozumienie języka naturalnego i wizja komputerowa. Embeddingi stanowią fundament skalowalnych i wszechstronnych rozwiązań AI, otwierając nowe możliwości w szerokim zakresie zastosowań, od modelowania predykcyjnego po zaawansowane systemy wspomagania decyzji.
„Projekt ten jest przykładem, jak ESA wspiera wysiłki na rzecz wzmacniania pozycji europejskich podmiotów w tej dziedzinie” – powiedziała Anna Burzykowska, Copernicus Innovation Officer w Europejskiej Agencji Kosmicznej (ESA). „Zależy nam na dalszej współpracy z naszymi partnerami z sektora kosmicznego i nauki oraz na wytrwałej pracy nad budową kluczowych podstaw niezbędnych do rozwoju tej technologii w Europie, zwłaszcza w kontekście programu Copernicus” – dodaje.
Rola embeddingów w EO
Embeddingi zyskują coraz większe znaczenie w EO, oferując szeroki wachlarz zastosowań dla profesjonalistów zajmujących się tą dziedziną. Mogą być wykorzystywane przez naukowców zajmujących się teledetekcją, analityków GIS oraz badaczy środowiska pracujących ze zobrazowaniami satelitarnymi i danymi geoprzestrzennymi.
Jak zostały wygenerowane embeddingi dla EO?
Korzystając z danych satelitarnych Copernicus, wygenerowane zostało ponad 170 milionów embeddingów z 62 TB surowych danych, co odpowiada 9,368 bilionom pikseli. Przetwarzając ponad 8 milionów obrazów, skondensowaliśmy tę ogromną ilość informacji do zaledwie 1 TB zoptymalizowanych danych. Te uproszczone zbiory danych zawierają kluczowe informacje, ułatwiając badaczom i analitykom pracę z danymi, dostrajanie modeli AI oraz zdobywanie cennych wniosków, bez konieczności pracy z dużymi, surowymi zestawami danych.
Dostępne modele embeddingów
Projekt ten jest częścią rozszerzonego standardu publikacji Major TOM (https://huggingface.co/Major-TOM) i obejmuje embeddingi dostępne w otwartych zbiorach danych na platformie HuggingFace:
- Sentinel-2 Multispectral SSL4EO Model: Core-S2L1C-SSL4EO
- Sentinel-1 RTC SSL4EO Model: Core-S1RTC-SSL4EO
- Sentinel-2 RGB DINOv2 Model: Core-S2RGB-DINOv2
- Sentinel-2 RGB SigLIP Model: Core-S2RGB-SigLIP
Środowisko obliczeniowe
Dzięki infrastrukturze chmurowej wykorzystującej procesory GPU, udostępnione przez CloudFerro na platformie CREODIAS oraz wiedzy eksperckiej Φ-lab ESA, projekt ten pokazuje potencjał rozwiązań opartych na AI w dziedzinie EO. Embeddingi wykorzystują najnowocześniejsze modele wizyjne, takie jak SigLIP, DINOv2 i SSL4EO, otwierając nowe możliwości dla zaawansowanych zadań związanych z EO.
Plany i rozwój
W kolejnych etapach rozwoju oceniona zostanie wydajność embeddingów w różnych zadaniach związanych z EO, takich jak wykrywanie wzorców czy budowanie modeli predykcyjnych. Dodatkowo zostaną zbadane nowe modele bazowe, takie jak MMEarth i DeCUR, aby poprawić ich możliwości i zapewnić bezproblemową integrację. Rozszerzony zbiór danych MajorTOM, wzbogacony o embeddingi, będzie dostępny w repozytorium CREODIAS, zapewniając otwarty dostęp dla badaczy i wspierając współpracę w obszarze EO.