Platforma CREODIAS zyskuje nowy zestaw globalych embeddingów AI


CloudFerro, operator platformy CREODIAS, we współpracy z ESA Φ-lab, udostępnił właśnie nowy zestaw globalnych embeddingów AI, oferując użytkownikom danych z obserwacji Ziemi dostęp do jeszcze bardziej zaawansowanych reprezentacji danych satelitarnych.
Embeddingi to globalne przetworzenia AI danych obserwacji Ziemi (AI embeddings), a dokładniej, są to reprezentacje numeryczne zobrazowań satelitarnych wytworzone za pomocą modeli sztucznej inteligencji. Te zbiory danych zawierają kluczowe informacje, ułatwiające naukowcom i analitykom pracę z danymi satelitarnymi, dostrajanie modeli AI oraz wydobywanie cennych wniosków, bez konieczności przetwarzania dużych, surowych zestawów danych.
Udostępnienie nowego zestawu embeddingów to kolejny krok milowy w kierunku otwartego dostępu do danych i narzędzi opartych na sztucznej inteligencji w analizie obrazów satelitarnych. Embeddingi zostały opracowane we współpracy z ESA Φ-lab oraz Asterisk Labs,
Jak informowaliśmy wcześniej (https://cloudferro.com/pl/aktualnosci/przelom-w-obserwacji-ziemi-embeddingsy-ai/), embeddingi cieszą się ogromnym zainteresowaniem wśród użytkowników technologii sztucznej inteligencji dla danych obserwacji Ziemi. Obecnie zbiór został wzbogacony o dane generowane przez kolejne trzy modele: MMEarth, DeCUR-S1 oraz DeCUR-S2.
Łączne zasoby embeddingów po aktualizacji:
- 51 TB embeddingów AI wygenerowanych z przetworzonych danych Sentinel,
- ponad 40 miliardów wektorów embeddingów,
- przetworzenie 147 TB surowych danych satelitarnych,
- analiza obejmująca ponad 15 milionów scen Sentinel-1 i Sentinel-2 oraz ponad 16 bilionów pikseli.
Zbiór jest częścią rozszerzonego standardu publikacji Major TOM (https://huggingface.co/Major-TOM), a embeddingi są dostępne zarówno na platformie HuggingFace, jak i bezpośrednio w katalogu EODATA na CREODIAS.
Lokalizacja danych (katalog EODATA) ścieżki S3:
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L2A-MMEarth/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S1RTC-DeCUR/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L1C-DeCUR/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S1RTC-SSL4EO/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L1C-SSL4EO/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-DINOv2/
s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-SigLIP/
Przykładowy odczyt embeddingów SigLIP S2L2A RGB z katalogu EODATA z zastosowaniem Python:
import geopandas as gpd
s3_variables = {"endpoint_url": "https://eodata.cloudferro.com",
"key": "<INSERT YOUR PUBLIC KEY HERE>",
"secret": "<INSERT YOUR SECRET KEY HERE >"}
df = gpd.read_parquet("s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-SigLIP/part_00001-00100.parquet",storage_options=s3_variables)
Dostęp na HuggingFace
Ze względu na ograniczenia w udostępnianiu terabajtowych zbiorów danych w repozytorium HuggingFace dla embeddingów opracowanych na modelu MMEarth dostępne są wersje uśrednione (10×10 pooling). Pełne zbiory można znaleźć na CREODIAS.
Linki na HuggingFace:
- https://huggingface.co/datasets/Major-TOM/Core-S2L2A-MMEarth (Core-S2L2A-MMEarth)
- https://huggingface.co/datasets/Major-TOM/Core-S1RTC-DeCUR (Core-S1RTC-DeCUR)
- https://huggingface.co/datasets/Major-TOM/Core-S2L1C-DeCUR (Core-S2L1C-DeCUR)
Co dalej?
W kolejnych etapach planowane jest udostępnienie zestawu danych satelitarnych MajorTOM w formie zoptymalizowanej pod szybki dostęp i zastosowanie wraz z embeddingami na platformie CREODIAS. Dodatkowo, będziemy opracowywać use case’y z wykorzystaniem embeddingów, a także udostępnimy społeczności użytkowników danych z obserwacji Ziemi notebooki z przykładami praktycznego wykorzystania embeddingów, co umożliwi jeszcze łatwiejsze wdrożenie technologii w praktyce.
Zespół: dr Jędrzej Bojanowski, CloudFerro; Marcin Kluczek, CloudFerro; dr Mikołaj Czerkawski, ESA PhiLab/Asteriks.
