Platforma CREODIAS zyskuje nowy zestaw globalych embeddingów AI

Platforma CREODIAS zyskuje nowy zestaw globalnych embeddingów AI - hp background optPlatforma CREODIAS zyskuje nowy zestaw globalnych embeddingów AI - hp background opt

CloudFerro, operator platformy CREODIAS, we współpracy z ESA Φ-lab, udostępnił właśnie nowy zestaw globalnych embeddingów AI, oferując użytkownikom danych z obserwacji Ziemi dostęp do jeszcze bardziej zaawansowanych reprezentacji danych satelitarnych.

Embeddingi to globalne przetworzenia AI danych obserwacji Ziemi (AI embeddings), a dokładniej, są to reprezentacje numeryczne zobrazowań satelitarnych wytworzone za pomocą modeli sztucznej inteligencji. Te zbiory danych zawierają kluczowe informacje, ułatwiające naukowcom i analitykom pracę z danymi satelitarnymi, dostrajanie modeli AI oraz wydobywanie cennych wniosków, bez konieczności przetwarzania dużych, surowych zestawów danych. 

Udostępnienie nowego zestawu embeddingów to kolejny krok milowy w kierunku otwartego dostępu do danych i narzędzi opartych na sztucznej inteligencji w analizie obrazów satelitarnych. Embeddingi zostały opracowane we współpracy z ESA Φ-lab oraz Asterisk Labs,

Jak informowaliśmy wcześniej (https://cloudferro.com/pl/aktualnosci/przelom-w-obserwacji-ziemi-embeddingsy-ai/), embeddingi cieszą się ogromnym zainteresowaniem wśród użytkowników technologii sztucznej inteligencji dla danych obserwacji Ziemi. Obecnie zbiór został wzbogacony o dane generowane przez kolejne trzy modele: MMEarth, DeCUR-S1 oraz DeCUR-S2.

Łączne zasoby embeddingów po aktualizacji:

  • 51 TB embeddingów AI wygenerowanych z przetworzonych danych Sentinel,
  • ponad 40 miliardów wektorów embeddingów,
  • przetworzenie 147 TB surowych danych satelitarnych,
  • analiza obejmująca ponad 15 milionów scen Sentinel-1 i Sentinel-2 oraz ponad 16 bilionów pikseli.

Zbiór jest częścią rozszerzonego standardu publikacji Major TOM (https://huggingface.co/Major-TOM), a embeddingi są dostępne zarówno na platformie HuggingFace, jak i bezpośrednio w katalogu EODATA na CREODIAS.

Lokalizacja danych (katalog EODATA) ścieżki S3:

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L2A-MMEarth/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S1RTC-DeCUR/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L1C-DeCUR/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S1RTC-SSL4EO/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2L1C-SSL4EO/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-DINOv2/

s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-SigLIP/

Przykładowy odczyt embeddingów SigLIP S2L2A RGB z katalogu EODATA z zastosowaniem Python:

import geopandas as gpd

s3_variables = {"endpoint_url": "https://eodata.cloudferro.com",

"key": "<INSERT YOUR PUBLIC KEY HERE>",

"secret": "<INSERT YOUR SECRET KEY HERE >"}

df = gpd.read_parquet("s3://EODATA/auxdata/MajorTOM/embeddings/Core-S2RGB-SigLIP/part_00001-00100.parquet",storage_options=s3_variables)

Dostęp na HuggingFace

Ze względu na ograniczenia w udostępnianiu terabajtowych zbiorów danych w repozytorium HuggingFace dla embeddingów opracowanych na modelu MMEarth dostępne są wersje uśrednione (10×10 pooling). Pełne zbiory można znaleźć na CREODIAS.

Linki na HuggingFace:

Co dalej?

W kolejnych etapach planowane jest udostępnienie zestawu danych satelitarnych MajorTOM w formie zoptymalizowanej pod szybki dostęp i zastosowanie wraz z embeddingami na platformie CREODIAS. Dodatkowo, będziemy opracowywać use case’y z wykorzystaniem embeddingów, a także udostępnimy społeczności użytkowników danych z obserwacji Ziemi notebooki z przykładami praktycznego wykorzystania embeddingów, co umożliwi jeszcze łatwiejsze wdrożenie technologii w praktyce.

 Zespół: dr Jędrzej Bojanowski, CloudFerro; Marcin Kluczek, CloudFerro; dr Mikołaj Czerkawski, ESA PhiLab/Asteriks.

Platforma CREODIAS zyskuje nowy zestaw globalnych embeddingów AI - embeddings release II very low res v1