Zarządzanie dużymi i złożonymi zbiorami danych jest kluczowym procesem w wielu dziedzinach działalności naukowej, akademickiej, kulturalnej, społecznej czy gospodarczej. Po stronie technicznej wymagane było stworzenie zbioru podstawowych usług zarządzania danymi opartych na adekwatnie skalowalnej, pojemnej i wydajnej oraz wszechobecnej infrastrukturze i usługach. Taka infrastruktura powinna umożliwiać migrację lub zreplikowanie do niej danych o znaczeniu ponaddziedzinowym czy też ponadczasowym, a także umieszczanie w niej nowo pozyskiwanych zbiorów danych o zastosowaniu naukowym lub gospodarczym.

Infrastruktura powinna także gwarantować wiarygodne zabezpieczenia tych danych oraz zapewniać efektywny dostęp do danych za pośrednictwem rozszerzalnego zbioru usług dostępowych oraz mechanizmów prezentacji danych, wspierających różne protokoły dostępu i formaty danych. Ponadto usługa powinna integrować funkcjonalność i zasoby do przetwarzania danych, w tym prowadzenie obliczeń wielkiej skali (HPC, HRC), analityki danych w modelu Big Data, czy też uczenia maszynowego (ML, AI), bez potrzeby przemieszczania danych do innej infrastruktury.

Infrastruktura pamięci dyskowych w PCSS składa się z kilku rodzajów systemów przechowywania i udostępniania danych, w tym macierzy dyskowych średniej wielkości (ang. mid-range), wysoko wydajnych macierzy dyskowych dla systemów HPC, specjalizowanych systemów przechowywania i udostępniania danych, włączając wysoko wydajny serwer plików i macierze SSD a także otwartych, skalowalnych klastrów serwerów dyskowych z oprogramowaniem Software Defined Storage. Systemy te mogą być wykorzystywane do zaspokojenia różnych potrzeb, w tym przechowywania i udostępniania danych dla klastra HPC (przestrzeń danych tymczasowych), utrzymywania platform chmurowych (wolumeny dla maszyn wirtualnych i kontenerów), realizacji aplikacji i usług do przechowywania danych w chmurze (usługa synchronizacji i współdzielenia danych) oraz bezpiecznego przechowywania kopii zapasowych i długoterminowego przechowywania danych archiwalnych w architekturze rozproszonej, a także realizacji usług przechowywania danych ogólnego przeznaczenia: dla aplikacji i platform z interfejsami blokowymi i plikowymi oraz obiektowymi.

Systemy przechowywania danych PCSS pozwalają także na obsługę (składowanie, serwowanie, strumieniowanie) obszernych treści cyfrowych, dużych plików i obiektów, w tym multimediów (audio-wideo dużej rozdzielczości), obiektów cyfrowych (składowanych i udostępnianych w repozytoriach), danych pozyskiwanych w ramach projektów badawczych w dyscyplinach wymagających zarządzania obszernymi zbiorami danych pochodzących z wysokiej jakości instrumentów (dane z radioteleskopów, wysokiej rozdzielczości skany gatunków zwierząt).

PCSS oferuje usługi do tworzenia, przechowywania i odtwarzania kopii zapasowych i archiwalnych danych (ang. Backup/Archive) w oparciu o systemy taśmowe, wyposażone w bufory dyskowe na macierzach. Obecnie PCSS używa głównie taśmy i napędy w technologii Jaguar (IBM), zarządzane systemem monitorowania Tivoli Storage Manager z funkcjonalnością HSM (ang. Hierarchical Storage Management – hierarchiczne zarządzanie pamięcią masową). Hierarchiczną strukturę składowania danych dostarczaną użytkownikom tworzy wiele elementów, począwszy od ultraszybkich pamięci SSD ARRAYS oraz SSD/ NVME, poprzez pamięci wspomagające użytkowników obliczeń równoległych, na pamięciach taśmowych kończąc, z sumaryczną pojemności 80 PB.

 

Zobacz stronę Zarządzanie danymi w PCSS.