KMD
Krajowy Magazyn Danych. Uniwersalna infrastruktura

Koncepcja KMD obejmuje fundamentalną przebudowę architektury do postaci otwartego, modularnego, rozszerzalnego oraz zdecentralizowanego i skalowalnego magazynu danych, wyposażonego w szereg interfejsów dostępowych oraz zintegrowanych usług i aplikacji, w tym mechanizmów wspomagających efektywne składowanie i dostęp do danych (wielopunktowa obsługa I/O, buforowanie), długoterminowe zarządzanie danymi, ich eksplorację, analizę i efektywne przetwarzanie.

Otwarta architektura systemu KMD zapewni możliwość dalszego rozszerzania funkcjonalności i dodawania kolejnych protokołów i interfejsów dostępowych do danych, np. usług prezentacji danych, usług do obróbki danych, aplikacji analitycznych czy mechanizmów integracji z systemami przetwarzania danych.

Usługi podstawowe systemu zapewnią możliwość przechowywania i zabezpieczania danych (fizycznego i logicznego), natomiast usługi dodatkowe, osadzone w systemie oraz usługi dostępowe umożliwią realizację zaawansowanych systemów, usług i aplikacji dano-centrycznych, w ramach których wymagane jest wydajne i bezpieczne składowanie, dostęp i przetwarzanie oraz zarządzanie dużymi i złożonymi wolumenami danych.

Celem bezpośrednim projektu jest opracowanie i dostarczenie produkcyjnych usług przechowywania, dostępu oraz zabezpieczania danych i zarządzania metadanymi a także integracji rozwiązań dla przetwarzania dużych i złożonych wolumenów danych na bazie rozproszonej infrastruktury. Umożliwi to integrację platform analitycznych oraz rozwiązań z zakresu uczenia maszynowego i sztucznej inteligencji w infrastrukturze danych i ścisłą integrację infrastruktury danych z systemami HPC i HTC w centrach HPC w celu efektywnego przetwarzanie obszernych i złożonych wolumenów i zbiorów danych.

Wskazana Infrastruktura KMD wraz z niezbędną regionalną i ogólnokrajową siecią wsparcia będzie tworzyć krajową platformę przechowywania danych i zostanie utworzona w powiązaniu z istniejącą w Polsce naukowo-badawczą infrastrukturą informatyczną. Utworzona przez konsorcjantów infrastruktura w terminie do końca 2024 podniesie pojemność infrastruktury przechowywania danych o 200 petabajtów oraz pojemność przestrzeni taśmowej o 180 petabajtów, a zastosowany przy jej budowie model Data Lake zapewni jej dużą elastyczność. Ponadto w wyniku projektu do 2024 udostępnione zostaną efektywne ekonomicznie usługi podstawowych procesów przechowywania i zarządzania danymi oraz ich przetwarzania i analityki.

Data rozpoczęcia: 2021-01-01
Data zakończenia: 2023-12-31
Rola: Koordynator
Pochodzenie: Projekt krajowy
Finansowanie: Projekt krajowy – strukturalny/PO IR