zarządzanie danymi badawczymi

przechowywanie danych

Przechowywanie danych

Bieżąca praca z danymi

w procesie prowadzenia badań w sposób efektywny i odpowiedzialny szczególnie istotne jest bezpieczeństwo danych. Należy o nie dbać już na etapie realizacji projektu, kiedy dane są na bieżąco wytwarzane, opisywane i analizowane.

Materiały stanowiące podstawę wszelkich dalszych prac powinny podlegać szczególnej ochronie.

Należy je przechowywać w oddzielnej lokalizacji i zabezpieczyć przed zmianami, aby nie zostały nadpisane czy skasowane. Można skorzystać z ustawień plików tylko do odczytu. Dalsze prace należy prowadzić na kopiach, dokumentując kolejne etapy badań, w tym procedury i metody.

W toku realizacji projektu powstają często kolejne wersje plików z danymi, które mogą być przetwarzane i wzbogacane o inne dane lub poddawane analizom zgodnie z przyjętymi założeniami metodologicznymi. Kontrola wersji pełni istotną funkcję w zapewnieniu bezpieczeństwa plików i gwarantuje integralność danych.

Dobrym rozwiązaniem jest osobne przechowywanie kopii głównych plików i tymczasowych kopii roboczych oraz przyjęcie ścisłych zasad wersjonowania i synchronizowania plików w różnych lokalizacjach.

Regularne tworzenie kopii zapasowych jest dobrą praktyką, pozwalającą zapobiegać utracie danych.

Standardowym i rekomendowanym rozwiązaniem jest zasada 3–2–1: należy przechowywać trzy kopie plików na dwóch różnych nośnikach, w tym jednym w innej lokalizacji geograficznej. 

Zarówno stworzenie planu zarządzania danymi badawczymi, jak i jego późniejsza realizacja wymagają przemyślenia następujących kwestii:
– sposób tworzenia kopii zapasowych, 
– miejsce przechowywania kopii zapasowych, 
– częstotliwość tworzenia kopii oraz ich liczba, 
– procedura odzyskiwania utraconych danych, 
– podział odpowiedzialności za tworzenie kopii zapasowych i za odzyskiwanie danych wśród członków zespołu.

Jest jednym ze środków zabezpieczających przed niepożądanym ujawnieniem danych.

Należy stosować bezpieczne algorytmy z kluczem publicznym (klucz szyfrujący publiczny jest inny niż klucz deszyfrujący – prywatny), przy czym należy pamiętać o przechowywaniu klucza prywatnego w bezpiecznym miejscu, niedostępnym dla osób nieuprawnionych. 

Dane można również umieszczać na uprzednio zaszyfrowanych partycjach dyskowych, przesyłając je szyfrowanymi protokołami komunikacji sieciowej. Zarówno szyfrowanie danych, jak i bezpieczna komunikacja sieciowa powinny być realizowane przez specjalistyczne oprogramowanie, najlepiej wybrane przez dział IT instytucji naukowej.

przechowywanie danych podczas projektu

Ogólne zasady przechowywania danych mają na celu zminimalizowanie ryzyka związanego z utratą, uszkodzeniem lub nieuzasadnioną zmianą danych. Awaria, zniszczenie czy utrata sprzętu mogą poważnie zagrozić realizacji projektu. Powtórne zebranie utraconych danych często nie jest możliwe. Inne ryzyko może wiązać się z przedwczesnym lub nieplanowanym udostępnieniem danych.

Przechowywanie danych podczas realizacji projektu powinno uwzględniać bieżące potrzeby związane m.in. z warunkami zbierania danych (np. pracą w terenie, wykorzystaniem określonej aparatury lub sprzętu), z opracowywaniem i analizowaniem danych (np. współpracą z innymi członkami zespołu) czy z ochroną szczególnego typu danych (np. danych osobowych, danych osobowych wrażliwych, danych objętych klauzulą poufności).

Strategia przechowywania danych badawczych wymaga określenia miejsc przechowywania danych oraz procedur związanych z kopiowaniem, modyfikowaniem, wersjonowaniem, usuwaniem, a także udzielaniem dostępu do danych. Może ona obejmować ponadto ustalenie różnych poziomów ochrony w zależności od możliwych ryzyk związanych z ujawnieniem, uszkodzeniem czy utratą danych.

długoterminowe przechowywanie danych

Przechowywanie danych po zakończeniu realizacji projektu powinno uwzględniać zobowiązania wynikające z umów grantowych bądź polityk instytucji prowadzących i finansujących badania, a także dobre praktyki i standardy przyjęte w konkretnej dziedzinie lub obszarze badań. Należy ocenić wartość naukową lub historyczną danych w odniesieniu do aktualnego stanu wiedzy, unikalność danych, potencjał do ponownego wykorzystania, jakość danych i kompletność dokumentacji.

Długoterminowe przechowywanie danych nie może ograniczać się do zwykłego składowania danych. Należy wziąć pod uwagę zachodzący z czasem proces degradacji danych oraz ryzyko wyjścia z użytku określonych nośników danych, formatów plików czy oprogramowania służącego do ich odczytywania. Zapewnienie bezpieczeństwa i integralności danych wymaga zaplanowanych i systematycznych działań, które wiążą się z konkretnymi kosztami.

W zakresie danych przeznaczonych do udostępnienia właściwym rozwiązaniem jest skorzystanie z repozytorium danych. Repozytorium realizuje własną politykę długoterminowego przechowywania danych, np. rekomenduje deponowanie plików w określonych formatach oraz regularnie sprawdza sumy kontrolne, a w razie niezgodności odzyskuje kopie zapasowe przechowywane w innej lokalizacji.

Własne strategie i rozwiązania techniczne zapewniać powinny także instytucje prowadzące badania, zwłaszcza w zakresie danych, które nie są przeznaczone do udostępniania i muszą być objęte szczególną ochroną, np. danych osobowych.

Długoterminowe przechowywanie danych wiąże się także z selekcją danych. Zachowanie wszystkich danych może być niemożliwe ze względów finansowych. Ilość wytwarzanych i zbieranych danych stale wzrasta, co przekłada się na coraz wyższe koszty ich przechowywania, tworzenia kopii zapasowych i prowadzenia aktywnej polityki zapewniającej bezpieczeństwo danych.

MIEJSCA PRZECHOWYWANIA DANYCH

Wybierając miejsce przechowywania danych, należy rozważyć kwestie takie jak istotne ramy prawne i polityki, bezpieczeństwo, cel związany z etapem realizacji projektu, uwarunkowania techniczne (np. rozmiar danych), koszty.

Zewnętrzne dyski twarde, dyski flash i płyty CD

Odpowiednie wyłącznie do tymczasowego, krótkotrwałego przechowywania danych lub do przenoszenia danych, gdy transmisja online nie jest możliwa. Urządzenia powinny być zabezpieczone silnym hasłem i szyfrowaniem, a ich sprawność podlegać regularnej kontroli.

np. instytucjonalne Google Drive, OneDrive, Dropbox, Nextcloud

Przydatne do zapewniania zdalnego i łatwego dostępu do danych i innych informacji wszystkim osobom zaangażowanym w projekt. Nie powinny być jedynym rozwiązaniem stosowanym do przechowywania i tworzenia kopii zapasowych ani służyć do przechowywania nieszyfrowanych danych osobowych. Warunki korzystania powinny zostać sprawdzone pod kątem praw usługodawcy do korzystania z treści. Pierwszeństwo przysługuje usługom europejskim, krajowym lub instytucjonalnym, które przechowują dane w Europie.

Komputery i laptopy

Odpowiednie tylko w wypadku projektów, w których bierze udział niewiele osób (najlepiej tylko jedna) i w których dane i pliki nie muszą być często przenoszone między komputerami osobistymi. Plan pracy z wykorzystaniem różnych lokalnych komputerów, np. prywatnego laptopa i komputera stacjonarnego w miejscu zatrudnienia, powinien uwzględniać procedurę kontroli tworzenia kopii zapasowych oraz kontrolę wersji plików.

Dyski współdzielone na serwerach instytucji naukowej

Odpowiednie w projektach realizowanych we współpracy z wieloma osobami, które potrzebują dostępu do danych. Konieczna jest przy tym kontrola dostępu i uprawnień. Powinny być używane w połączeniu z odpowiednią strategią bezpieczeństwa i szczegółowymi zasadami wersjonowania, a także strategią długoterminowego archiwizowania.