zarządzanie danymi badawczymi
PRZYGOTOWANIE DANYCH
DO udostępnienia

Jak przygotować dane do udostępnienia?
Przed udostępnieniem danych badawczych w sposób otwarty należy zadbać o kilka kwestii, takich jak przemyślany proces selekcji danych, dobór odpowiednich formatów plików, przygotowanie szczegółowej dokumentacji i metadanych.
Selekcja
Pierwszym krokiem w procesie przygotowania danych badawczych do udostępnienia jest ich selekcja.
Jeżeli w ramach projektu badawczego powstały duże ilości danych, może pojawić się dylemat, które z nich – w obliczu ograniczonego budżetu w projekcie – udostępnić szerokiemu gronu odbiorców. Warto zwrócić uwagę na poniższe kwestie.
Do udostępnienia jakich danych jesteśmy zobowiązani?
Źródłem takich zobowiązań najczęściej będą polityki instytucji naukowej, instytucji finansującej lub czasopisma, regulujące kwestie zarządzania danymi badawczymi. Do udostępnienia określonych zasobów mogliśmy też zobowiązać się w planie zarządzania danymi.
Jakich danych udostępnić nam nie wolno?
Ograniczenia w tym zakresie mogą wynikać np. z obowiązujących przepisów prawa powszechnego lub z zawartej przez nas umowy.
Na udostępnienie jakich danych nas nie stać?
Jeśli odpowiednie opracowanie i udokumentowanie danych wykracza poza nasz budżet, siłą rzeczy takich danych nie udostępnimy.
Warto pamiętać, że okoliczności mogą ulec zmianie. Dane, których nie można udostępnić, warto traktować jak zasób, który być może będzie można udostępnić w przyszłości. Warto zatem zachować same dane oraz ich istniejącą dokumentację. Należy wziąć pod uwagę wartość naukową lub historyczną zebranych danych, ich unikalność, możliwość ponownego wytworzenia, koszt ponownego wytworzenia danych.
formaty
Należy zadbać o nadanie plikom z danymi i dokumentacją określonego formatu.
Wiele repozytoriów – w tym Dane Badawcze UW – preferuje otwarte formaty plików, w wypadku których nie występują zwykle trudności z ich otwarciem lub analizą za pomocą darmowego oprogramowania. Przy wykorzystaniu formatów tego rodzaju, ze względu na otwarty charakter ich dokumentacji, nawet po wielu latach nie powinno być problemu z ich przekonwertowaniem na inne, nowe formaty – również takie, które obecnie jeszcze nie istnieją.
Udostępnianie danych w formatach otwartych nie wyklucza bieżącej pracy z wykorzystaniem formatów zamkniętych, często bardzo popularnych. Istotne jest to, aby w momencie przygotowania danych do udostępnienia przekonwertować je na formaty otwarte i udostępnić w takiej postaci.
Dopuszczalne jest też zdeponowanie danych w dwóch formatach: zamkniętym (ale często popularnym) oraz otwartym. Takie rozwiązanie ułatwia wykorzystanie danych zarówno tym osobom, które preferują popularne formaty zamknięte i dysponują odpowiednim oprogramowaniem, jak i osobom, którym w przyszłości może być łatwiej prowadzić analizy z wykorzystaniem formatów otwartych.
Formaty plików
Zalecane formaty plików i wytyczne dotyczące przygotowania danych tabelarycznych
Typ danych | Rozszerzenie / formaty | Wskazówki |
---|---|---|
Tekst |
| Jeśli plik zawiera fragment kodu, a wykorzystano płatne biblioteki, należy – o ile to możliwe – przekonwertować plik do „waniliowej” wersji. Jeśli to niemożliwe, należy w opisie zbioru wymienić stosowane biblioteki. Można również dodać kopię pliku zapisaną jako plain text (.txt) |
Obrazy |
| |
Audio |
| |
Wideo |
| Dane filmowe zasadniczo są skompresowane i jest to zjawisko pożądane. Jeśli w danym obszarze badań jest potrzeba zachowania danych filmowych nieskompresowanych, zazwyczaj używa się autorskich formatów. |
Archiwa |
| |
CAD |
| Formaty SLDPRT oraz IGS można konwertować na STEP. |
Dane tabelaryczne |
| Przygotowanie plików CSV:
|
Arkusze kalkulacyjne |
| Każdy plik powinien:
|
DOKUMENTACJA I METADANE
Deponowanym danym powinny towarzyszyć odpowiednie metadane oraz dokumentacja.
Z perspektywy naukowca dodawanie metadanych (informacji o danych) w repozytorium Dane Badawcze UW polega na uzupełnieniu gotowego formularza. Raz wprowadzone metadane mogą być pobierane z repozytorium w kilku popularnych formatach.
Zbiór danych powinna również uzupełniać dokumentacja zawierająca wszystkie informacje niezbędne do zrozumienia i właściwej interpretacji udostępnianych danych. Elementem dokumentacji może być plik README.txt, który porządkuje tego rodzaju treści. Szablon pliku readme.
Jeśli udostępniane dane lub metadane nie są kompletne, w dokumentacji należy zawrzeć informację dotyczącą tego, co i z jakich powodów nie znalazło się w zbiorze danych.
DOI, czyli trwały identyfikator
W odniesieniu do danych badawczych najważniejszym rodzajem identyfikatora jest DOI (ang. digital object identifier).
Z perspektywy naukowca uzyskanie identyfikatora DOI dla zbioru danych w praktyce sprowadza się do trafnego wyboru repozytorium. W wypadku repozytorium Dane Badawcze UW identyfikator DOI nadawany jest automatycznie każdemu zbiorowi danych na etapie zapisania wersji roboczej zbioru.