zarządzanie danymi badawczymi

PRZYGOTOWANIE DANYCH
DO udostępnienia

Jak przygotować dane do udostępnienia?

Przed udostępnieniem danych badawczych w sposób otwarty należy zadbać o kilka kwestii, takich jak przemyślany proces selekcji danych, dobór odpowiednich formatów plików, przygotowanie szczegółowej dokumentacji i metadanych.

Selekcja

Pierwszym krokiem w procesie przygotowania danych badawczych do udostępnienia jest ich selekcja.

Jeżeli w ramach projektu badawczego powstały duże ilości danych, może pojawić się dylemat, które z nich – w obliczu ograniczonego budżetu w projekcie  – udostępnić szerokiemu gronu odbiorców. Warto zwrócić uwagę na poniższe kwestie.

Do udostępnienia jakich danych jesteśmy zobowiązani?
Źródłem takich zobowiązań najczęściej będą polityki instytucji naukowej, instytucji finansującej lub czasopisma, regulujące kwestie zarządzania danymi badawczymi. Do udostępnienia określonych zasobów mogliśmy też zobowiązać się w planie zarządzania danymi.

Jakich danych udostępnić nam nie wolno?
Ograniczenia w tym zakresie mogą wynikać np. z obowiązujących przepisów prawa powszechnego lub z zawartej przez nas umowy.

Na udostępnienie jakich danych nas nie stać?
Jeśli odpowiednie opracowanie i udokumentowanie danych wykracza poza nasz budżet, siłą rzeczy takich danych nie udostępnimy.

Warto pamiętać, że okoliczności mogą ulec zmianie. Dane, których nie można udostępnić, warto traktować jak zasób, który być może będzie można udostępnić w przyszłości. Warto zatem zachować same dane oraz ich istniejącą dokumentację. Należy wziąć pod uwagę wartość naukową lub historyczną zebranych danych, ich unikalność, możliwość ponownego wytworzenia, koszt ponownego wytworzenia danych.

formaty

Należy zadbać o nadanie plikom z danymi i dokumentacją określonego formatu.

Wiele repozytoriów – w tym Dane Badawcze UW – preferuje otwarte formaty plików, w wypadku których nie występują zwykle trudności z ich otwarciem lub analizą za pomocą darmowego oprogramowania. Przy wykorzystaniu formatów tego rodzaju, ze względu na otwarty charakter ich dokumentacji, nawet po wielu latach nie powinno być problemu z ich przekonwertowaniem na inne, nowe formaty – również takie, które obecnie jeszcze nie istnieją. 

Udostępnianie danych w formatach otwartych nie wyklucza bieżącej pracy z wykorzystaniem formatów zamkniętych, często bardzo popularnych. Istotne jest to, aby w momencie przygotowania danych do udostępnienia przekonwertować je na formaty otwarte i udostępnić w takiej postaci.

Dopuszczalne jest też zdeponowanie danych w dwóch formatach: zamkniętym (ale często popularnym) oraz otwartym. Takie rozwiązanie ułatwia wykorzystanie danych zarówno tym osobom, które preferują popularne formaty zamknięte i dysponują odpowiednim oprogramowaniem, jak i osobom, którym w przyszłości może być łatwiej prowadzić analizy z wykorzystaniem formatów otwartych. 

Formaty plików

Zalecane formaty plików i wytyczne dotyczące przygotowania danych tabelarycznych

Typ danychRozszerzenie / formatyWskazówki
Tekst
  • txt
  • odt
  • html
  • xml
  • formaty natywne danego języka programowania
Jeśli plik zawiera fragment kodu, a wykorzystano płatne biblioteki, należy – o ile to możliwe – przekonwertować plik do „waniliowej” wersji. Jeśli to niemożliwe, należy w opisie zbioru wymienić stosowane biblioteki. Można również dodać kopię pliku zapisaną jako plain text (.txt)
Obrazy
  • png
  • jpeg2000
  • tiff
Audio
  • wav
Wideo
  • mkv
  • ogg
  • ogv
  • mp4 (dopuszczalne)
  • mov (dopuszczalne)
Dane filmowe zasadniczo są skompresowane i jest to zjawisko pożądane. Jeśli w danym obszarze badań jest potrzeba zachowania danych filmowych nieskompresowanych, zazwyczaj używa się autorskich formatów.
Archiwa
  • zip
CAD
  • step
Formaty SLDPRT oraz IGS można konwertować na STEP.
Dane tabelaryczne
  • csv
  • tab
  • ods
  • rdata
  • sav/spv
Przygotowanie plików CSV:
  • kodowanie typu UTF-8
  • separator tekstu: cudzysłów
  • zmienne liczbowe nie powinny być ujęte w cudzysłów, bo wtedy przy automatycznej analizie zmienna zostanie potraktowana jako tekst,
  • separator dziesiętny: kropka
  • separator pól: przecinek lub średnik
  • pierwszy wiersz zarezerwowany dla nazw zmiennych (kolumn)
  • wszystkie niepuste kolumny muszą mieć unikalne nazwy
Arkusze kalkulacyjne
  • xlsx
  • ods
Każdy plik powinien:
  • składać się z jednego tylko arkusza danych
  • zawierać tylko jedną tabelę w układzie pionowym, tj. każda użyta kolumna powinna zawierać jedną zmienną, a poszczególne wiersze – wartości zmiennych dla jednego przypadku,
  • nie zawierać komórek scalonych
  • nie zawierać pustych kolumn ani wierszy: tabela powinna zaczynać się od komórki A1,
  • tabela powinna zaczynać się od komórki A1
  • w wierszu 1. zawierać wyłącznie kompletne nazwy zmiennych,
  • od wiersza 2. aż do końca zawierać tylko wartości zmiennych,
  • nie zawierać komentarzy, objaśnień stosowanych jednostek i skrótów, opisów warunków pomiaru itp. – te powinny się znaleźć w opisie pliku, opisie zbioru i/lub w specjalnie przygotowanym pliku readme.txt (wzór)

DOKUMENTACJA I METADANE

Deponowanym danym powinny towarzyszyć odpowiednie metadane oraz dokumentacja.

Z perspektywy naukowca dodawanie metadanych (informacji o danych) w repozytorium Dane Badawcze UW polega na uzupełnieniu gotowego formularza. Raz wprowadzone metadane mogą być pobierane z repozytorium w kilku popularnych formatach.

Zbiór danych powinna również uzupełniać dokumentacja zawierająca wszystkie informacje niezbędne do zrozumienia i właściwej interpretacji udostępnianych danych. Elementem dokumentacji może być plik README.txt, który porządkuje tego rodzaju treści. Szablon pliku readme.

Jeśli udostępniane dane lub metadane nie są kompletne, w dokumentacji należy zawrzeć informację dotyczącą tego, co i z jakich powodów nie znalazło się w zbiorze danych.

DOI, czyli trwały identyfikator

W odniesieniu do danych badawczych najważniejszym rodzajem identyfikatora jest DOI (ang. digital object identifier).

Z perspektywy naukowca uzyskanie identyfikatora DOI dla zbioru danych w praktyce sprowadza się do trafnego wyboru repozytorium. W wypadku repozytorium Dane Badawcze UW identyfikator DOI nadawany jest automatycznie każdemu zbiorowi danych na etapie zapisania wersji roboczej zbioru.