wtorek, 19 sierpnia 2014

Dostęp do danych biologicznych - czy proste rozwiązanie jest możliwe?

Dziś na SLU mieliśmy dyskusję dotyczącą dostępu do danych biologicznych, głównie w okół tego papieru:
 ale podobnych tekstów powstaje mnóstwo (Plos, J.WIld.Manage itp). 

Problem w skrócie polega na tym, że wiele danych jest zbieranych, publikowane są wyniki analiz powstałych na tych danych, ale do samych danych często nie ma dostępu, co sprawia, że inni badacze nie mogą sprawdzać autorów publikacji i prowadzić własnych analiz. Mamy więc sporo zebranych danych, które mogłyby "służyć" nauce, ale leżą na dyskach autorów i nie ma do nich dostępu. Co więcej, część z tych danych jest zbierana za publiczne pieniądze, więc - jak argumentują zwolennicy publicznego dostępu do danych - powinna być publicznie dostępna. 

Z drugiej strony, interesy poszczególnych badaczy kłócą się z interesem wirtualnego bytu zwanego "dobrem nauki" (jest coś takiego?). Np.: zbieram 20 lat dane o ptakach, inwestuję w to wiele energii, czasem narażam życie (odsyłam do editorials J.Wild.Manage) więc niechętnie widziałbym publikację powstałą w oparciu o moje dane, napisaną przez kogoś innego, mimo że nauka z pewnością na tym zyska. A przecież ktoś może ściągać takie dane publicznie dostępne, robiąc na nich analizy i je publikując, bez poświęcania czasu na ich zbieranie. Mając dostęp do moich danych może odkryć w nich ciekawe zależności, o których nie mam pojęcia, lub które chciałbym eksplorować w przyszłości. Poszczególni badacze nie palą się więc by zamieszczać swoje dane, choć oczywiście wszyscy deklarujemy, że dobro nauki i transparentność jest ważna.
 
W tej sytuacji powstają różne pomysły dotyczące rozwiązań problemu: niektóre czasopisma wymagają obligatoryjnego zamieszczania danych oryginalnych - ale autorzy omijają ten wymóg, zamieszczając dane niepełne, w dziwnych formatach, bez pełnych opisów itp. Powstają pomysły by stosować embargo na publikowanie/wykorzystanie danych dopiero po pewnym czasie od publikacji przez autora danych. Proponuje się też różne zasady dotyczące współudziału autora danych w nowych publikacjach - czy powinien być współautorem, czy wystarczy wymienić go w podziękowaniach, jaki powinien mieć wpływ na kształt pracy na nowo analizującej jego dane itp. Autorzy wspomnianego artykułu piszą:

simple changes can enhance existing measures to ensure that more scientific data are properly archived and made publicly available: (1) facilitate more flexible embargoes on archived data, (2) encourage communication between data generators and re-users, (3) disclose data re-use ethics, and (4) encourage increased recognition of publicly archived data.

Dwa grosze ode mnie: brnięcie w kierunku uszczegóławiania dobrych praktyk i wymuszanie na autorach publikowania danych jest złe. Nie wierzę, że będzie faktycznie funkcjonować zasada, która wymaga więcej niż jednej kartki papieru na jej zapisanie - tworzenie kilkusestronicowych dobrych praktyk jest zawsze warte tyle samo, czyli około 20 groszy za kilogram... Problem jest złożony ale jedyne rozsądne podejście, które przychodzi mi do głowy to: dane oryginalne mogą być udostępniane obligatoryjnie jeśli właściciel (autor) danych ma do nich prawa autorskie chronione prawnie.

Jeśli ktoś chce ich użyć, kontaktuje się z autorem, może negocjować jego udział w nowej pracy (część właścicieli będzie chciała być współautorem, niektórzy nawet pierwszymi (bo zbierałem 25 lat...), części wystarczy wymienienie w podziękowaniach, a może część będzie chciała sprzedać swoje dane - dlaczego dobry terenowiec nie mógłby generować ciekawych danych i z tego żyć??), przy czym właściciel ma prawo veta - może nie zgodzić się na użycie jego danych, bo akurat napisał pracę na dokładnie tych samych analizach na tych danych, albo nie zgadza się na taką interpretację analiz powstałych o jego dane (bo zna je lepiej i wie, że nie nadają się do testowania niektórych hipotez). Zmuszanie właścicieli do udostępniania danych, bez ochrony prawnej, skutkuje (i) unikaniem udostępniania na różne sposoby, w tym udostępnianie danych jakoś zaszumionych (pozdrownienia dla robiących metaanalizy) (ii) zniechęcaniem do zbierania długoterminowych danych, (iii) nadużyciami ze strony innych badaczy, którzy nie zawsze muszą przestrzegać dobrych praktyk. 

Co Wy na to?
michał żmihorski

PS otwartą pozostawiam kwestię, czy właścicielem danych z grantu NCN/NCBIR jest autor, uniwersytet, NCN, Państwo Polskie, czy Unia Europejska ;-)