ecology and evolution: Narzędzia statystyczne nie są łatwe, są jedynie łatwodostępne

Dostępność i nieograniczony niemal rozwój programu R spowodowały, że wiele osób dziś używa statystyki w badaniach biologicznych. Choć nie jestem bardzo stary pamiętam dobrze czasy gdy liczyłem test studenta albo chi-kwadraty na kartce, ołówkiem! Potem robiłem to w excelu. Jest to niby dobra szkoła, ale przede wszystkim okropna strata czasu. Więc rozpowszechnienie statystyki jest niewątpliwie zmianą na plus, bo mamy praktycznie nieograniczone narzędzia i to za darmo. W rezultacie, zamiast opisów prozą i wielokrotnie powtarzanych pojedynczych testów mamy dziś w pracach bardziej złożone modele, które informują nas precyzyjniej i wiarygodniej o stanie rzeczywistym. Ale równocześnie dostępność tych narzędzi niesie pewne zagrożenia i o tym jest ten post.

Od dawna staram się w miarę swoich możliwości merytorycznych i czasowych pomagać osobom, które zgłaszają się do mnie z problemami statystycznymi - w folderze "dla innych" mam obecnie 37 folderów plus trochę szwedzkich, a dla znacznej części przypadków nie zakładam folderu w ogóle (żeby była jasność: to są przypadki w których pomagam bez żadnych wynagrodzeń ani współautorstwa ewentualnych późniejszych publikacji - chociaż raz dostałem rosyjski koniak, a raz czekoladę!). Mnie też kiedyś pomagano, więc uważam że tak należy robić. Ale dzięki temu mam pewien przegląd podejść do statystyki, jakie mają ludzie początkujący w tej dziedzinie i muszę przyznać, że trochę mnie to zaczyna niepokoić. O co chodzi:

Dziś każdy może znaleźć w necie dowolny kod z Ra i zastosować go do swoich danych. Ludzie coraz częściej robią tak bez - takie odnoszę wrażenie - jakiegokolwiek zrozumienia działania danej komendy, testu, modelu, jego założeń, wymagań odnośnie danych i w ogóle logiki jego stosowania. Wystarczy zamienić nazwy obiektów na te z naszej bazy i jedziemy! Wyniki jakieś dostajemy, gwiazdki pomagają nam znaleźć prawdopodobieństwo, więc wklejamy je do publikacji/magisterki/doktoratu i gotowe. Recenzent, wobec zaawansowanego modelu o trudnej nazwie, może nie czuć się na siłach by go szczegółowo sprawdzać i dopytywać - widocznie autorzy wiedzą co robią, skoro potrafią używać tak zaawansowanych metod... Nie dotyczy to jedynie nauki, ale też różnych programów monitoringowych - tutaj często bywa jeszcze gorzej, bo zamawiający nie ma najczęściej pojęcia o analizie danych, a słowo "statystyka" kojarzy mu się z GUSem. Widziałem już takie statystyczne cuda, że łapałem się za głowę, jak można było coś takiego zrobić - ewidentnie autorzy nie mieli pojęcia o używaniu tych metod ale z pewnością nie brakowało im fantazji i odwagi. Wrzucanie do modelu równolegle wielu całkowicie uwikłanych zmiennych, cudaczne rozkłady i kosmiczne funkcje wiążące, liczba predyktorów wręcz przewyższająca liczbę obserwacji, do tego interakcje czwartego stopnia, a to wszystko na koniec wrzucone w uśrednianie albo podrasowane jakimiś permutacjami. Jednym słowem, totalnie niewiarygodny bełkot. Coraz częściej też dostaję pytania o stosowanie bardzo zaawansowanych metod (których sam nie znam!) przez osoby, które są kompletnie początkujące. Widzę też, że utrwalają się skrajnie uproszczone schematy i znaczna część ludzi postępuje wg nich, typu "jak jest dużo zer, to zaznacz opcję "zero-inflated" i gotowe". Przypomina mi to trochę podejście części ludzi do genetyki - znałem pewną panią, która chciała wszystko "robić genetycznie". Nie umiała w żaden sposób sprecyzować swojego pomysłu odnośnie sensu ani metodyki, ale chciała bardzo swoje dane "robić genetycznie", bo to teraz modne i takie mądre...

W związku z powyższym mam dwa komunikaty.

1. Do początkujących użytkowników narzędzi statystycznych:

Przede wszystkim, powinniście zrozumieć jedną rzecz: umiejętność załadowania danych do Ra i przeklejenia kodu z sieci nie sprawia jeszcze, że potraficie uzyskać wiarygodne wyniki, podobnie jak nie każdy posiadacz ostrego noża może iść operować pacjentów w szpitalu. Głównym problemem w analizach statystycznych jest nie umiejętność zastosowania danego testu, lecz wybór odpowiedniego testu do odpowiedniego problemu i ocena jego wiarygodności, a wcześniej zdefiniowanie samego problemu. Starajcie się raczej zrozumieć ideę stosowania statystyki, i spróbujcie najpierw zastanowić się nad pytaniem badawczym, zamiast okładać bez zastanowienia statystyczną maczugą każde zagadnienie, które zaświta Wam w głowach. Nie naśmiewam się - sam kiedyś byłem na tym etapie, to są ważne wskazówki.

Po drugie, nie każdy ma predyspozycje do opanowania tych wszystkich metod - one nie są proste i intuicyjne, a statystyka nie jest fizyką, gdzie raz ucząc się wzoru na objętość kuli możemy go stosować bez ograniczeń do wszystkich napotkanych kul. Nie, tak nie wygląda statystyka - tu każdy przypadek jest inny i trzeba za każdym razem samemu wydeptać sobie ścieżkę. Żeby to zrobić - trzeba rozumieć problem i rozumieć co te narzędzia robią.

Po trzecie - będąc biologiami szukamy prawdy o funkcjonowaniu świata. Ale nieodpowiednie zastosowanie statystyki oddala nas od tego celu, bo możemy względnie łatwo uzyskać wyniki odwrotne do rzeczywistości. Np. możemy uzyskać informacje, że populacja rośnie, podczas gdy populacja spada. Ten fałszywy wynik jest wizualnie nie do odróżnienia: jest podany czarno na białym, zaznaczony gwiazdkami wskazującymi istotność, tymczasem jest kompletnie nieprawdziwy. Zatem żelazna zasada brzmi: nie używaj jeśli nie rozumiesz jak to działa, a do każdego swojego wyniku podchodź z ograniczonym zaufaniem. W ogóle dobrze jest sprawdzać wyniki różnymi testami, zmieniając parametry modeli i zaczynać od prostych testów i wizualizacji: czy średnie w dwóch grupach rzeczywiście się różnią, czy porangowane nadal się różnią, itd., zanim się zacznie robić modele wieloczynnikowe.

2. Do uczących statystyki, ale też do promotorów, kierowników itp:

Po pierwsze, nie mówcie ludziom, że statystyka jest prosta. Statystyka nie jest prosta. Nie mam do nikogo pretensji, bo samemu zdarza mi się wysyłać taki komunikat, pisząc "przerzuć się na eRa, tam można łatwo to zrobić". Jest to oczywiście grube uproszczenie wprowadzające w błąd: jeśli wiesz co chcesz zrobić, to faktycznie można łatwo to zrobić w R. Ale jeśli nie wiesz, to się musisz nauczyć - tego etapu nie ominiesz. Więc nie wytwarzajcie w odbiorcach brawury i chęci skakania na głęboką wodę. Statystyka nie jest prosta a jej nauka wymaga czasu.

Po drugie, nie pędźcie tak z materiałem. Nikt, nawet uzdolniony, nie nauczy się w kilka dni zaawansowanych modeli, jakichś metod nieliniowych czy wielowymiarowych, jeśli jeszcze wczoraj nie wiedział kto to jest ten eR... Lepiej dobrze pokazać coś prostego, co uczestnik zajęć będzie faktycznie mógł potem stosować z pełną odpowiedzialnością, niż pokazać cały kalejdoskop metod, z których na każdą przypada 30 minut wyjaśnienia i ćwiczeń. Tak myślę.

Po trzecie, nie zachęcajcie zbytnio ludzi do uczenia się statystyki. Jeśli ktoś nie ma talentu, nie lubi, nie chce, i woli specjalizować się w swojej działce, to namawiajcie go do współpracy ze statystykami, zamiast wmawiać mu, że on sam też na pewno da sobie radę ze splinami w winbugsie, bo to nieprawda - nigdy nie da sobie z nimi rady. Lepiej pokazać ludziom znaczenie statystyki, niż dawać im do ręki praktyczne narzędzia w dużych ilościach bez dobrze przyswojonej instrukcji ich użycia. A przynajmniej lepiej zacząć od pokazywania znaczenia - bo jeśli ktoś nie chce statystyki, to najczęściej dlatego, że nie wie co to w ogóle jest.

Mam tu na SLU kolegę, dobrego statystyka, który pisze pakiety R, publikuje w Methods Ecol Evol i jest świetny w bayesowskich modelach z klasy N-mixtrue albo Occupancy (nie sądzę by w Polsce jakikolwiek biolog był na takim poziomie). I on jest zawsze bardzo, bardzo sceptyczny i ostrożny, ile razy z nim gadam to on uświadamia mi potencjalne pułapki, wskazuje sytuacje gdy ten czy inny model może dać mniej wiarygodne wyniki i często namawia mnie, żeby lepiej zrezygnować z tej metody zastępując ją czymś prostszym, namawia na symulacje w celu testowania modeli, często mówi, że po prostu nie wie, że ma za mało doświadczenia, itp. Idźmy raczej w tę stronę, bo w przeciwnym razie, za kilka lat wiarygodność polskiej ekologii znacznie spadnie, a w naszym środowisku pojawi się sporo wróżbitów i jasnowidzów przekonanych o swoich umiejętnościach, co gorsza popartych publikacjami.

Michał Żmihorski

niedziela, 5 lutego 2017

Narzędzia statystyczne nie są łatwe, są jedynie łatwodostępne