niedziela, 5 lutego 2017

Narzędzia statystyczne nie są łatwe, są jedynie łatwodostępne

Dostępność i nieograniczony niemal rozwój programu R spowodowały, że wiele osób dziś używa statystyki w badaniach biologicznych. Choć nie jestem bardzo stary pamiętam dobrze czasy gdy liczyłem test studenta albo chi-kwadraty na kartce, ołówkiem! Potem robiłem to w excelu. Jest to niby dobra szkoła, ale przede wszystkim okropna strata czasu. Więc rozpowszechnienie statystyki jest niewątpliwie zmianą na plus, bo mamy praktycznie nieograniczone narzędzia i to za darmo. W rezultacie, zamiast opisów prozą i wielokrotnie powtarzanych pojedynczych testów mamy dziś w pracach bardziej złożone modele, które informują nas precyzyjniej i wiarygodniej o stanie rzeczywistym. Ale równocześnie dostępność tych narzędzi niesie pewne zagrożenia i o tym jest ten post. 

Od dawna staram się w miarę swoich możliwości merytorycznych i czasowych pomagać osobom, które zgłaszają się do mnie z problemami statystycznymi - w folderze "dla innych" mam obecnie 37 folderów plus trochę szwedzkich, a dla znacznej części przypadków nie zakładam folderu w ogóle (żeby była jasność: to są przypadki w których pomagam bez żadnych wynagrodzeń ani współautorstwa ewentualnych późniejszych publikacji - chociaż raz dostałem rosyjski koniak, a raz czekoladę!). Mnie też kiedyś pomagano, więc uważam że tak należy robić. Ale dzięki temu mam pewien przegląd podejść do statystyki, jakie mają ludzie początkujący w tej dziedzinie i muszę przyznać, że trochę mnie to zaczyna niepokoić. O co chodzi:

Dziś każdy może znaleźć w necie dowolny kod z Ra i zastosować go do swoich danych. Ludzie coraz częściej robią tak bez - takie odnoszę wrażenie - jakiegokolwiek zrozumienia działania danej komendy, testu, modelu, jego założeń, wymagań odnośnie danych i w ogóle logiki jego stosowania. Wystarczy zamienić nazwy obiektów na te z naszej bazy i jedziemy! Wyniki jakieś dostajemy, gwiazdki pomagają nam znaleźć prawdopodobieństwo, więc wklejamy je do publikacji/magisterki/doktoratu i gotowe. Recenzent, wobec zaawansowanego modelu o trudnej nazwie, może nie czuć się na siłach by go szczegółowo sprawdzać i dopytywać - widocznie autorzy wiedzą co robią, skoro potrafią używać tak zaawansowanych metod... Nie dotyczy to jedynie nauki, ale też różnych programów monitoringowych - tutaj często bywa jeszcze gorzej, bo zamawiający nie ma najczęściej pojęcia o analizie danych, a słowo "statystyka" kojarzy mu się z GUSem. Widziałem już takie statystyczne cuda, że łapałem się za głowę, jak można było coś takiego zrobić - ewidentnie autorzy nie mieli pojęcia o używaniu tych metod ale z pewnością nie brakowało im fantazji i odwagi. Wrzucanie do modelu równolegle wielu całkowicie uwikłanych zmiennych, cudaczne rozkłady i kosmiczne funkcje wiążące, liczba predyktorów wręcz przewyższająca liczbę obserwacji, do tego interakcje czwartego stopnia, a to wszystko na koniec wrzucone w uśrednianie albo podrasowane jakimiś permutacjami. Jednym słowem, totalnie niewiarygodny bełkot. Coraz częściej też dostaję pytania o stosowanie bardzo zaawansowanych metod (których sam nie znam!) przez osoby, które są kompletnie początkujące. Widzę też, że utrwalają się skrajnie uproszczone schematy i znaczna część ludzi postępuje wg nich, typu "jak jest dużo zer, to zaznacz opcję "zero-inflated" i gotowe". Przypomina mi to trochę podejście części ludzi do genetyki - znałem pewną panią, która chciała wszystko "robić genetycznie". Nie umiała w żaden sposób sprecyzować swojego pomysłu odnośnie sensu ani metodyki, ale chciała bardzo swoje dane "robić genetycznie", bo to teraz modne i takie mądre...

W związku z powyższym mam dwa komunikaty.
 
1. Do początkujących użytkowników narzędzi statystycznych:
Przede wszystkim, powinniście zrozumieć jedną rzecz: umiejętność załadowania danych do Ra i przeklejenia kodu z sieci nie sprawia jeszcze, że potraficie uzyskać wiarygodne wyniki, podobnie jak nie każdy posiadacz ostrego noża może iść operować pacjentów w szpitalu. Głównym problemem w analizach statystycznych jest nie umiejętność zastosowania danego testu, lecz wybór odpowiedniego testu do odpowiedniego problemu i ocena jego wiarygodności, a wcześniej zdefiniowanie samego problemu. Starajcie się raczej zrozumieć ideę stosowania statystyki, i spróbujcie najpierw zastanowić się nad pytaniem badawczym, zamiast okładać bez zastanowienia statystyczną maczugą każde zagadnienie, które zaświta Wam w głowach. Nie naśmiewam się - sam kiedyś byłem na tym etapie, to są ważne wskazówki.
Po drugie, nie każdy ma predyspozycje do opanowania tych wszystkich metod - one nie są proste i intuicyjne, a statystyka nie jest fizyką, gdzie raz ucząc się wzoru na objętość kuli możemy go stosować bez ograniczeń do wszystkich napotkanych kul. Nie, tak nie wygląda statystyka - tu każdy przypadek jest inny i trzeba za każdym razem samemu wydeptać sobie ścieżkę. Żeby to zrobić - trzeba rozumieć problem i rozumieć co te narzędzia robią.
Po trzecie - będąc biologiami szukamy prawdy o funkcjonowaniu świata. Ale nieodpowiednie zastosowanie statystyki oddala nas od tego celu, bo możemy względnie łatwo uzyskać wyniki odwrotne do rzeczywistości. Np. możemy uzyskać informacje, że populacja rośnie, podczas gdy populacja spada. Ten fałszywy wynik jest wizualnie nie do odróżnienia: jest podany czarno na białym, zaznaczony gwiazdkami wskazującymi istotność, tymczasem jest kompletnie nieprawdziwy. Zatem żelazna zasada brzmi: nie używaj jeśli nie rozumiesz jak to działa, a do każdego swojego wyniku podchodź z ograniczonym zaufaniem. W ogóle dobrze jest sprawdzać wyniki różnymi testami, zmieniając parametry modeli i zaczynać od prostych testów i wizualizacji: czy średnie w dwóch grupach rzeczywiście się różnią, czy porangowane nadal się różnią, itd., zanim się zacznie robić modele wieloczynnikowe.

2. Do uczących statystyki, ale też do promotorów, kierowników itp:
Po pierwsze, nie mówcie ludziom, że statystyka jest prosta. Statystyka nie jest prosta. Nie mam do nikogo pretensji, bo samemu zdarza mi się wysyłać taki komunikat, pisząc "przerzuć się na eRa, tam można łatwo to zrobić". Jest to oczywiście grube uproszczenie wprowadzające w błąd: jeśli wiesz co chcesz zrobić, to faktycznie można łatwo to zrobić w R. Ale jeśli nie wiesz, to się musisz nauczyć - tego etapu nie ominiesz. Więc nie wytwarzajcie w odbiorcach brawury i chęci skakania na głęboką wodę. Statystyka nie jest prosta a jej nauka wymaga czasu.
Po drugie, nie pędźcie tak z materiałem. Nikt, nawet uzdolniony, nie nauczy się w kilka dni zaawansowanych modeli, jakichś metod nieliniowych czy wielowymiarowych, jeśli jeszcze wczoraj nie wiedział kto to jest ten eR... Lepiej dobrze pokazać coś prostego, co uczestnik zajęć będzie faktycznie mógł potem stosować z pełną odpowiedzialnością, niż pokazać cały kalejdoskop metod, z których na każdą przypada 30 minut wyjaśnienia i ćwiczeń. Tak myślę.
Po trzecie, nie zachęcajcie zbytnio ludzi do uczenia się statystyki. Jeśli ktoś nie ma talentu, nie lubi, nie chce, i woli specjalizować się w swojej działce, to namawiajcie go do współpracy ze statystykami, zamiast wmawiać mu, że on sam też na pewno da sobie radę ze splinami w winbugsie, bo to nieprawda - nigdy nie da sobie z nimi rady. Lepiej pokazać ludziom znaczenie statystyki, niż dawać im do ręki praktyczne narzędzia w dużych ilościach bez dobrze przyswojonej instrukcji ich użycia. A przynajmniej lepiej zacząć od pokazywania znaczenia - bo jeśli ktoś nie chce statystyki, to najczęściej dlatego, że nie wie co to w ogóle jest.
 
Mam tu na SLU kolegę, dobrego statystyka, który pisze pakiety R, publikuje w Methods Ecol Evol i jest świetny w bayesowskich modelach z klasy N-mixtrue albo Occupancy (nie sądzę by w Polsce jakikolwiek biolog był na takim poziomie). I on jest zawsze bardzo, bardzo sceptyczny i ostrożny, ile razy z nim gadam to on uświadamia mi potencjalne pułapki, wskazuje sytuacje gdy ten czy inny model może dać mniej wiarygodne wyniki i często namawia mnie, żeby lepiej zrezygnować z tej metody zastępując ją czymś prostszym, namawia na symulacje w celu testowania modeli, często mówi, że po prostu nie wie, że ma za mało doświadczenia, itp. Idźmy raczej w tę stronę, bo w przeciwnym razie, za kilka lat wiarygodność polskiej ekologii znacznie spadnie, a w naszym środowisku pojawi się sporo wróżbitów i jasnowidzów przekonanych o swoich umiejętnościach, co gorsza popartych publikacjami.
 
Michał Żmihorski

24 komentarze:

  1. Narzędzia są łatwe w użyciu i to dobrze, to wnioskowanie statystyczne jest trudne.
    Ale co do 'nie zachęcajcie zbytnio ludzi do uczenia się statystyki' -- trudno mi wyobrazić sobie specjalistę w naukach empirycznych, który nie potrafi wnioskować w oparciu o dane czy to zebrane przez siebie, czy opisane w artykule innej osoby.
    Przynajmniej znajomość bierna wnioskowania jest potrzebna (potrafię przeczytać i zrozumieć wyniki innej osoby).
    Studia to mało czasu na solidną naukę wnioskowania, dlatego też warto rozpocząć kształcenie statystyczne w szkole średniej lub podstawowej. np. z projektem Beta-Bit http://betabit.wiki/warsztaty/

    I w temacie cytat z Franka Harrella - Jeżeli przeznaczyłeś milion dolarów na zebranie danych i tysiąc dolarów na ich analizę, to całość jest warta nie więcej niż tysiąc dolarów.

    pozdrawiam
    Przemek

    OdpowiedzUsuń
    Odpowiedzi
    1. być może wyraziłem się nieprecyzyjnie - chodzi mi o to, że nie ma sensu zmuszać niektórych by uczyli się statystyki na jakimś zaawansowanym poziomie. Oczywiście każdy powinien umieć zinterpretować podstawowe wyniki, by w ogóle czytać literaturę naukową. Ale chodzi mi o pomysł by z każdego zrobić statystycznie samowystarczalną osobę. Myślę, że to nierealne i o to mi chodziło.

      Twój projekt Beta-Bit jest absolutnie super, bo właśnie ułatwia wyławianie talentów ale też daje każdemu podstawę do zrozumienia języka statystycznego. Nie neguję tego. Ale później, już na poziomie zespołów badawczych, trzeba się specjalizować i współpracować.

      Usuń
  2. W tym co piszesz Michał jest sporo racji, ale wydaje mi się, że jednak większy mętlik jest tworzony przez osoby, które używają statystycznych programów okienkowych, jak Statistica czy SPSS. Używanie R-a wymaga jednak zrozumienia składni komend. Nie da się tak po prostu przekopiować kodu z netu i go odpalić na swoich danych. Trzeba przynajmniej wiedzieć, gdzie co pozmieniać. A już to wymaga chociaż przeczytania tego kodu i opisu czego ta składnia dotyczy. Wydaje mi się też, że mało jest osób raczkujących w statystyce i używających R. Największe "kwiatki" widziałem przy używaniu Statistici, bo tam w ogóle nic nie trzeba umieć, nawet nie trzeba wiedzieć która zmienna jest x, a która y. Dlatego jeśli ktoś chce używać R-a, to niech używa do woli, lepsze jest to chyba od zupełnie bezmyślnego klikania w Statistikę czy inny program podobnego typu.

    OdpowiedzUsuń
    Odpowiedzi
    1. z ostatnim zdaniem się zgadzam, ale nie jestem przekonany, że łatwiej o błąd w SPSSie niż w R. W R jedną literą 't' możemy przewrócić na bok macierz, czego przypadkowo raczej nie zrobimy w excelu, bo to wymaga więcej pracy :-) Generalnie te pogramy są inne i mają inne pułapki. W obu przypadkach jednak trzeba rozumieć co się robi i brak tego zrozumienia mnie najbardziej niepokoi.

      Usuń
    2. To prawda, że nie ma co się uczyć statystyki...najlepiej być frajerem, który odwali całą robotę w terenie/labie a następnie będzie błagał "znawcę" statystyki o analizę danych...za jedyne współautorstwo...
      Proszę nie uczcie się pisać prac naukowych...zawsze znajdzie się "uczynny", który napisze za Was...za jedyne współautorstwo...
      Takich bredni dawno nie czytałem...

      Usuń
    3. chyba niewiele zrozumiałeś - proponuję przeczytaj jeszcze raz na spokojnie

      Usuń
    4. może, ale przy tym poście powinna być informacja "materiał promocyjny/reklamowy"

      Usuń
    5. że niby ja czekam na dane? Tzn "nie uczcie się, ja wam policzę za drobnym wynagrodzeniem"? :-)

      Usuń
    6. kwestia to nie w tym czy rozumie się język kodu lecz w tym czy wie co się chce przetestować, więc to o czym piszecie w sprawie r i spss, czy jakiegokolwiek programu jest totalnym absurdem. Z doświadczenia, unikam tzw. statystyków biologów, dlatego że każdy statystyk powie wam że to nie ważne czy gracie w r, paście, czy Excelu, czy może liczycie na kartce. Problem polega na tym czy w ogóle wiecie co robicie. To co obserwuję z przerażeniem, to fakt że zamiast statystyki obecnie uczy się obsługi R,...

      Usuń
    7. zrozumienie języka kodu jest również ważne żeby poprawnie skonstruować analizę. Nie będę chyba zbyt odkrywczy twierdząc, że żeby rozwiązać problem musimy wiedzieć zarówno co chcemy zrobić i jak to zrobić.

      Usuń
  3. Sprawa nie jest prosta. Owszem, nie ma co zachęcać ludzi mających marne podstawy statystyki do używania zaawansowanych modeli. Z drugiej strony często wygląda to inaczej: ktoś wysyła maszynopis z prostymi analizami, a recenzenci proponują zastosowanie metody xyz. I wtedy, często nie mając kolegi, który się na tym zna, takie osoby próbują zastosować metodę xyz i coś tam wychodzi. A wydaje mi się, że wielokrotnie ta metoda xyz wcale nie jest potrzebna. Oczywiście, przyroda jest skomplikowana i test t oraz zwykła korelacja nie dadzą odpowiedzi na wiele pytań, ale na siłę używanie skomplikowanych modeli powoduje, że często autorzy, recenzenci i czytelnicy tak naprawdę średnio rozumieją wynik, o ile w ogóle jest on poprawny.
    Pomocy statystyka też warto sie obawiać. Nieważne czy pomoże z dobrej woli, za współautorstwo, czy za pieniądze. Gorzej, że często nie będzie problemem zainteresowany, zechce to zrobić szybko, bo ma inne sprawy na głowie i nie dopyta autora np. o niezależność danych.
    Uczyć statystyki trzeba. I to uczyć jak najwięcej. Ale przede wszystkim podstawowych testów, łącznie z bardzo porządnym sprawdzeniem i omawianiem ich założeń, kwestii pseudoreplikacji, niezależności danych itp. I planowania eksperymentów, planowania badań. Ktoś, kto widzi pułapki w analizie wariancji raczej nie podejdzie bezkrytycznie do wielowymiarowych modeli, o których nie ma pojęcia, nie odpali od razu aRa i kopiując z netu nie wstawi bezkrytycznie skryptu.
    Zgadzam się, że "... kalejdoskop metod, z których na każdą przypada 30 minut wyjaśnienia i ćwiczeń" to zła metoda uczenia, niestety popularna na wielu płatnych kursach. Bo łatwiej znaleźć grupę chętnych, gdy omówionych będzie tak wiele, tak użytecznych metod. Więc takich kursów niestety jest najwięcej.
    Marny statystyk

    OdpowiedzUsuń
    Odpowiedzi
    1. słuszna uwaga! W sumie często dość dużo wiedzy można wycisnąć dość prostymi metodami - trochę w stylu starszych prac, sprzed 20-40 lat, gdy robiono ANOVA lub korelacje i niewiele więcej. Ja zawsze zaczynam od prostych metod żeby sobie pooglądać dobrze dane i zobaczyć jak się zachowują w różnych sytuacjach. Ale być może recenzenci nie powinni tak mocno cisnąć, to jest w sumie dobry wniosek - oni też trochę napędzają to szaleństwo. Wnioski z prostych analiz są może trochę bardziej ograniczone, ale nadal takie prace powinny mieć możliwość ukazywania się.

      CO do kursów - fajnie że są, fajnie że pokazują dużo możliwości, ale być może efektem ubocznym jest to, że kursant zostaje z przeświadczeniem, że teraz to już praktycznie "sky is the limit"... I to jest potencjalnie najbardziej niebezpieczne.

      Usuń
  4. Chyba mylne jest podejście, że dużo wiedzy uda wycisnąć się prostymi metodami. Jeśli dane mają skomplikowaną strukturę i nie spełniają założeń prostych testów, to używanie do nich prostych metod jest tak samo błędne, jak bezmyślne używanie zaawansowanych metod statystycznych. Jedno i drugie daje fałszywy obraz świata. Ponieważ chcemy się dowiedzieć czegoś o rzeczywistości, to po prostu należy używać najlepiej pasujących metod analitycznych dla danego problemu. Poza tym czas spędzony na nauce statystyki, nawet jeśli nie owocuje jej zrozumieniem, nie jest stracony - zawsze jest to intelektualny wysiłek ćwiczący wyobraźnię ;-) Ciężko jest ponadto zaplanować dobrze badania/eksperymenty nie znając statystyki. Dlatego raczej nie zniechęcałbym nikogo do uczenia się i stosowania statystyki (w R).
    Odbiegając troszkę od wątku, to z tego co wiem, w wielu instytutach (zagranicznych) są zatrudniani na etatach statystycy, którzy uczestniczą w planowaniu badań, a potem w analizie danych.

    OdpowiedzUsuń
    Odpowiedzi
    1. Generalnie zgadzam się ale nie do końca - jest wiele świetnie cytowanych prac, które używają bardzo prostych metod. W Polsce np. wcześniejsze badania prof Jędrzejewskiego (tam często w ogóle nie ma sekcji "analiza danych" a cała statystyka to model y=ax+b), albo Wesołowskiego. Obaj jedni z najlepiej cytowanych biologów w kraju.

      Jasne, że do złożonych problemów, proste metody są bez sensu, ale nawet w takich przypadkach proste korelacje i porównania średnich dają zbliżone wyniki jak ostateczny skomplikowany model. Ja najczęściej zaczynam od wykresów rozrzutu itp. i w 90% przypadków już wtedy widzę sygnał biologiczny, a model typu GLMM to po prostu formalnie testuje i potwierdza. Więc jako czytelnik wolałbym, żeby ktoś kto nie zna statystyki, a ma ciekawy materiał, zrobił proste analizy które rozumie, ewentualnie pozostawiając część pytań bez odpowiedzi, niż silił się na kosmiczny model, który cholera wie co z takimi danymi robi. Najlepiej oczywiście żeby dogadał się z kimś w ramach naukowej współpracy :-)

      Usuń
    2. Ja bym do Twojej litanii dorzucił jeszcze jedną rzecz: jeśli chcesz robić analizę statystyczną, to uwzględnij to na etapie planowania eksperymentu. Nie ma nic gorszego, niż człowiek, który przychodzi z danymi i mówi: chciałbym wiedzieć, czy tu są jakieś istotne różnice. A za chwilę okazuje się, że dla danego punktu pomiarowego ma jakąś szaloną liczbę powtórzeń. Na przykład jedno :D Góra dwa. A przecież mówimy tu o podstawowych zastosowaniach i najprostszych metodach. I wcale nie myślę przy tym o początkujących studentach. Ci mają problem ze średnią i odchyleniem standardowym. Znaczy, potrafią je "policzyć" w Excelu, ale już jaki jest sens tych wielkości, to raczej tak sobie rozumieją...

      Usuń
    3. to oczywiście bardzo ważny punkt - nie poruszałem go, bo jest trochę poza samą analizą danych, ale jak najbardziej się zgadzam!

      Usuń
    4. I tu się właśnie NIE zgadzamy: planowanie eksperymentu JEST częścią procesu analizy danych. Oczywiście podałem skrajnie prymitywny przykład, ale to widać szczególnie, gdy ktoś chce np. użyć metod wielowymiarowych na zbiorze danych, które początkowo nie były zbierane z taką myślą. Masa brakujących obserwacji (da się obejść, ale też trzeba mieć na to jakiś pomysł), zmienne dyskretne razem z ciągłymi, zmienne w oczywisty sposób ze sobą skorelowane podawane jako niezależne. Można tak wymieniać, ale efekty bywają dla rezultatów, a w szczególności dla ich interpretacji, dość dramatyczne. Co oczywiście w żaden sposób nie podważa wszystkiego, co napisałeś: podpisuję się pod tym w 100%. Po prostu chciałem dodać jeszcze jeden punkt :D

      Usuń
    5. ok, pełna zgoda - zwróć uwagę, że to trochę kwestia językowa albo umowna, co nazwiemy "analizą". W każdym razie planowanie jest cholernie ważne, w zasadzie determinuje wszystko co następuje potem. Więc słuszna uwaga :-)

      Usuń
  5. "...Jest wiele świetnie cytowanych prac, które używają bardzo prostych metod. W Polsce np. wcześniejsze badania prof Jędrzejewskiego (tam często w ogóle nie ma sekcji "analiza danych" a cała statystyka to model y=ax+b), albo Wesołowskiego...".

    No właśnie, powstaje pytanie, czy gdyby jeszcze raz przeanalizować takie starsze dane przy pomocy obecnie dostępnych metod, to czy dalej wyniki pozostałyby takie same.Liczba cytacji nie świadczy o tym, że dane byłby dobrze przeanalizowane. Być może wiele informacji naukowych rozprzestrzeniających się wśród badaczy jest nieprawdziwa. To jest duży problem w obecnej nauce, która jest mocno obciążona faktami, które pochodzą z nieprawidłowo zrobionych analiz. Prosta analiza przed niczym tutaj nie chroni, wręcz odwrotnie. Przykładowo, te proste metody (anova, regresja wielokrotna) wypluwają więcej istotnych wyniki, niż bardziej zaawansowane metody (modele mieszane, zero-inflated models itd). Więc moim zdaniem używanie prostej statystyki może być znacznie bardziej szkodliwe pod względem generowania nowych "faktów", niż te bardziej zaawansowane metody (nawet jeśli te ostatnie są stosowane bezmyślnie).

    OdpowiedzUsuń
    Odpowiedzi
    1. Nie jestem przekonany do stwierdzenia że proste testy będą bardziej szkodliwe niż zaawansowane nawet jeśli stosowane bezmyślnie. Prosty test generuje informację mocno niepełną, o mniej lub bardziej ograniczonej przydatności, ale ostrożnie interpretowany jest w miarę bezpieczny. Problemem mogą być pseudoreplikacje, być może tu jest pewne niebezpieczeństwo, ale to w zasadzie nie jest wina samego testu, lecz specyfiki zbioru danych. Korelacje czy porównania średnich dostarczają prawdziwych informacji (np tam gdzie bocian to większa dzietność) i błąd najczęściej jest popełniany dopiero na etapie interpretacji, gdy nadajemy temu znaczenie biologiczne. Natomiast jeśli interpretujemy bardzo ostrożnie i dosłownie, to nie bardzo przychodzi mi do głowy jakieś potencjalne zagrożenie.

      Natomiast gdy wrzucimy do multiple regression wiele skorelowanych zmiennych (VIF>10), albo uwikłanych, dostaniemy po prostu parametry ze znakiem odwrotnym do rzeczywistego (zamiast pozytywnego związku, wykażemy ujemny), albo dobierając nieprawidłowo rodzinę, dostaniemy mega-istotny wynik, przy braku jakiejkolwiek rzeczywistej zależności. I to są potencjalnie niebezpieczne błędy. Takie mam doświadczenia - że najbardziej trzeba uważać z tymi zaawansowanymi modelami, a prosta eksploracja danych najczęściej dobrze przybliża stan faktyczny.

      Być może sprawę komplikuje fakt, że osoby ograniczające się do bardzo prostych testów często nie mają wiedzy statystycznej, więc są ogólnie bardziej podatne na różne błędy interpretacyjne. Nie wiem, ale ciekawy temat.

      Usuń
  6. O ile podstawowe analizy statystyczne można przeprowadzić samodzielnie, to nieco bardziej zaawansowane modele wymagają już niestety bardzo zaawansowanej wiedzy i umiejętności analitycznych. Osobiście miałem na studiach socjologicznych przedmiot o nazwie statystyka, jednak oprócz analiz korelacyjnych oraz miary rozkładu normalnego, tak naprawdę niczego więcej się nie nauczyłem. Ciekawe jestem, czy na samym kierunku statystycznym faktycznie można zdobyć bardziej zaawansowaną wiedzę z tego zakresu, czy raczej konieczne jest dokształcanie się na własną rękę.

    OdpowiedzUsuń
  7. Bardzo pomocne niemniej mogą być w przypadku podstawowych analiz statystycznych platformy online, umożliwiające automatyczne przeprowadzanie testów. W zasadzie wówczas jakakolwiek zaawansowana wiedza statystyczna nie jest nam potrzebna. Zwłaszcza w przypadku statystyki medycznej tego typu rozwiązania znajdują powszechne zastosowanie.

    OdpowiedzUsuń
  8. Też mi się wydaje, że przeprowadzanie zaawansowanych testów statystycznych (zarówno parametrycznych, jak i nieparametrycznych) pójdzie zdecydowanie w kierunku całkowitej automatyzacji. Tym bardziej, jeśli mamy na myśli analizy danych na potrzeby biznesowe. Przedsiębiorca chce przede wszystkim jak najszybciej otrzymać wnioski w formie opracowania statystycznego. Elektroniczne platformy znacznie ułatwiają i przyśpieszają prace analityczne.

    OdpowiedzUsuń
  9. Dobry tekst, chociaż mam pewne uwagi. Wydaje mi sie, że uczenie R jest bardzo dobre (o ile jest, w moim Instytucie studenci nadal używają Statistici). Natomiast z cała resztą się zgadzam. Jak się nie rozumie jak działa (chociaż w zarysie) tana metoda to nie ma sie po co za nią brać.

    OdpowiedzUsuń