poniedziałek, 7 stycznia 2013

Data-driven science

Polecam lekturę trafnego tekstu, wiele z tego staram się przemycać na różnego rodzaju warsztatach i kursach ale i tak ciągle u wielu użytkowników statystyki panuje przekonanie, że wiele znaczy zawsze  lepiej, nieważna jest wielkość efektu - przecież jak N będzie kosmiczne to każdy efekt będzie istotny ;)


Szymek

11 komentarzy:

  1. Właśnie, że ważna jest wielkość efektu - nieważna jest istotność, i to przede wszystkim istotność zależny od wielkości próby a nie wielkość efektu. Przy odpowiednio dużej wielkości próby każda wielkość efektu będzie istotna, co nie znaczy że znacząca dla zjawiska, które analizujemy.

    OdpowiedzUsuń
  2. też tak do tego podchodzę. Trochę przesadzając można powiedzieć, że wszystko jest istotne! Pytając co ma wpływ na sukces lęgowy modraszki odpowiedź brzmi: wszystko! Natomiast zdecydowana większość czynników ma efekty zaniedbywalnie małe a ich istotność zależy od wielkości próby. No bo modraszka funkcjonuje w zamkniętym systemie, więc nie wyobrażam sobie czynnika/zjawiska/gatunku, który jakoś tam nie oddziałuje na modraszkę... To jest skrajne podejście ale wydaje mi się, że słuszne.

    OdpowiedzUsuń
    Odpowiedzi
    1. Tutaj nawet nie chodzi o realny wpływ, bez względu na jego zakres, ale o czystą matematykę. Prawdopodobieństwo korelacji == 0 maleje z wielkością próby, przez co skorelowane (r <> 0) będą nawet zmienne całkowicie od siebie niezależne.

      Usuń
  3. Otóż to - dla jasności dodam że moje podejście jest takie właśnie ;) - niestety, syzyfową pracą jest budowanie na tym papierów: jesli zaczynam dyskutować w kategoriach "wsparcia" wynik "nieistotny" np. P=0.06 - wielu recenzentom piana wychodzi na usta - a z drugiej strony jak widzę, że ktoś bez słowa komentarza roztacza spekulacje biologiczne wokół efektu istotnego, ale dotyczącego różnicy np. o 0.07 jaja - to mi się scyzoryk otwiera w kieszeni...

    OdpowiedzUsuń
  4. ja w rozważaniach dotyczących istotności doszedłem do takich wniosków (poprawcie mnie proszę jeśli wypisuję głupoty):
    Nam ta cała istotność jest potrzebna tylko dla tego, że badamy promil promila populacji, a mamy apetyt by wnioskować o całości. Natomiast pomyślcie nad takim eksperymentem: znajdujemy wszystkie lęgi modraszek na świecie i sprawdzamy jaki ma wpływ na sukces lęgowy ma wysokość dziupli. Kto uważa, że effect size w modelu na wszystkich modraszkach na ziemi będzie wynosił równo zero??? Prawdopodobieństwo, że tak będzie jest równe zero, stąd mój wniosek że efekt (w ten sposób liczony) jest zawsze...
    gdzieś popełniam błąd?

    OdpowiedzUsuń
    Odpowiedzi
    1. A nie przychodzi ci do głowy, że w pewnych środowiskach ta wysokość dziupli może mieć większy wpływ na sukces lęgowy niż w innych, a w tym drugim z kolei inny czynnik nabiera większego znaczenia itd. Wrzucania do jednego wora prób z całego zasięgu może więc być (a raczej na pewno jest) błędem metodycznym. To właśnie zróżnicowana presja selekcyjna w różnych częściach zasięgu powoduje zmienność również na poziomie wyboru środowiska do lęgu itd. Sama więc liczebność próby nie jest jedynym warunkiem prawidłowej analizy.

      Usuń
    2. oczywiście, że tak - to się zmienia w czasie i przestrzeni. Ale chodzi mi o przykład gdzie mamy "w ręku" całą populację o której chcemy wnioskować, a nie próbę z tej populacji

      Usuń
  5. Wszystko fajnie, tylko wielkość efektu też nie musi być odzwierciedleniem biologicznego procesu. A statystyka oparta na P istnieje dlatego, ponieważ zakładamy (choć nie zawsze słusznie) że pewne zjawiska można opisać istniejącymi modelami statystycznymi. Ponadto nie można zapominać o jednej ważnej rzeczy, jaką jest reprezentatywność próby. Co z tego, że macie dużą wartość wielkości efektu, skoro próba jest mała. Stąd wsparcie ze strony wartości "P" jest czasami potrzebne. Dlatego ja nie widzę nic dziwnego w tym, że dąży się do uzyskiwania dużych prób w badaniach. Idealny przypadek to taki, w którym mamy dużą próbę i silny effect size.
    Michał, zauważ, że w twoim hipotetycznym przykładzie o modraszkach w zasadzie nie musisz stosować statystyki.

    OdpowiedzUsuń
  6. Fakt faktem - statystyka oparta na wartości P wyrządziła (moim skromnym zdaniem) wiele "złego" temu jak obecnie raportuje się naukę bo: wprowadziła dychotomiczny sposób decydowania o istnieniu bądź nie jakiegoś zjawiska (wiem, że wielu biologów nie działa w ten sposób - ale niestety recenzenci często tak; dlaczego wsparcie na poziomie P=0.045 ma być witane fanfarami, a 0.065 to już nikomu niepotrzebny wynik, albo co gorsza - motywacja do "podkręcenia" analiz?), a co za tym idzie wielu ludzi zniechęca przed publikowaniem wyników nieistotnych (a pamiętajmy że 10 "nieistotnych" wyników może zaowocować "istotną" i ważną meta-analizą) oraz - co najgorsze - nadaje wartości P magiczny sens miernika wszystkiego (wielkości efektu, wyznacznika jakości i naukowego znaczenia (sic!) etc.) A przecież P nie ma nic wspólnego z tym jak duże różnice się obserwuje - mówi tylko jaka jest szansa że ich tak naprawdę nie ma...

    Michale - taki raj gdzie zbierasz całą populację oznaczałby niestety koniec statystycznej gimnastyki, a tego byśmy przecież nie chcieli ;)) - przecież w tym duża część zabawy ;)

    OdpowiedzUsuń
    Odpowiedzi
    1. http://www.youtube.com/watch?v=8-PzD26Wl4g

      Usuń
  7. http://www.stats.org.uk/statistical-inference/Cohen1994.pdf

    Bo jak to powiedział C.R. Rao - "Statystyka jest bardziej sposobem myślenia lub wnioskowania niż pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi."

    Pozdr,
    JSz

    OdpowiedzUsuń