wtorek, 18 października 2011

Kwestionuj autorytety. Prawda jest w danych

Naprawdę ciekawe podejście do otaczającego nas świata i weryfikacja informacji, którymi karmią nas np. media - rzetelna analiza danych w wykonaniu Przemysława Biecka! Mimo, że tematy mało przyrodnicze warto rzucić okiem, bo autor pokazuje jak można analizować i wizualizować dane. No i oczywiście z wykorzystaniem programu RRRRR :o))
Polecam:

SmarterPoland

 

michał żmihorski

20 komentarzy:

  1. co wy macie z tym całym R, tak jakby większe znaczenie miało 'jak' niż 'co'

    OdpowiedzUsuń
  2. daRmocha, choćby najbardziej nieprzyjazna, zawsze pozostanie daRmochą. Ponadto chłopaki lubią poszpanować, ze nauczyli się wpisywać parę komend ;)

    OdpowiedzUsuń
  3. hmmm..., nie rozumiem tych 2 powyższych (anonimowych) komentarzy. ja jestem przeświadczony, że dostępność/znajomość narzędzi determinuje wiele naszych wyborów co do kierunków analiz i - ewentualnie - zawartości publikacji. "Jeśli masz tylko młotek, to wszystko wygląda jak gwóźdź", jak mówi stare porzekadło. platforma R zdecydowanie nie wygląda jak młotek, wręcz przeciwnie - niemal z każdym nowym pakietem na moim podwórku otwiera możliwości, które poprzednio nie przemykały mi w rozumie jako realne opcje.
    przemek chylarecki

    OdpowiedzUsuń
  4. chłopaki (szczególnie anonimowy drugi), a może wy pracujecie w jakimś Ś.P. SS-sie albo innej statistice i stąd wasza niechęć do "darmochy". Gdybym wiele lat zgarniał kilkanaście tysięcy zł za to, co teraz jest darmowe też bym się wkurzył :o))

    A poważniej, to w tym przypadku "co" i "jak" się łączą - w wielu programach kupowanych za ciężkie pieniądze nie było i nie ma dostępnych podstawowych narzędzi statystycznych, które są za darmo w R (np. GLMM, GAMM). Więc po prostu R daje nowe możliwości. Poza tym kwestia nauki - kopiowanie komend jest dużo prostsze niż opis prozą które okienko otwieramy, co w nim zaznaczamy itp. Na rynku jest wiele książek z gotowymi komendami, co bardzo usprawnia uczenie się statystyki. Trzecia sprawa-grafika. Anonimowy pierwszy: zrób w innym programie taki wykres jak Biecek na swoim blogu w poście z 7 października (ten z iksami) a stawiam piwo, albo lepiej dwa :o))

    OdpowiedzUsuń
  5. no comment... zaczyna mi to śmierdzieć wojną jaką Appleowcy wytaczają Androidowi. Ale fear not wierni Rowi - obroni się on, sam czy z naszą pomocą ;) Bieganie z przeTŁUMOCZONĄ statisticą od SASa do lasa - to dopiero szpan. i choć nie lubię pewnych metod krytykować dla zasady - tutaj bez wahania odbijam piłeczkę - bo R rulez :)

    OdpowiedzUsuń
  6. "ja jestem przeświadczony, że dostępność/znajomość narzędzi determinuje wiele naszych wyborów co do kierunków analiz i - ewentualnie - zawartości publikacji."

    ja natomiast zawsze wychodzę od pytań a narzędzia nie determinują moich wyborów (zwłaszcza jeśli chodzi o obliczenia); dużo większym problemem jest czy eksperyment jest wykonalny; sposobów analizy jest natomiast wiele. To tak jak ze sprzętem, można zainstalować przykładowego Worda na sprzęcie 10-letnim i nowym super sprzęcie, ale co to ma do rzeczy skoro oba mają klawiaturę?

    w tym sensie stwierdzenie -
    "chłopaki (szczególnie anonimowy drugi), a może wy pracujecie w jakimś Ś.P. SS-sie albo innej statistice i stąd wasza niechęć do "darmochy". Gdybym wiele lat zgarniał kilkanaście tysięcy zł za to, co teraz jest darmowe też bym się wkurzył :o))"
    - ma się nijak do meritum. Przynajmniej tak jak ja rozumiem uwagę pierwszego anonimowego to pytanie nie jest o to czy to czy tamto; pytanie jest po co w ogóle zastanawiać się nad tym albo tamtym skoro to i tamto jest ok. Szczególnie jeśli na nasze potrzeby wystarczy zwykły excel (jeśli tylko się trochę chce). Zaraz oczywiście wielu odpowie że mnie nie wystarcza, to ja jednak prosiłbym o te publikacje w których nie wystarcza. Dla wielu szeroko rozumianych biologów środowiskowych narzędzia statystyczne pełną dziś role zabawki, przy pomocy której można rozdmuchać własne naukowe ego (pomijając fakt iż ich wiedza matematyczna jest poza tym mierna), ale tak długo jak nie znajdzie się to na papierze to pozostanie zwykłą zabawą, bez względu na to czy to R, SAS Spss itd.

    OdpowiedzUsuń
  7. Ok, idąc tym tokiem rozumowania olejmy w ogóle programy statystyczne (excela też)- przecież wystarczy nam kartka i ołówek...

    "po co w ogóle zastanawiać się nad tym albo tamtym skoro to i tamto jest ok."
    No ale właśnie nie jest ok! Konkretne pytanie: jak zrobić GAMM'a uwzględniającego autokorelację przestrzenną w SPSSie albo Statistice??? Pokaż jak to zrobić, a wysyłam kurierem kratę piwa :o))

    Anonimowy, stawiając znak równości (="to i tamto jest ok") między możliwościami R, który jest za darmo i np. SPSSem, który kosztuje kilkanaście-kilkadziesiąt tysięcy (czyli dwie moje roczne pensje) mam wrażenie, że się lekko mijasz z prawdą...

    michał żmihorski

    OdpowiedzUsuń
  8. Przemek Chylarecki20 października 2011 16:47

    Rozumiem, że anonimowy przedmówca wykonuje tylko takie analizy, w których wystarcza excel. Wielu z nas nie ma takiego "szczęścia". Ale nawet w takiej sytuacji, Anonimowy spektakularnie potwierdza moją (?? starą jak świat) tezę, że "dostępność/znajomość narzędzi determinuje wiele naszych wyborów co do kierunków analiz i - ewentualnie - zawartości publikacji.". Ma excela, więc robi to, na co excel mu pozwala. Proponuję jednak spróbować zrobić w excelu nie tylko porównanie długości nóżek, ale choćby analizę składowych głównych na dowolnych danych. Albo obliczyć przeżywalność zwierząt znakowanych i powtórnie odławianych (capture-mark-recapture). każdy numer Ecology przynosi dziesiątki analiz niewykonalnych w excelu (nie mówię o nakładkach czy solverze) i chyba tracimy czas argumentując, że jest inaczej.
    Przemek Chylarecki

    OdpowiedzUsuń
  9. "chyba tracimy czas argumentując, że jest inaczej. "
    to jest zawsze świetna argumentacja, może powinieneś dodać jeszcze że jest Ci mnie żal.

    OdpowiedzUsuń
  10. anonimowy, a poza tym żalem masz jakieś merytoryczne argumenty?

    michał żmihorski

    OdpowiedzUsuń
  11. Anonimowy, ależ my tu chętnie podyskutujemy - ale lubimy konkrety ;)
    Jeśli pokażesz mi, jak w Excelu pracować z metodami numerycznymi, wielowymiarowymi (PCA, CCA, DCA - i nie są to przykłady wzięte z kosmosu, a powszechnie stosowane metody analizy w ekologii), to zwrócę honor.
    Bo póki co, mówiąc, że statystyka to tylko zabawka dzięki którym inni rozdmuchują swoje ego - przynajmniej dla mnie - prezentujesz się jako osoba tupiąca nóżką w myśl zasady "bo inne dzieci mają takie zabawki, a ja nie mam".[choć może raczej powinienem napisać: bo inne dzieci potrafią się nimi bawić, a ja nie ;)]

    OdpowiedzUsuń
  12. jeden prosty od samego początku, gdzie są te publikacje w których dokonujecie tak skomplikowanych analiz?

    OdpowiedzUsuń
  13. Ja musze czesciowo przyznać rację Anonimowemu, ponieważ są dodatki za free do Excela (ktory, choc nie zawsze zdajemy sobie z tego sprawe, nie jest darmowy ;)) gdzie mozna zrobic zarowno PCA, CCA, DCA. Dodatek nazywa sie Bi-Plot i jego opis ukazal sie bodajze w roku 2003 w Journal of Statistical Software. Podobnie z capture- mark - recapure mialem kiedys taki dodatek zainstalowany w excelu. Wbrew pozorom do Excela zbudowano bardzo duzo darmowych dodatkow z bardzo ciekawymi narzedziami. Jak dla mnie cala dyskusja czy R jest lepszy od komercyjnych programow jest bezsensowna. Przede wszystkim najpierw i tak musimy wiedziec jak dana metoda statystyczna dziala i do czego sluzy, a to czy jest ona zaimplementowana w SASie czy R ma drugorzedne znaczenie. Cały spor mozna przyrownac do "dylematu" czy do pracy dostac sie autobusem czy pieszo. Oba sposoby doprowadzaja nas do celu i kazdy ma swoje dobre i zle strony (w autobusie placimy za bilecik, idac pieszo poswiecamy czas). Osobiscie uwazam, ze najwazniejsza jest pomysl/idea w pracy badawczej. To pomysl determinuje metody zbierania materialu i analizy, ktore oczywiscie powinny byc znane, poznawane i rozbudowywane. Ale jakos nie chce mi sie wierzyc ze znajomosc jakiegos programu statystycznego sama z siebie przywiedzie kogokolwiek na pomysl badawczy (no chyba ze samych statystykow).
    Pozdrawiam
    PSkorka

    p.s.Tak na marginesie, ponoc w najnowszym SPSS (v19?)zaimplementowano modele mieszane z roznymi rozkladami bledow.

    OdpowiedzUsuń
  14. Hmm, no dobra, moze faktycznie znajomosc jakiegos nowego programu, moze przywiesc pomysl na badania - przypomnialo mi sie z wlasnego doswiadczenia :)

    PSkorka

    OdpowiedzUsuń
  15. Piotrek, zgadzam się, że nie ma znaczenia czy metoda jest wykonana w R czy SAS. Ale w niektórych programach po prostu pewnych metod nie ma i o tym jest chyba cała ta dyskusja. Poza tym, R jest darmowy i to ma duże znaczenie, szczególnie w naszych realiach (ten SPSS 19 kosztuje 8tys.)

    A co do narzędzi wpływających na wybór badań, to zadam prowokacyjnie takie pytanie: dlaczego nikt nie robił genetyki populacyjnej na mikrosatach w dwudziestoleciu międzywojennym? Przecież to jest ten sam problem tylko mocno przejaskrawiony...

    michał żmihorski

    OdpowiedzUsuń
  16. Przemek Chylarecki20 października 2011 21:45

    Oczywiście, że istnieją liczne nakładki na excela (łącznie z nakładką będącą interfejsem do R:-), ale spór z Anonimem dotyczył - jak ja go rozumiałem - czy nie przesadzamy z tymi skomplikowanymi metodami i narzędziami, bo wystarczy mędrca szkło i oko. No i ołówek i gumka. Czyli excel jako prosty kalkulator, bo najważniejsze są pytania - stawiane oczywiście a priori. I z taką idealną wizją uczonego, łączącego statystyczną niewinność badacza z XVII wieku z XXI-wieczną wiedzą, że uczony wyłącznie testuje, coś co sobie w rozumku wykoncypował (bez zaglądania w dane, tego okropnego data-dredging)- się nie zgadzam. Taki kit można wciskać chyba tylko studentom zaocznym.
    PCh

    OdpowiedzUsuń
  17. Przemek Chylarecki20 października 2011 21:53

    I jeszcze o programach, jako źródle inspiracji do analiz. Całe zainteresowanie wzorcami "nestedness" zgrupowań gatunków wzięło się z programu mierzącego temperaturę macierzy by Atmar & Patterson (spopularyzowany w książce "macroecology" Gastona & blackburna). To, że wszyscy teraz robią modele hierarchiczne w ujęciu bayesowskim - nie byłoby możliwe bez WinBUGSa i R. Capture-Mark-Recapture zostało by czarną magią, gdyby nie MARK. Mało kto bawił by się w rarefakcję, gdyby nie EstimateS. Itd, itd, itd.
    pch

    OdpowiedzUsuń
  18. Przemku, tak jak w każdej dziedzinie życia - nowe narzędzia stwarzają nowe możliwości, prowokują wręcz niekiedy do zadawania zupełnie nowych pytań. Podstawy teoretyczne do analiz łańcuchów Markowa, szeregów czasowych, logiki rozmytej to nie taka nowa rzecz - tylko kto chciałby to robić na liczydle.. ;)

    Inną sprawą jest gloryfikacja R - nie można popadać w fanatyzm. R ma swoje zalety, ale ma też wady. Nie jest panaceum. Stosując strategię zaczepną, równie dobrze można powiedzieć, że po co nam R, skoro można pracować w MATLABie (tak, tak - wiem - cena) ;)

    Osobiście korzystam z całego mnóstwa softu - SPSS, R, RundomPro, MVSP, Canoco, niekiedy Statistica, pierwsze kroki stawiam w MATLABie.
    Do tego dochodzą programy GISowskie, "modelarskie".
    W tym wszystkim chodzi chyba raczej o to, żeby się rozwijać, poznawać nowe metody analizy danych, rozbudowywać własny warsztat umiejętności. A to, czy ktoś robi regresję w R, SPSS, SAS, czy jeszcze czymś innym - to chyba jest sprawa drugoplanowa - niech przede wszystkim robi to dobrze ;)

    OdpowiedzUsuń
  19. Przemek Chylarecki20 października 2011 23:09

    Jakub - absolutna zgoda. Nie gloryfikuję R, sam wskazałem kilka programów, które są bardzo dobre na swoim specjalistycznym froncie, podstawowe analizy robię wciąż w spssie. Oponowałem jedynie przeciwko krytyce R z pozycji {excel, liczydło i dobry pomysł, który wpadł mi do głowy jak siedziałem na kiblu}. R jest inspirujący, bo jak ten szwajcarski scyzoryk, pokazuje mnóstwo narzędzi (packages), które Cię (mnie) inspirują i są od razu do wykorzystania. Tylko tyle:-)
    pch

    OdpowiedzUsuń
  20. Otóż to Przemku, otóż to - w pełni się z Tobą zgadzam jeśli o to chodzi.
    Choć nie do końca rozumiem, dlaczego "Taki kit można wciskać chyba tylko studentom zaocznym." - zaocznym przecież należy się tak samo poprawna merytorycznie wiedza jak studentom dziennym ;)

    I tak dla rozluźnienia:
    http://tnij.org/mathjoke

    ;)

    OdpowiedzUsuń