piątek, 18 września 2015

Dlaczego nie może być lepiej

Spróbuję ująć rzecz przenośnią: znacie program Google Earth? Można tam śledzić szczegóły budowy morfologicznej i sposoby użytkowania gruntów, widać rzeki, domy, drzewa. Ale śledząc te detale nigdy nie zrozumiemy procesów zachodzących w skali makro. Musimy więc użyć opcji "Zoom out", dzięki której możliwe jest spojrzenie całościowe, z dużej wysokości, a tym samym dostrzeżenie procesów, wzorców i zjawisk, których nie widać z poziomu ziemi, a które jednak determinują wszystko co zachodzi lokalnie. 

To samo dotyczy nauki w Polsce. Na wielu forach, blogach, w komentarzach do prasowych artykułów, na konferencjach, w grupach takich jak Obywatele Nauki, Rada Młodych Naukowców, Akademia Młodych Uczonych PAN, czy Komitet Kryzysowy Humanistyki Polskiej - tysiące ludzi diagnozuje problemy i wynajduje możliwe rozwiązania. Ale wszystko to wyłącznie w skali mikro (czy obcięcie o 10% punktacji za artykuł to dobry pomysł) lub tylko nieco większej (Rada NCN postuluje by pomóc doktorantom). Tymczasem nikt nie wspomina o generalnych procesach i zjawiskach, które mają największy wpływ na naukę w Polsce. Stąd moja prośba o "Zoom Out" i spojrzenie możliwie szerokie. A obraz z wysokości wygląda następująco:

Całe szkolnictwo wyższe i nauka nie są zawieszone w próżni, tylko w ekonomiczno-prawnych strukturach zwanych państwem. W Polsce dominuje nauka państwowa, więc uniwersytety, PAN, instytuty badawcze są podłączone do kroplówki o nazwie "budżet państwa". Tym samym kondycja budżetu jest najważniejszym czynnikiem determinującym kondycję nauki. Natomiast jeśli gospodarka jest w złym stanie, to choćbyśmy mieli samych noblistów na uczelniach i Papieża Franciszka w MNISW, ten system nie pociągnie dłużej niż miesiąc (do najbliższej wypłaty). Dodatni bilans budżetu jest warunkiem sine qua non funkcjonowania nauki, jakiegokolwiek rozwoju naukowego i dobrobytu naukowców. Bez pieniędzy nawet najznakomitszy profesor po sześciu godzinach robi się głodny i zatrudnia się przy odśnieżaniu parkingu, nie trzeba tego chyba dalej udowadniać.

Tymczasem kondycja budżetu jest zła. Budżet na 2016 zakłada, że 56 miliardów zł (=dwukrotność całego budżetu na naukę) pokrywamy z wysoko oprocentowanej pożyczki. By zrozumieć ile to jest: Polska przez cały rok 2016 bierze "chwilówkę" w tempie 1700zł/sekundę (albo: równowartość gruntów ornych w kwadracie o boku 165km). I to tylko w roku 2016, a przez ostatnie lata sytuacja była identyczna. A co robimy jak trzeba spłacić część pożyczki (obligacje kończące się akurat w danym roku)? Rolujemy dług, czyli spłacamy dług długiem, bo przecież nie ma żadnej nadwyżki budżetowej od wielu lat. Dotacje UE, z których się cieszymy, nie rozwiązują problemu, bo po pierwsze są dość małe (na mieszkańca ok. 90 zł/miesiąc), po drugie wymagają sporego wkładu własnego (uczestnictwo w kosztach + składka członkowska), więc de facto powiększają zadłużenie, bo tego wkładu nie mamy (więc znowu pożyczamy). W efekcie mamy gigantyczny dług, a jego obsługa (spłata części długu + odsetki w danym roku: ok. 40mld/rok=280mld zł/7 lat) pochłania wszystkie dotacje Unijne razem wzięte (430mld-130mld składka-20mld koszty obsługi=280mld zł/7 lat). Nie wspominam już o samym długu, który stale rośnie i wynosi (w zależności od tego, czy uwzględnia zobowiązania emerytalne) 1-3 biliony zł. Przypomnę, że obligacje skarbu państwa są opatrzone adnotacją: "Rzeczpospolita Polska gwarantuje wykup obligacji wraz z odsetkami całym swoim majątkiem". Chyba żaden inny kraj w Europie (poza Grecją kilka lat temu i Słowacją od wprowadzenia Euro) nie ma takiej struktury budżetu - wykresy dla porównania, można to sprawdzić szczegółowo tu:
(z prawej strony trzeba wybrać Rząd --> Bilans budżetu)

Więc sama obsługa długu kosztuje nas co roku znacznie więcej niż te wszystkie śmieszne pieniądze na naukę - budżety NCNu czy PANu wyglądają w zestawieniu ze spłacanymi co roku odsetkami tak (powierzchnia kwadratu odpowiada kwotom):

Nie jestem ekonomistą - jeśli robię gdzieś błąd w tych wyliczeniach lub ich interpretacji, to wskażcie proszę gdzie. Moim zdaniem jesteśmy (PL) w złym stanie finansowym i przez to sytuacja nauki z definicji nie może się poprawić.

I teraz z tej makro-perspektywy oceńmy postulaty różnych grup i organizacji, o konieczności dofinansowania nauki: stypendiów doktoranckich, grantów, upadającej humanistyki, wydawnictw, muzeów, podniesienie wydatków na naukę do 2% PKB i wielu innych. Możemy głośno krzycząc wyrwać chwilowo część forsy przeznaczonej na pielęgniarki albo emerytury, ale pomyślcie, czy ten zabieg długoterminowo generuje jakikolwiek dobrobyt? Przypomnijcie sobie Pakt dla Nauki wręczany marszałek Kidawie-Błońskiej, w nadziei, że sypną forsą i humaniści zaczną dobrze zarabiać. Przypomnijmy sobie wszystkie nasze, artykułowane lub nie, oczekiwania i nadzieje, że może w przyszłym roku będzie lepiej.  Ludzie, zrozumcie wreszcie: żadnej dodatkowej forsy nie ma i nie będzie, a w kolejnych latach zabiorą jeszcze to, co mamy obecnie!  
Mam nadzieję, że się głęboko mylę...

michał żmihorski

I Nagroda im. Marcina Antczaka przyznana!

Po raz pierwszy przyznano nagrodę imienia Marcina Antczaka. Tegorocznym laureatem jest dr Piotr Minias z Uniwersytetu Łódzkiego. Z uroczystością wręczenia Nagrody połączona będzie ciekawa sesja ornitologiczna 3 października w Poznaniu. Więcej szczegółów na załączonych plakatach i pod tym adresem






michał żmihorski

sobota, 12 września 2015

Parametryzacja w modelach liniowych - alternatywa dla B i Bety?

Update:
przykład pokazujący, że przeliczenie parametru B dla całego range nie zmniejsza wiarygodności tego parametru, a jedynie ułatwia jego interpretację (pomińmy bezsensowny intercept...):
Wykres 1: las w ha i standardowy parametr B (wzrostu wielkości lasu o 1ha daje o 0.0933 jarząbka więcej)

Wykres 2: to samo, ale parametr B przemnożony przez range (wzrostu wielkości lasu od najmniejszego do największego na danym terenie daje o 9.33 jarząbków więcej)
Wykres 3: las w kilometrach kwadratowych, standardowy parametr B (dla wzrostu wielkości lasu o 1km2 mamy o 9.33 jarząbków więcej)

Na czym polega wada parametru z modelu 2? Nie widzę tu wad innych niż dla "zwykłych" parametrów, a ma trochę zalet - patrz lista poniżej, ale przypomnę: B*range jest zawsze ten sam dla różnych jednostek predyktora (ha,km2,akr,mila morska) i jest wyrażony w jednostkach zmiennej zależnej, więc ułatwia interpretację (tu: w jarząbkach). Beta (policzona funkcją "lm.beta" z pakietu "QuantPsyc") wynosi: 0.9505 (niezależnie czy używamy ha czy km2) ale przyznam, że nie jest łatwa w interpretacji (poza tym wymaga normalności predyktora). A dziewięć jarząbków, to jest jakiś konkret :-)

I jeszcze cytat ze StackExchange, akurat znalazłem:
...the idea that standardizing independent variables makes it easier to compare the effects of one variable to another. This advantage is, in my opinion, somewhat illusory, since it depends on the range of data in your sample. Although it's a matter of some contention, I am generally against standardizing variables. Variables themselves are, in my view, easier to interpret than standard deviations of variables - we often have an intuitive sense about variables themselves.
 

Problem roboczy, niezbyt dobrze przemyślany:
parametry modeli liniowych są najczęściej prezentowane jako zmiana wartości zmiennej zależnej w reakcji na wzrost wartości danego predyktora o jedną jednostkę (standardowy output z Ra, SPSSa itp). Problem z interpretacją takiej tabeli polega na tym, że różne predyktory są wyrażane w różnych jednostkach (np. powierzchnia lasu i temperatura), co nie jest zbyt odkrywcze, oraz na tym, że różne predyktory mają różną "rozpiętość". 

Przykład: sprawdzamy wpływ powierzchni lasu i liczby strumieni na obecność jarząbka. Powierzchnię lasu mamy w hektarach, a liczba strumieni opisuje po prostu ile ich jest w danym lesie (wbrew pozorom te zmienne nie są mocno skorelowane). Z tym, że powierzchnia waha się od 5 do 150, a liczba strumieni od 0 do 5 (wartości zmyślone). Z modelu otrzymamy info jak rośnie szansa stwierdzenia gatunku wraz ze wzrostem pow lasu o 1 hektar i wzrostem liczby strumieni o 1 strumień. I tu moja wątpliwość: czy nie jest bardziej informatywne przedstawienie wzrostu szansy stwierdzenia gatunku wraz ze wzrostem powierzchni lasu o 145ha, zamiast o 1ha (a liczby strumieni o 5, zamiast 1)? Czyli dla pełnego zakresu zmienności danego predyktora, a nie o jedną jego jednostkę. A nawet jeśli takie przedstawienie parametrów nie jest substytutem tradycyjnego, to może warto je prezentować równolegle do niego?

Jakie są zalety takiej metody:
* możemy bezpośrednio porównać znaczenie predyktorów wyrażonych w różnych jednostkach i w tych samych jednostkach (być może nawet mówić o istotności różnic, na podstawie 95%CI - muszę o tym pomyśleć),
* mamy lepszą informację jak ważny jest faktycznie dany predyktor w rzeczywistości, bo pokazujemy jego potencjalny sumaryczny wpływ dla całej rozpiętości wielkości lasów, która faktycznie ma miejsce w danym krajobrazie.

Zrobiłem takie przeliczenie kiedyś w pracy o jarząbku właśnie, w publikacji z Łukaszem Kajtochem, bo wydawało mi się to rozsądne. Wygląda to tak (ostatnia kolumna, czyli B*range):
Nadal wydaje mi się to rozsądne ale bardzo możliwe, że popełniam błąd w rozumowaniu? Beta nadaje się do porównywania predyktorów ale same jej wartości są chyba mniej informatywne niż wartości B (ile nam mówi SD średniej powierzchni lasu?). A może istnieje jakaś oczywista alternatywa, której nie znam, lub nie kojarzę z tym problemem?
Będę wdzięczny za komentarz,

michał żmihorski


piątek, 11 września 2015

Podział punktów za publikacje

Update:
tak wygląda publikacja w Science, powstała w wyniku pracy międzynarodowego zespołu fizyków/astronomów... I jak dzielimy tu punkty?


Na blogu Emanuela Kulczyckiego ciekawe informacje odnośnie najnowszego projektu algorytmu dzielącego punkty:

http://ekulczycki.pl/warsztat_badacza/podzial-punktow-za-publikacje-ostateczny-projekt/


piątek, 4 września 2015