czwartek, 9 maja 2013

Iuventus III na zimno - twarde fakty



Przedstawiam podsumowanie konkursu Iuventus Plus edycja III. Moim zdaniem ocena wniosków została przeprowadzona niewłaściwie i częściowo niezgodnie z metodyką deklarowaną przez organizatora konkursu (MNiSW). Na poparcie tego twierdzenia przedstawiam trzy argumenty:

Argument 1
Przyznawanie punktów poszczególnym kandydatom za sumaryczny impakt faktor w niewielkim stopniu odzwierciedla sumaryczny impakt faktor (IF) publikacji tychże kandydatów. Poniższy wykres przedstawia zależność między deklarowanym IF, a punktacją nadaną w ramach konkursu (kolorem czerwonym zaznaczono osoby, które ostatecznie otrzymały finansowanie).


Model liniowy opisujący powyższą zależność jest następujący: Uzyskane punkty=22.42+1.36*deklarowany IF

Jednak ta zależność liniowa wyjaśnia jedynie 46% zmienności oceny. Tym samym około 54% zmienności uzyskanych punktów za impakt jest wyjaśniane przez inne, niepodane do publicznej wiadomości, cechy kandydatów lub wniosków (przypomnę, że mówimy o punktacji za sumaryczny impakt, nie za cały wniosek!). Podsumowanie wartości resztowych z tego modelu wskazuje, że punkty za impakt przyznawane poszczególnym kandydatom znacznie odbiegały od oczekiwań na podstawie modelu liniowego. Wartości resztowe wahały się od -14 do +9. Innymi słowy, niektórzy kandydaci dostali o 14 punktów mniej niż wynikało by to z ich deklarowanego imapktu, inni natomiast o 9 punktów więcej. Oczywistym jest fakt, że opisane "zabiegi" miały bezpośredni i znaczący wpływ na ostateczne wyniki konkursu.

Argument 2
Przyznawane punkty poszczególnym kandydatom za sumaryczny impakt faktor są w lepszym stopniu opisywane przez zależność nieliniową (tutaj przybliżoną nieprarametrycznym splinem) niż przez zależność liniową. Zależność ta jest wiarygodnie obrazowana poniższym modelem, wysoce istotnym statystycznie (p=0.00009, intercept=35.7):
Z wykresu wynika jasno, że powyżej pewnej wartości deklarowanego IF kandydata (około IF=7, na osi "x") rzeczywista wartość impaktu kandydata nie miała znaczenia dla oceny za impakt przyznawanej poszczególnym kandydatom przez komisję oceniającą. Jednym słowem, komisja nadając punkty za sumaryczny IF poszczególnym kandydatom po prostu nie brała pod uwagę sumarycznego IF tychże kandydatów (w przypadku kandydatów o sumarycznym IF powyżej 5 jedynie 6% (słownie: sześć) zmienności oceny nadanej przez komisję wynika z IF kandydata, pozostałe 94% z nieznanych predyktorów).  Tak wygląda zależność dla kandydatów o IF powyżej 5.


Argument 3
Prof. J. Radwan (który nie brał udziału w pracach komisji w tym roku!) wyjaśnił możliwość różnic w punktach przyznanych za impakt osobom o podobnym deklarowanym impakcie na podstawie zeszłorocznych ustaleń: "Postanowiliśmy też nieco wyżej oceniać ten sam łączny impakt, jeżeli wnioskodawca był głównym autorem artykułu w prestiżowym czasopiśmie, niż gdy opublikował kilka artykułów w mniej znaczących czasopismach". Cały komentarz prof. Radwana znajduje się tu.
Niestety w przypadku tegorocznego konkursu nie można tą zasadą wyjaśnić różnic w ocenach, co wyraźnie pokazuje poniższe zestawienie. Poniższa tabela przedstawia impakty czasopism w których opublikowały prace trzy osoby biorące udział w konkursie (jedną z nich jestem ja, ale nie wnikajmy w personalia - skupmy się na matematyce). Dla każdej publikacji dwóch pierwszych osób osoba trzecia ma swoją, o wyższym impakcie, a ponadto szereg prac innych. Zarówno średni impakt publikacji jak i sumaryczny impakt prac osoby 3 jest wyższy, mimo to dostała ona znacznie niższą ocenę za sumaryczny impakt niż dwie pierwsze osoby (jedna z nich otrzymała finansowanie na swój projekt).


Osoba 1
Osoba 2
Osoba 3

2.66
2.15
3.06

1.56
1.66
2.23

0.86
1.64
1.98

0.77
1.54
1.98

0.74
1.08
1.69


0.88
1.23


0.76
1.08


0.74
1.01


0.67
0.77



0.67



0.67



0.55



0.51
średni IF jednej publikacji:
1.32
1.23
1.34
sumaryczny IF wszystkich publikacji:
6.59
11.12
17.43
punkty za sumaryczny IF nadane przez Komisję oceniającą:
40
min. 40
35

Przypomnę, że prof. Radwan pisał, że komisja postanowiła "nieco wyżej oceniać ten sam łączny impakt" - trudno chyba uznać prawie trzykrotną różnicę (6,59 vs. 17,43) za "ten sam" impakt, trudno również twierdzić, że czasopisma np. osoby 1 są bardziej "prestiżowe" niż osoby 3, jeśli wszystkie one mają niższy impakt factor (pojawia się kwestia definicji słowa "prestiż").

Czuję się niezręcznie odwołując się do konkretnych przypadków, ale nie ma innej możliwości by pokazać czarno na białym, że coś tu się nie zgadza. Przepraszam osoby z tabelki że użyłem ich jako przykładu (oczywiście nie ujawnię ich personaliów, ale mimo to nie czuję się z tym dobrze).

Podsumowując:
Powyższe dane wskazują, że ocena wniosków w ramach Iuventus III została przeprowadzona w sposób niejasny a zasady konkursu nie tłumaczą ostatecznego rankignu wniosków. Będę podejmował dalsze kroki celem wyjaśnienia zasad oceny w ramach omawianego konkursu. Na koniec jeszcze raz to, co pisałem wcześniej - nie chodzi mi o los mojego wniosku, lecz o transparentność procedur konkursowych w nauce. 

michał żmihorski