czwartek, 16 września 2010

Nie taki Akaike prosty, jak go malują

Kryterium informacyjne Akaike’go (AIC) jest obecnie uniwersalnym kryterium wyboru optymalnego modelu spośród wielu konkurujących ze sobą modeli objaśniających interesującą nas zmienną zależną. AIC pozwala porównywać – dla tych samych danych – zarówno modele zagnieżdżone (co umożliwia również LRT), jak i nie zagnieżdżone. Powszechnie przyjmuje się, że modele różniące się o nie więcej niż 2 jednostki AIC są porównywalnie dobrymi modelami. W szczególności, modele gorsze od zidentyfikowanego modelu optymalnego (posiadającego minimalne AIC) o mniej niż 2 jednostki AIC są tradycyjnie uznawane za równie dobre, alternatywne modele objaśniające zmienną zależną.

 

W jednym z ostatnich J Wildl Management, Todd Arnold zwraca uwagę, że dodając do optymalnego modelu (minimalne AIC) kompletnie nonsensowny predyktor (np. losowa liczba z określonego przedziału) można uzyskać model różniący się od optymalnego o mniej niż 2 jednostki AIC. I odwrotnie, eliminując predyktory z przeparametryzowanego modelu, w poszukiwaniu minimalnego AIC, możemy uzyskać – obok optymalnego, porównywalnie dobry model (różnica AIC<2) zawierający totalnie nieinformatywną zmienną jako predyktor.  Przy powszechnie panującym podejściu, taki model bywa traktowany jako świadectwo, że ten dodatkowy predyktor jednak ma jakieś znaczenie dla objaśniania zmienności w naszej zmiennej zależnej. No i to jest błąd, bo z powodów opisanych w artykule – przy bezkrytycznym stosowaniu wyłącznie kryterium różnicy AIC – możemy poważnie traktować modele zawierające zmienne nie mające najmniejszej mocy predykcyjnej dla analizowanej zmiennej.

 

Podstawowym powodem takiej sytuacji jest sposób definiowania AIC, które w swoim wzorze zawiera składnik [2 * liczba predyktorów]. Sytuacja nie jest jednak beznadziejna (far from it…) – Arnold pokazuje, jak nie dać się wpuścić w ten kanał. Co śmieszniejsze, na problem ten zwracali uwagę również Ken Burnham i David Anderson - goście, którzy wypromowali AIC swoją książką o selekcji modeli, ale wszyscy olali ten fragment ich książeczki w drugim wydaniu… Teraz mają szansę naprawić swój błąd, czytając artykuł:  Arnold TW. 2010. Uninformative Parameters and Model Selection Using Akaike’s Information Criterion. Journal of Wildlife Management 74(6):1175–1178.

 

Przemek Ch.