VIF ( Współczynnik współliniowości)
Współczynnik wykorzystywany w analizie regresji wielorakiej. Pomaga wykryć sztucznie zawyżony współczynnik determinacji.
Współczynnik determinacji w modelu mówi o tym, w jakim stopniu zmienność w zakresie zmiennej zależnej jest wyjaśniana przez zmienność w zakresie zmiennych niezależnych. Im więcej predyktorów w modelu tym współczynnik determinacji osiąga wyższe wartości. Jednym w głównym założeń analizy regresji wielorakiej jest brak współliniowości predyktorów (brak korelacji między zmiennymi niezależnymi). O występowaniu współliniowości mówi właśnie współczynnik VIF. Dla każdego z predyktorów można go obliczyć ze wzoru:
Dla współczynnika współliniowości przyjęto następujące interpretacje:
- VIF=1 : brak współliniowości predyktorów
- 1<VIF<10 : występuje nieznaczna współliniowość predyktorów, warto rozważyć zmianę modelu
- VIF>10 : występuje silna współliniowość predyktorów, należy usunąć z modelu zmienną
Programy obliczeniowe takie jak SPSS pozwalają na automatyczne obliczenie współczynnika VIF oraz drugiej miary świadczącej o współliniowości predyktorów: współczynnika tolerancji, który jest odwrotnością współczynnika VIF.
Jak radzić sobie ze współliniowością zmiennych? Jest na to kilka sposobów jednakże nie ma jednego uniwersalnego:
– zwiększenie próby : w niektórych przypadkach zwiększenie próby może spowodować zmniejszenie korelacji między zmiennymi. Jest to jednak metoda bardzo niepewna, a w dużej ilości przypadków może dać po prostu zupełnie przeciwne rezultaty.
– usunięcie skorelowanej zmiennej z modelu : zazwyczaj usuwa się zmienną najmniej związaną ze zmienną zależną. Spowoduje to oczywiście brak występowania współliniowości w modelu ale pozbawi informacji na temat wpływu tego predyktora na zmienną zależną.
– kompozyt zmiennych : w niektórych przypadkach np. waga i wzrost nie da się uniknąć braku powiązania zmiennych. Tworzy się wtedy nowe zmienne ściśle powiązane z tymi zmiennymi, w tym przypadku będzie to BMI.
– analiza czynnikowa : używana w przypadku dużej ilości zmiennych powiązanych. Redukuje ilość predyktora do jednego lub kilku zazwyczaj przez obliczenie średniej ze zmiennych w nie wchodzących.