Analiza głównych składowych
Analiza głównych składowych – czyli analiza PCA (principal components analysis), wykorzystywana jest w analizie czynnikowej. Stosowana jest do redukcji ilości zmiennych lub do znalezienia i określenia zależności między zmiennymi. Celem analizy jest wyznaczenie składowych, które są liniową kombinacją kolejnych zmiennych. Wyznaczone za jej pomocą składowe są ze sobą nieskorelowane oraz maksymalizują zmienność niewyjaśnioną przez pozostałe składowe, przy czym suma ich wariancji jest suma wariancji wszystkich zmiennych. Na opis składowych głównych składają się:
– wartości własne – informują o tym jaki procent zmienności jest wyjaśniany przez daną składową. Największa część zmienności jest wyjaśniana przez pierwszą zmienną i maleje z każdą kolejną;
– wektory własne – są kombinacją liniową zmiennych wchodzących w skład każdej składowej .Informują o wpływie zmiennych wchodzących w skał składowej na tę składową.
– ładunki czynnikowe – informują o tym jaki procent zmienności składowej jest wyjaśniany przez każdą ze zmiennych w nią wchodzącą.
Przed ustaleniem jakie zmienne wchodzą w skład każdej składowej należy wyznaczyć ilość tych składowych. Ustalenie liczby składowych nie jest jednoznaczne. Istnieje kilka kryteriów wyboru liczby składowych i najlepiej kierować się nie jednym, a kilkoma z nich:
– wykres osypiska – wykres na którym na osi poziomej jest numer składowej a na osi pionowej wartości własne. Pokazuje on związek między ilością składowych a wyjaśnianą zmiennością. Moment, w którym występuje widoczne załamanie wykresu jest określany końcem osypiska. Dla tego momentu wprowadzenie kolejnej składowej nie będzie niosło ze sobą wystarczająco dużej wyjaśnianej wariancji;
– procent wyjaśnianej wariancji – obrazuje jaki procent wariancji wyjaśnianej wniesie każda nowa składowa. Przyjęto, że należy wybrać tyle składowych, żeby łącznie wyjaśniały co najmniej 75% wariancji a każda z kolejnych składowych nie wniosłaby więcej niż 5% wyjaśnianej zmienności.
– kryterium Kaisera – opiera się na wartościach własnych. Przyjmuje się, że należy przyjąć tylko składowe dla których wartość własna jest większa lub równa 1.
Po wyznaczeniu ilości głównych składowych wyznaczana jest dla nich macierz ładunków. W skład każdej składowej wchodzić będę zmienne, których ładunek jest dostatecznie wysoki- przyjmuje się, że powinien on wynosić więcej niż 0,3. Jeżeli dana zmienna wchodzi w skład więcej niż jednej składowej zaleca się usunięcie jej a analizy i przeprowadzenie wyodrębniania składowych od nowa.