Для чего используют факторный анализ. Факторный анализ, его виды и методы. Факторный анализ как метод классификации данных

Одним из основных инструментов экономических исследований является факторный анализ, представляющий собой раздел многомерного статистического анализа, объединяющего методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц. В отличие от других методов анализа, он позволяет аналитикам решить две основные задачи: компактно и всесторонне описать предмет измерения и выявить отвечающие за наличие линейных статистических корреляционных связей между наблюдаемыми переменными факторы.

Оправданно применяя метод главных компонентов, предназначенных для замены коррелированных факторов некоррелированными, а также ограничиваясь исследованием наиболее существенных информативных факторов и исключая остальные из анализа, упростив тем самым интерпретацию результатов, факторный анализ предстает как методика комплексного и системного исследования зависимости остальных факторов от величины критериального результативного показателя.

Основными типами факторного анализа являются: детерминированный, функциональный (результативный критериальный показатель, представляющий собой произведение частных или алгебраическую сумму факторов); стохастический, корреляционный (при наличии между результативным и факторными показателями неполной или вероятностной связи); прямой, дедуктивный (от общего к частному); обратный, индуктивный (от частного к общему); статический и динамический; ретроспективный и перспективный; одноступенчатый и многоступенчатый.

Факторный анализ начинают с проверки его обязательных условий, согласно которым: все признаки являются количественными; число признаков в два раза превышает число переменных; выборка однородна; распределение исходных переменных носит симметричный характер; изучение факторов осуществляется по коррелирующим переменным. Факторный анализ проводится в несколько этапов: отбор факторов; классификация и систематизация факторов; моделирование взаимосвязей между результативными и факторными показателями; расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя; практическое использование факторной модели (подсчет резервов прироста результативного показателя). По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа (табл. 1.5).

Методы факторного анализа

Таблица 1.5

Методы	Краткая характеристика
Детерминированный факторный анализ	Детерминированный факторный анализ - это методика влияния факторов, функционально связанных с критериальным результативным показателем, позволяющим представить критериальный показатель факторной модели как частное, произведение или алгебраическую сумму переменных. Детерминированному факторному анализу свойственны следующие методы: цепных подстановок; абсолютных разниц; относительных разниц; интегральный; логарифмирования
Стохастический	Стохастический анализ - методика исследования факторов, связь с критериальным результативным показателем которых носит, в отличие от функциональной связи, неполный, вероятностный (корреляционный) характер. При корреляционной связи путем изменения аргумента в зависимости от сочетания других переменных, влияющих на величину показателя результативного показателя, можно получить ряд значений прироста функции, в то время как при функциональной (полной) зависимости изменение аргумента всегда приводит к соответствующим изменениям функции. Стохастический анализ проводится с помощью применения следующих методов факторного анализа: парной корреляции; множественного корреляционного анализа; матричной модели; математического программирования; теории игр
Статический и динамический	Статический факторный анализ практикуется в целях оценки влияния факторов на критериальные результативные показатели на конкретную дату, а динамический - для выявления динамики причинно-следственных связей
Ретроспективный и перспективный	Факторный анализ может носить как ретроспективный характер (выявлять причины изменения величины результативного показателя за прошедший период), так и перспективный (исследовать влияние факторов на значение критериального показателя в перспективе)

Для проведения экономического анализа важное значение имеет применение детерминированного моделирования и разных типов факторных детерминированных моделей, предназначенных для моделирования корреляций между критериальным результативным фактором и остальными переменными факторными показателями. Суть данного моделирования заключается в представлении взаимосвязи исследуемого показателя с факторами как конкретное математическое уравнение, выражающее функциональную или корреляционную связь.

Детерминированные факторные модели позволяют исследовать функциональную зависимость между исследуемыми показателями в случае соблюдения при построении факторной модели следующих требований: факторы, включенные в модель, должны быть реальными, а не абстрактными; факторы должны быть в причинно-следственной взаимосвязи с исследуемым результативным показателем; показатели факторной модели должны быть количественно измеримы; должна быть возможность измерения влияния отдельных факторов; вначале в факторную модель записываются количественные факторы, затем качественные; если в факторной модели присутствует несколько количественных или качественных факторов, то вначале записываются факторы более высокого порядка, а затем - более низкого.

Наибольшее распространение в факторном анализе получили следующие типы детерминированных факторных моделей (табл. 1.6).

Типы детерминированных факторных моделей

Таблица 1.6

Факторные

модели

Краткая характеристика

Аддитивные

Используются, если критериальный результативный показатель представлен в виде алгебраической суммы ряда факторных параметров показателей:

Разработанная факторная модель может быть подвергнута дополнительным преобразованиям при возникновении углубления проводимого исследования, с использованием в этих целях ряда способов и приемов. Оттого, насколько реально и точно разработанные модели отражают взаимосвязь между исследуемыми показателями, зависят конечные результаты экономического анализа бизнеса организации. Моделирование аддитивных факторных систем предполагает осуществление последовательного разложения факторов исходной факторной системы на составные переменные:

у = a + b.

Так, факторы первого уровня а и b зависят, в свою очередь, от ряда других факторов:

a = с + d, b = е + m,

y = c + d + e + m.

Факторные модели	Краткая характеристика
Мультипликативные модели	Применяются в тех случаях, когда критериальный результативный показатель выражается в виде произведения ряда факторных показателей: Суть моделирования мультипликативных факторных систем кроется в детальном последовательном разложении комплексных факторов исходной факторной системы на факторы-сомножители: у = Я X Ь. Величина факторов первого уровня а и Ь, в свою очередь, зависят от ряда других факторов: a = с х, b = е х т, y=cxdexm*
Кратные модели	Если критериальный результативный показатель можно определить как отношение одного факторного показателя к другому, то Различают следующие способы преобразования факторных кратных моделей: 1) удлинение (преобразовывает числитель, заменяя один фактор или ряд факторов на сумму однородных показателей): 2) формальное разложение (удлиняет знаменатель, заменяя один или ряд факторов на сумму или произведение однородных показателей):
	3) расширение (преобразовывает исходную факторную модель, умножая числитель и знаменатель соотношения на один показатель или несколько новых показателей):

Критериальные результативные показатели можно разложить на факторы различными способами и представить как различные типы детерминированных моделей факторов. Способ моделирования выбирают в зависимости от объекта исследования и поставленных целей, а также от профессиональных знаний и навыков аналитика.

Большинство способов оценки факторов в моделях детерминации основаны на элиминировании, наиболее универсальным методом в котором являются цепные подстановки, используемые для того, чтобы измерить влияние факторов во всех типах моделей факторной детерминации: мультипликативных, аддитивных, кратных и смешанных (комбинированных). Благодаря данному способу можно оценить как отдельные факторы оказывают влияние на величину критериального результативного показателя, постепенно заменяя базисную величину каждого фактора показателя в составе критериального показателя на фактическую величину в отчетном периоде. Для этого исчисляют ряд условных значений критериального результативного показателя, учитывающих последовательное изменение одного, двух и более факторов, при неизменном значении остальных. Сравнительная оценка изменения величины критериального параметра до и после изменения уровня того или иного фактора позволяет исключать (элиминировать) влияние всех факторов, за исключением того, воздействие которого на прирост результативного показателя определяется.

Влияние того или иного показателя оценивается благодаря последовательному вычитанию: из второго расчета первого, из третьего - второго и т.д. В первом расчете все величины являются плановыми, в последнем - фактическими. Например, алгоритм расчета при трехфакторной мультипликативной модели выглядит следующим образом:

В алгебраическом виде сумма влияния факторов равноценна общему приросту критериального результативного показателя:

При несоблюдении указанного равенства аналитику следует искать ошибки в произведенных им расчетах. Исходя из этого, разработано правило, согласно которому следует, что число расчетов на единицу больше числа показателей приведенного уравнения.

При использовании метода цепных подстановок предполагается обеспечение соблюдения строгой последовательности подстановки, ибо ее произвольное изменение чревато искажением результатов анализа. В процессе аналитических процедур целесообразно выявить влияние в первую очередь количественных показателей, затем - качественных. Например, требуется оценить влияние численности работников и производительности труда на объем производства промышленной продукции. Для этого сначала оценивается влияние количественного показателя (численности работников), а затем - качественного показателя (производительности труда).

Метод цепной подстановки обладает существенным недостатком, так как при его использовании следует считать, что величины факторов меняются независимо друг от друга. Хотя в действительности они изменяются одновременно и во взаимосвязи, что влечет за собой дополнительный прирост результативного показателя, как правило, присоединяемый к последнему из исследуемых факторов. Таким образом, величина влияния факторов на изменение результативного показателя зависит от месторасположения того или иного фактора в схеме аналитической модели. Этим объясняется разница в расчетах при изменении последовательности подстановки. Таким образом, степень влияния факторов на изменение критериального показателя колеблется в зависимости от места фактора в модели детерминации. Этот недостаток детерминированного факторного анализа устраняется благодаря использованию более сложного интегрального метода, позволяющего оценить влияние факторов в мультипликативных, кратных и смешанных моделях кратно-аддитивного вида.

Способ абсолютных разниц - это модификация способа цепной подстановки, в котором изменение критериального показателя за счет каждого фактора способом абсолютных разниц определяется как произведение отклонения изучаемого фактора на базисное или отчетное значение другого фактора в зависимости от выбранной последовательности подстановки:

Способ относительных разниц предназначен для оценки влияния факторов на прирост критериального показателя в мультипликативных и смешанных моделях вида:

Он предполагает нахождение относительного отклонения каждого факторного показателя и определение направления и размера влияния факторов в процентах путем последовательного вычитания (из первого - всегда 100%).

При применении способа сокращенных подстановок показатели для расчета представляют собой промежуточные произведения с последовательным накоплением влияющих факторов. Производятся подстановки, а затем путем последовательного вычитания находятся размеры влияния факторов.

Интегральный метод позволяет достигнуть полного разложения результативного показателя по факторам и носит универсальный характер, т.е. применим к мультипликативным, кратным и смешанным моделям. Изменение критериального показателя измеряется на бесконечно малых отрезках времени, путем суммирования приращения результата, определяемого как частные произведения, умноженные на приращения факторов на бесконечно малых промежутках.

Применение интегрального метода обеспечивает более высокую точность расчетов влияния факторов по сравнению со способами цепной подстановки, абсолютных и относительных разниц, позволяя устранить неоднозначную оценку влияния, ибо в данном случае результаты не зависят от местоположения факторов в модели, а дополнительный прирост результативного показателя, возникающий из-за взаимодействия факторов, распределяется между ними равномерно.

Для распределения дополнительного прироста недостаточно взять его часть, соответствующую количеству факторов, так как факторы могут действовать в разных направлениях. Поэтому изменение результативного показателя измеряется на бесконечно малых отрезках времени путем суммирования приращения результата, определяемого как частные произведения, умноженные на приращения факторов на бесконечно малых промежутках. Операция вычисления определенного интеграла сводится к построению подынтегральных выражений, зависящих от вида функции или модели факторной системы.

В связи со сложностью вычисления некоторых определенных интегралов и дополнительных трудностей, связанных с возможным действием факторов в противоположных направлениях, на практике используются специально сформированные рабочие формулы:

1. Модель вида

2. Модель вида

3. Модель вида

4. Модель вида

К основным приемам элиминирования, которые опираются на относительные показатели динамики, пространственных сравнений, выполнения плана (оцениваемых отношением фактического уровня исследуемого показателя со сравниваемым), относится индексный метод.

Индексные модели позволяют построить количественную оценку роли отдельных факторов в тенденциях динамики изменений обобщающих показателей в статистике, планировании и экономическом анализе. Расчет любого индекса предполагает сопоставление соизмеряемой величины с базисной. Если индекс отражается в виде соотношения непосредственно соизмеряемых величин, то его называют индивидуальным, а если индекс представляет соотношения сложных явлений, то групповым, или тотальным. Различают несколько форм индексов (агрегатные, арифметические, гармонические).

Основу любой формы общего индекса составляет агрегатный индекс, позволяющий оценить степень влияния различных факторов на изменение уровня критериальных показателей в мультипликативных и кратных моделях. На корректность определения размера каждого фактора влияют: количество знаков после запятой (не менее четырех); количество самих факторов (связь обратно пропорциональна).

Принципами построения агрегатных индексов являются: изменение одного фактора при неизменном значении всех остальных. При этом если обобщающий экономический показатель представляет собой произведение количественного (объемного) и качественного показателей факторов, то при определении влияния количественного фактора качественный показатель фиксируется на базисном уровне, а при определении влияния качественного фактора количественный показатель фиксируется на уровне отчетного периода.

Допустим, что Y - а * b * с х d,

а;

Факторный индекс, показывающий, как изменяется показатель b и т.д.;

Так называемый «общий индекс изменений в результирующем показателе» в зависимости от всех факторов.

При этом

С помощью индексного метода можно разложить по факторам не только относительные, но и абсолютные отклонения обобщающего показателя, определяя при этом влияние отдельных факторов с помощью разности между числителем и знаменателем соответствующих индексов, т.е. при расчете влияния одного фактора элиминируя влияние другого:

С помощью индексного метода факторного анализа можно разложить по факторам не только относительные, но и абсолютные отклонения в обобщающем показателе. Другими словами, влияние отдельного фактора можно определить при помощи разности между числителем и знаменателем соответствующих индексов, т.е. при расчете влияния одного фактора элиминируя влияние другого.

Допустим:

где а - количественный фактор, а b - качественный,

показателя за счет фактора а ;

Абсолютный прирост результирующего

показателя за счет фактора Ь

- абсолютный прирост результирующего

показателя за счет влияния всех факторов.

Рассмотренный принцип разложения абсолютного прироста обобщающего показателя по факторам целесообразно применять, если число факторов равно двум (один из них количественный, другой - качественный), а анализируемый показатель представлен как их произведение, так как теория индексов не дает общего метода разложения абсолютных отклонений обобщающего показателя по факторам при числе факторов более двух. Для решения этой задачи используется метод цепных подстановок.

Методы факторного анализа успешно применяются в целях объективной оценки влияния факторов на критериальный показатель деятельности организации. В качестве одного из примеров такого подхода рассмотрим, каким образом изменения в объеме реализации продукции оказывают влияние на финансовые результаты деятельности организации. Как правило, изменение выручки от реализации происходит вследствие: 1) изменения объема реализации (в натуральном выражении); 2) изменения отпускных цен. Общее изменение выручки от реализации может быть представлено в виде суммы факторных отклонений:

где N x - выручка отчетного года;

N 0 - выручка базисного года;

А N - изменение выручки в результате изменения объема реализации;

AN p - изменение выручки в результате изменения отпускных цен на продукцию;

AN c - изменение выручки в результате изменения структуры реализации продукции.

Представим выручку (N) как произведение цены реализации (Р) на объем реализации (Q ):

N 0 = Р 0 х Q 0 - выручка базисного года;

jV, = Р, х (2, - выручка отчетного года.

Оценка влияния изменения объема реализации продукции (при неизменных ценах) на изменение выручки производится следующим образом:

Оценка влияния изменения цены реализации (при неизменном объеме) на изменение выручки осуществляется следующим образом:

В процессе анализа определяется влияние такого фактора, как изменение структуры реализации, а также удельный вес отдельных ассортиментных позиций в общем объеме реализации в базисном и анализируемом периодах, а затем рассчитывается влияние структурных сдвигов на общий объем реализации. Недополученная выручка в результате изменения ассортимента реализованной продукции оценивается отрицательно, а сверхплановая выручка - положительно.

Их классификация
В современной статистике под факторным анализом понимают совокупность методов, которые на основе реально существующих связей признаков, объектов или явлений позволяют выявлять латентные (скрытые и не доступные для непосредственного измерения) обобщающие характеристики организованной структуры и механизма развития изучаемых явлений или процессов.

Понятие латентности является ключевым и означает неявность характеристик, раскрываемых при помощи методов факторного анализа.

Идея, заложенная в основе факторного анализа, достаточно проста. В результате измерения мы имеем дело с набором элементарных признаков Х i , измеренных по нескольким шкалам. Это – явные переменные. Если признаки изменяются согласованно, то можно предположить существование определенных общих причин этой изменчивости, т.е. существование некоторых скрытых (латентных) факторов. Задача анализа – найти эти факторы.

Так как факторы представляют собой объединение определенных переменных, то из этого следует, что эти переменные связаны друг с другом, т.е. обладают корреляцией (ковариацией), причем большей между собой, чем с другими переменными, входящими в другой фактор. Методы отыскания факторов и основываются на использовании коэффициентов корреляции (ковариации) между переменными. Факторный анализ дает нетривиальное решение, т.е. решение нельзя предвидеть, не применяя специальную технику извлечения факторов. Это решение имеет большое значение для характеристики явления, так как вначале оно характеризовалось достаточно большим числом переменных, а в результате применения анализа оказалось, что его можно охарактеризовать меньшим числом других переменных – факторов.

Коррелировать могут не только явные переменные Х i , но и наблюдаемые объекты N i . В зависимости от того, какой тип корреляционной связи рассматривается – между признаками или объектами – различают соответственно R и Q техники обработки данных.

В соответствии с общими принципами факторного анализа, результат каждого измерения определяется действием общих факторов, специфических факторов и «фактором» ошибки измерения. Общими называются факторы, влияющие на результаты измерений по нескольким измерительным шкалам. Каждый из специфических факторов оказывает влияние на результат измерения только по одной из шкал. Под ошибкой измерения подразумевается совокупность не поддающихся учету причин, определяющих результаты измерения. Изменчивость полученных эмпирических данных обычно описывают с помощью их дисперсии.

Вам уже хорошо известно, что для количественного описания связи между двумя переменными чаще всего используется коэффициент корреляции. Существует много разновидностей этого коэффициента, причем выбор адекватной меры связи определяется как спецификой эмпирических данных, так и измерительной шкалой.

Однако существует еще и геометрическая возможность описания связи между признаками. Графически коэффициент корреляции между двумя переменными можно изобразить в виде двух векторов – стрелок, берущих начало в одной точке. Эти векторы располагаются под углом друг к другу, косинус которого и равен коэффициенту корреляции. Косинус угла - это тригонометрическая функция, значение которой можно найти в справочнике. В рамках данной темы мы не будем обсуждать тригонометрическую функцию косинуса, достаточно знать, где найти соответствующие данные.

В таблице 7.1 приводится несколько значений косинусов углов, что даст о них общее представлении.

Таблица 7.1

Таблица косинусов для графического изображения

корреляции между переменными.

В соответствии с данной таблицей полной положительной корреляции (r 1) будет соответствовать угол в 0 (cos 0 1), т.е. графически это будет соответствовать полному совпадению обоих векторов (см. рис. 7.3 а).

Полная отрицательная корреляция (r  -1) означает, что оба вектора лежат на одной прямой, но направлены в противоположные стороны (cos 180 -1). (рис. 7.3 б).

Взаимная независимость переменных (r = 0) эквивалентна взаимной перпендикулярности (ортогональности) векторов (cos 90°= 0). (рис. 7.3 в).

Промежуточные значения коэффициента корреляции изображенные в виде пар векторов, образующих либо острые (r > 0), либо тупые (r   0 0 , r  1  180, r  -1

V 1

V 2

а б
 90, r  0   90, r  0   90, r  0

V 2

V 1
Рисунок 7.3. Геометрическая интерпретация коэффициентов корреляции.

Геометрический подход к факторному анализу

Приведенная выше геометрическая интерпретация коэффициента корреляции является основой для графического представления всей корреляционной матрицы и последующей интерпретации данных в факторном анализе .

Построение матрицы начинается с построения вектора, представляющего любую переменную. Другие переменные изображаются с помощью векторов равной длины, причем все они исходят из одной и той же точки. В качестве примера рассмотрим геометрическое выражение корреляций между пятью переменными. (Рис 7.4.)

V 1

V 5 V 2

V 4
Рисунок 7.4. Геометрическая интерпретация корреляционной матрицы (5х5).
Понятно, что не всегда можно представить корреляцию в двух измерениях (на плоскости). Некоторые векторы переменных должны были бы располагаться под углом к странице. Этот факт не является проблемой для собственно математических процедур, однако требует некоторого воображения от читателя. На рисунке 7.5. можно видеть, что корреляция между переменными V1 V2 большая и положительная (т.к между этими векторами маленькие углы). Переменные V2 V3 практически независимы друг от друга, т.к. угол между ними очень близок к 90  , т.е. корреляция равна 0. Переменные V3 - V5 связаны между собой сильно и отрицательно. Высокие корреляции между V1 и V2 являются свидетельством того, что обе эти переменные практически измеряют одно и тоже свойство и что, собственно говоря, одна из этих переменных может быть исключена из дальнейшего рассмотрения без существенной потери информации. Наиболее информативными для нас являются переменные независимые друг от друга, т.е. имеющие между собой минимальные корреляции, или углы соответствующие 90  (рис. 7.5.)

V 1

Рисунок 7.5. Геометрическая интерпретация корреляционной матрицы
Из данного рисунка видно, что существует две группы корреляций: V 1, V 2 , V 3 и V 4 , V5. Корреляции между переменными V 1, V 2 , V 3 очень большие и положительные (между этими векторами маленькие углы, а, следовательно, большие значения косинусов). Аналогично корреляция между переменными V 4 и V 5 тоже большая и положительная. А вот между этими группами переменных корреляция близка нулю, так как эти группы переменных практически ортогональны друг другу, т.е. расположены относительно друг друга под прямым углом. Приведенный пример показывает, что существует две группы корреляций и информация, полученная от этих переменных, может быть аппроксимирована двумя общими факторами (F 1 и F 2), которые в данном случае ортогональны друг другу. Однако так бывает не всегда. Разновидности факторного анализа, в которых вычисляются корреляции между факторами, расположенными не ортогонально, называются облическим решением. Однако такие случаи в рамках данного курса мы не будем рассматривать, и остановимся исключительно на ортогональных решениях.

Измеряя угол между каждым общим фактором и каждой общей переменной, можно вычислить корреляции между этими переменными и соответствующими факторами. Корреляция между переменной и общим фактором обычно называется факторной нагрузкой . Геометрическая интерпретация этого понятия дана на рис. 7.6.

F 2

Итак, из условия представленной выше задачи следует, что у нас есть массив данных, состоящий из 24 независимых переменных (утверждений), в различных аспектах описывающих текущее состояние авиакомпании X на международном рынке авиаперевозок. Основной задачей проводимого факторного анализа является группировка схожих по смыслу утверждений в макрокатегории с целью сократить число переменных и оптимизировать структуру данных.

При помощи меню Analyze >Data Reduction > Factor вызовите окно Factor Analysis. Перенесите из левого списка в правый переменные для анализа (ql-q24), как показано на рис. 5.32. Поле Selection Variable позволяет выбрать переменную, в разрезе которой будет проводиться анализ (например, класс полета). В нашем случае оставьте это поле Пустым.

Щелкните на кнопке Descriptives и в открывшемся диалоговом окне (рис. 5.33) выберите пункт КМО and Barlett"s test of sphericity. Это позволит определить, насколько имеющиеся данные пригодны для факторного анализа. Окно Descriptives позволяет вывести и другие необходимые описательные статистики. Однако в большинстве примеров из маркетинговых исследований эти возможности, как правило, не используются.

Рис. 5.32.

Рис. 5.33.

Закройте окно Descriptives, щелкнув на кнопке Continue. Далее откройте окно Extraction (рис. 5.34), щелкнув на соответствующей кнопке в главном диалоговом окне Factor Analysis. Это окно предназначено для выбора метода формирования факторной модели; выполните в нем следующие действия.

Рис. 5.34.

Во-первых, в поле Method выберите метод извлечения (формирования) факторов. Общая рекомендация по выбору метода состоит в следующем. Необходимо выбирать тот метод извлечения факторов, который позволяет однозначно классифицировать как можно больше переменных. Таким образом, основные соображения здесь -- число классифицированных факторов и однозначность классификации (то есть каждая переменная должна принадлежать только одному фактору). Как вы увидите ниже, установленный по умолчанию в SPSS метод Principal components в нашем случае позволяет однозначно классифицировать 22 переменные из 24 имеющихся (92 %), что является весьма хорошим показателем. На основании имеющегося опыта автор может утверждать, что хорошим результатом факторного анализа является доля однозначно классифицированных переменных не менее 90 %. Выберите метод Principal components. Данный метод является наиболее подходящим для решения большинства задач маркетинговых исследований при помощи факторного анализа.

Во-вторых, укажите количество образуемых факторов (группа Extract). По умолчанию установлен метод определения количества извлекаемых факторов на основании значений характеристических чисел (Eigenvalues over). He вдаваясь в статистические тонкости, отметим, что характеристические числа используются SPSS для определения количественного и качественного состава извлекаемых факторов. При предустановленном значении данного показателя, равном 1, количество образуемых факторов будет равно количеству переменных, значение характеристических чисел для которых больше или равно 1.

Также существует возможность вручную указать программе, сколько факторов необходимо извлекать (Number of factors). Эта возможность предусмотрена в SPSS для того, чтобы при слишком большом количестве переменных с характеристическим числом больше 1 вручную сократить число факторов. Большое число факторов трудно интерпретировать, поэтому если методом характеристических чисел не удается извлечь приемлемое для интерпретации число факторов (чем меньше, тем лучше), следует самостоятельно указать программе число факторов. Эта задача решается аналитиком в каждом конкретном случае индивидуально. В качестве одного из вариантов решения можно рекомендовать увеличить число eigenvalue с предустановленного значения 1, скажем, до 1,5 или более. Это поможет, если получено большое число факторов с характеристическим числом, приблизительно равным 1, и несколько (2-3 и более) факторов -- с характеристическим числом более 1,5 или другого значения. Также при ручном определении количества факторов аналитик может принять релевантное решение, основываясь на своем опыте или на каких-либо иных предположениях. И наконец, необходимо отметить, что при ручном указании числа извлекаемых факторов иногда количество однозначно классифицированных переменных оказывается меньше, чем при методе экстракции по величине характеристических чисел. Однако данный негативный момент нивелируется возросшей наглядностью результатов факторного анализа -- ведь это позволяет освободиться от факторов, в которых нет переменных со значимым коэффициентом корреляции (в нашем случае 0,5).

Закройте диалоговое окно Extraction, щелкнув на кнопке Continue. Выберите тип ротации матрицы коэффициентов (кнопка Rotation в главном диалоговом окне Factor Analysis). Ротация коэффициентной матрицы производится для того, чтобы максимально приблизить факторную модель к идеалу: возможности однозначно классифицировать все переменные. В диалоговом окне Rotation (рис. 5.35) выберите конкретный метод ротации. В большинстве случаев наиболее приемлемым вариантом является метод Varimax. Он облегчает интерпретацию факторов, минимизируя количество переменных с высокими факторными нагрузками. Выберите этот тип ротации и закройте диалоговое окно, щелкнув на кнопке Continue.

Рис. 5.35.

Далее откройте диалоговое окно Factor Scores (рис. 5.36), щелкнув на кнопке Scores. Это окно служит для создания в исходном файле данных новых переменных, которые в дальнейшем позволят отнести каждого респондента к определенной группе (фактору). Число вновь создаваемых переменных равно числу извлеченных факторов. Ниже мы покажем, каким образом использовать данные переменные. Выберите в диалоговом окне Factor Scores параметр Save as variables, а в качестве метода определения значений для этих новых переменных -- регрессионную модель Regression. После этого закройте диалоговое окно, щелкнув на кнопке Continue.

Рис. 5.36.

Последним этапом перед запуском процедуры факторного анализа является выбор некоторых дополнительных параметров (кнопка Options). В открывшемся диалоговом окне (рис. 5.37) выберите два пункта: Sorted by size и Suppress absolute values less than. Первая опция позволяет вывести переменные, входящие в каждый фактор, в порядке убывания их факторных коэффициентов (величины вклада переменной в формирование фактора). Вторая оказывается весьма полезна, так как облегчает задачу однозначной интерпретации полученных факторов. Указанное в соответствующем поле значение данного параметра (в нашем случае 0,5) отсекает переменные с факторными коэффициентами менее данного значения. Это позволяет упростить ротированную матрицу факторов, поскольку из нее исчезают незначимые переменные, входящие в каждый извлеченный фактор. Если вы не задействуете данный параметр, для каждой переменной будет отображен факторный коэффициент по каждому фактору, что излишне перегрузит факторную модель и затруднит ее восприятие исследователями.

Параметр Suppress absolute values less than вводится, чтобы облегчить практическую интерпретацию результатов факторного анализа. Так как факторные коэффициенты в результирующей ротированной матрице коэффициентов являются коэффициентами корреляции между соответствующими переменными и факторами, в большинстве практических случаев целесообразно устанавливать начальное значение отсечения незначимых переменных на уровне 0,5. Если в результате факторного анализа окажется, что число классифицированных переменных менее приемлемого (например, если структура данных не вполне подходит для факторного анализа; см. ниже), можно пересчитать факторную модель с меньшим значением отсечения (например, 0,4). В обратной ситуации, если переменная входит в несколько факторов, можно предложить повысить уровень экстракции с 0,5 до 0,6. Это позволит устранить переменные, входящие сразу в несколько факторов, увеличив практическую пригодность результатов факторного анализа.

Итак, указав все необходимые параметры в окне Options, закройте его (кнопка Continue) и запустите процедуру факторного анализа при помощи щелчка на кнопке 0К в главном диалоговом окне Factor Analysis.

Рис. 5.37.

После того как программа произведет все необходимые расчеты, откроется окно SPSS Viewer с результатами построения факторной модели. Первое, что нас интересует, -- это пригодность имеющихся данных для факторного анализа в целом. Посмотрим на таблицу КМО and Barlett"s Test (рис. 5.38). В ней есть два интересующих нас показателя: тест КМО и значимость теста Barlett. Результаты теста КМО позволяют сделать вывод относительно общей пригодности имеющихся данных для факторного анализа, то есть насколько хорошо построенная факторная модель описывает структуру ответов респондентов на анализируемые вопросы. Результаты данного теста варьируются в интервале от 0 (факторная модель абсолютно неприменима) до 1 (факторная модель идеально описывает структуру данных). Факторный анализ следует считать пригодным, если КМО находится в пределах от 0,5 до 1. В нашем случае этот показатель равен 0,9, что является весьма хорошим результатом.

Barlett"s test of sphericity проверяет гипотезу о том, что переменные, участвующие в факторном анализе, некоррелированы между собой. Если данный тест дает положительный результат (переменные некоррелированы), факторный анализ следует признать непригодным использовать другие статистические методы (например, кластерный анализ). Статистикой, определяющей пригодность факторного анализа по тесту Barlett, является значимость (строка Sig.). При приемлемом уровне

значимости (ниже 0,05) факторный анализ считается пригодным для анализа исследуемой выборочной совокупности. В нашем случае рассматриваемый тест показывает весьма низкую значимость (менее 0,001), из чего следует вывод о применимости факторного анализа.

Итак, на основании тестов КМО и Barlett мы пришли к выводу, что имеющиеся у нас данные практически идеально подходят для исследования при помощи факторного анализа.

Рис. 5.38.

Следующим шагом в интерпретации результатов факторного анализа является рассмотрение результирующей ротированной матрицы факторных коэффициентов: таблицы Rotated Component Matrix (рис. 5.39). Данная таблица является основным результатом факторного анализа. В ней отражаются результаты классификации переменных по факторам. В нашем случае при помощи автоматического метода определения количества факторов (на основании характеристических чисел больше 1) была построена практически приемлемая факторная модель, в которой 22 из 24 переменных удалось однозначно классифицировать по небольшому числу факторов (5). Данный результат может считаться хорошим.

С неклассифицированными переменными можно поступить следующим образом. Необходимо просто пересчитать факторную модель, удалив в диалоговом окне Options ранее установленное значение отсечения 0,5. Далее будет построена факторная матрица (рис. 5.40), в которой аналитику предстоит самостоятельно определить принадлежность неклассифицированных переменных к тому или иному фактору на основании критерия наибольшего коэффициента корреляции между переменными и пятью факторами. В нашем случае вы видите, что переменная ql6 в наибольшей степени коррелирует с фактором 1 (факторный коэффициент 0,468) и, следовательно, должна быть отнесена к данному фактору, а переменная q24 -- с фактором 4 (0,474).

После того как мы однозначно классифицировали все переменные, вернемся к таблице на рис. 5.40. Мы получили пять групп переменных (факторов), описывающих текущую конкурентную позицию авиакомпании X с пяти различных сторон. Вот эти группы.

q2. Авиакомпания X может конкурировать с лучшими авиакомпаниями мира. q3. Я верю, что у авиакомпании X есть перспективное будущее в мировой авиации. q23. Авиакомпания X -- лучше, чем многие о ней думают. q!4. Авиакомпания X -- лицо России.

Рис. 5.39.

qlO. Авиакомпания Х действительно заботится о пассажирах.

ql. Авиакомпания X обладает репутацией компаний, превосходно обслуживающей пассажиров.

q21. Авиакомпания X -- эффективная авиакомпания. q5. Я горжусь тем, что работаю в авиакомпании X.

ql6. Обслуживание авиакомпании X является последовательным и узнаваемым во всем мире.

ql2. Я верю, что менеджеры высшего звена прикладывают все усилия для достижения успеха авиакомпании.

qll. Среди сотрудников авиакомпании имеет место высокая степень удовлетворенности работой.

q6. Внутри авиакомпании X хорошее взаимодействие между подразделениями.

q8. Сейчас авиакомпания X быстро улучшается.

q7. Каждый сотрудник авиакомпании прикладывает все усилия для того, чтобы обеспечить ее успех.

q4. Я знаю, какой будет стратегия развития авиакомпании X в будущем.

ql7. Я бы не хотел, чтобы авиакомпания X менялась.

q20. Изменения в авиакомпании X будут позитивным моментом.

ql8. Авиакомпании X необходимо меняться для того, чтобы использовать в полной мере имеющийся потенциал.

q9. Нам предстоит долгий путь, прежде чем мы сможем претендовать на то, чтобы называться авиакомпанией мирового класса.

q22. Я бы хотел, чтобы имидж авиакомпании X улучшился с точки зрения иностранных пассажиров.

q24. Важно, чтобы люди во всем мире знали, что мы -- российская авиакомпания.

ql9. Я думаю, что авиакомпании X необходимо представить себя в визуальном плане более современно.

ql3. Мне нравится, как в настоящее время авиакомпания X представлена визуально широкой общественности (в плане цветовой гаммы и фирменного стиля).

ql5. Мы выглядим «вчерашним днем» по сравнению с другими авиакомпаниями.

Наиболее сложной задачей при проведении факторного анализа является интерпретация полученных факторов. Здесь не существует какого-либо универсального решения: в каждом конкретном случае, аналитик использует имеющийся практический опыт для того, чтобы понять, почему факторная модель относит ту или иную переменную к данному конкретному фактору. Бывают случаи (особенно при малом числе хорошо формализованных переменных), когда образованные факторы являются очевидными и различия между переменными видны невооруженным глазом. В такой ситуации можно обойтись без факторного анализа и разбить переменные на группы вручную. Однако эффективность и мощь факторного анализа проявляются в сложных и нетривиальных случаях, когда переменные нельзя заранее классифицировать, а их формулировки запутаны. Тогда большой исследовательский интерес будет вызывать классификация переменных именно на основании мнений респондентов, что позволит выявить то, как сами опрошенные поняли тот или иной вопрос.

Когда это возможно и приемлемо для целей исследования, следует формализовать переменные до проведения факторного анализа. Это позволит аналитику заранее сделать предположения о разделении совокупности имеющихся переменных на группы. Задача исследователя при интерпретации результатов факторной матрицы в данном случае упростится, так как он уже не будет начинать «с чистого листа». Его задача сведется к проверке ранее выдвинутых гипотез о принадлежности той или иной переменной к конкретной группе.

Иногда возникают случаи, когда переменная, отнесенная SPSS к конкретному фактору, логически никак не связана с остальными переменными, составляющими тот же фактор. Можно пересчитать факторную модель без отсечения незначимых коэффициентов (как в примере на рис. 5.40) и посмотреть, с каким еще фактором данная нелогичная переменная коррелирует практически с той же силой, как с фактором, к которому она была отнесена автоматически. Например, переменная Z имеет коэффициент корреляции с фактором 1, равный 0,505, а с фактором 2 она коррелирует с коэффициентом 0,491. SPSS автоматически относит данную переменную к тому фактору, с которым выявлена наибольшая корреляция, не учитывая при этом, что с другим фактором данная переменная коррелирует практически с той же силой. Именно в такой ситуации (при небольшой разнице в коэффициентах корреляции) можно попробовать отнести переменную Z к фактору 2, и если это окажется логичным, рассматривать ее в группе переменных из второго фактора.

Можно вручную сократить число извлекаемых факторов, что облегчит задачу исследователя при интерпретации результатов факторного анализа. Однако необходимо иметь в виду, что такое сокращение снизит гибкость факторной модели и даже может привести к ситуации, когда переменные будут ложно разделены на неверные, с практической точки зрения, группы. Также снижение числа извлекаемых факторов неизбежно снизит и долю однозначно классифицированных факторов.

В качестве варианта предыдущего решения можно предложить объединить два или более факторов с небольшими количествами входящих в них переменных. Такая группировка, с одной стороны, позволит снизить число интерпретируемых факторов, а с другой -- облегчит понимание малочисленных факторов.

Если исследователь зашел в тупик и никакие средства не помогают объяснить принадлежность той или иной переменной к конкретному фактору, остается применить другую статистическую процедуру (например, кластерный анализ).

Вернемся к нашим пяти факторам. Задача их описания и объяснения представляется не очень сложной. Так, можно заметить, что утверждения, входящие в первый фактор (q2, q3, q23, ql4, qlO, ql, q21, q5 и ql6), являются общими, то есть касаются всей авиакомпании и описывают отношение к ней со стороны авиапассажиров. Единственное исключение составила переменная q5, имеющая отношение скорее ко второму фактору. Коэффициент корреляции с фактором 2 -- 0,355 (см. рис. 5.40), что позволяет отнести его в данную группу из соображений логики. Фактор 2 (ql2, qll, q6, q8, q7 и q4) описывает отношение к авиакомпании X со стороны сотрудников. Третий фактор (ql7, q20 и ql8) описывает отношение респондентов к изменениям в авиакомпании (в него попали все утверждения, имеющие корень «мен» -- от слова «изменение»). Четвертый фактор (q9, q22 и q24) описывает отношение респондентов к имиджу авиакомпании. Наконец, пятый фактор (ql9, ql3 и ql5) объединяет утверждения, характеризующие отношение респондентов к визуальному образу авиакомпании X.

Таким образом, мы получили пять групп утверждений, описывающих текущую конкурентную позицию компании X на международном рынке авиаперевозок. На основании проведенного интерпретационного (семантического) анализа можно присвоить данным группам (факторам) следующие определения.

¦ Фактор 1 характеризует общее положение авиакомпании X в глазах ее клиентов.

¦ Фактор 2 характеризует внутреннее состояние авиакомпании X с точки зрения ее сотрудников.

¦ Фактор 3 характеризует изменения, происходящие в авиакомпании X.

¦ Фактор 4 характеризует имидж авиакомпании X.

¦ Фактор 5 характеризует визуальный образ авиакомпании X.

После того как мы успешно интерпретировали все полученные факторы, можно считать факторный анализ завершенным и удавшимся. Далее мы покажем, как можно использовать результаты факторного анализа для построения разрезов.

Вспомним о том, что мы сохранили факторные рейтинги (то есть принадлежность каждого респондента к определенному фактору) в исходном файле данных в виде новых переменных. Эти переменные имеют имена типа: facX_Y, где X -- это номер фактора, a Y -- порядковый номер факторной модели. Если мы строили факторную модель дважды и в результате в первый раз было извлечено три фактора, а во второй -- два, имена переменных будут следующими:

¦ facl_l, fac2_l, fac3_l (для трех факторов из первой построенной модели);

¦ facl_2, fac2_2 (для двух факторов из второй модели).

В нашем случае будет создано пять новых переменных (по числу извлеченных факторов). Эти факторные рейтинги в дальнейшем могут использоваться, например, для построения разрезов. Так, если необходимо выяснить, каким образом респонденты -- мужчины и женщины -- оценивают различные стороны деятельности авиакомпании X, это можно сделать при помощи анализа факторных рейтингов.

Наиболее частый способ использования факторных рейтингов в дальнейших расчетах -- это ранжирование и последующее разделение вновь созданных переменных, обозначающих извлеченные факторы, на четыре квартиля (25%-проценти-ля). Такой подход позволяет создать новые переменные с порядковой шкалой, описывающие четыре уровня каждого фактора. В нашем случае для утверждений, составляющих фактор 2, такими уровнями будут: не согласен (состояние внутренних дел компании не удовлетворяет сотрудников), скорее не согласен (оценка внутренней ситуации в компании ниже среднего), скорее согласен (оценка выше среднего), согласен (оценка отлично).

Чтобы создать переменные, по которым далее будут группироваться респонденты, вызовите меню Transform > Rank Cases. В открывшемся диалоговом окне (рис. 5.41) из левого списка выберите переменную, содержащую факторные рейтинги для фактора 2 (fac2_l), и поместите ее в поле Variables. Далее в области Assign Rank I to выберите пункт Smallest value, в нашем случае это означает, что первую группу (не согласен) составят респонденты, оценивающие состояние внутренних дел авиакомпании как плохое. Соответственно группы 2, 3 и 4 будут определены для категорий скорее не согласен, скорее согласен и согласен соответственно.

Рис. 5.41.

Щелкните на Rank Types > Types, отмените установленный по умолчанию параметр Rank и вместо него выберите Ntiles с предустановленным числом групп, равным 4 (рис. 5.42). Щелкните на кнопке Continue и затем в главном диалоговом окне на ОК. Данная процедура создаст в файле данных новую переменную nfac2_l (2 означает второй фактор), распределяющую респондентов на четыре группы.

Рис. 5.42.

Все респонденты в выборке характеризуются положительным, скорее положительным, скорее отрицательным или отрицательным отношением к текущему состоянию дел в авиакомпании X. Для повышения наглядности рекомендуется присвоить метки каждому из выделенных четырех уровней; можно переименовать и саму переменную. Теперь вы можете проводить перекрестный анализ при помощи новой порядковой переменной, а также строить другие статистические модели, предусмотренные в SPSS. Ниже будет показано, как использовать результаты построения факторной модели в кластерном анализе.

Для иллюстрации возможностей практического использования новой переменной проведем перекрестный анализ влияния пола респондентов на их оценку текущего состояния дел в авиакомпании X (рис. 5.43). Как следует из представленной таблицы, респонденты-мужчины в целом склонны ставить более низкие оценки рассматриваемому параметру авиакомпании по сравнению с женщинами. Так, в структуре оценок очень плохо, плохо и удовлетворительно доля мужчин преобладает; в оценках очень хорошо, напротив, преобладают женщины. При переходе в каждую следующую (более высокую) категорию оценок доля мужчин равномерно убывает, а доля женщин, соответственно, возрастает. Тест %2 показывает, что выявленная зависимость является статистически значимой.

Рис. 5.43. Перекрестное распределение: влияние пола респондентов на их оценку текущего состояния дел в авиакомпании X

ФАКТОРНЫЙ АНАЛИЗ

Идея факторного анализа

При исследовании сложных объектов, явлений, систем факторы, определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и смысл. Но для измерения могут быть доступны другие величины, так или иначе зависящие от интересующих нас факторов. Причем, когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках или свойствах объекта, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для выявления факторов, определяющих измеряемые признаки объектов, используются методы факторного анализа

В качестве примера применения факторного анализа можно указать изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению. О них можно судить только по поведению человека или характеру ответов на вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение индивидуума.
В основе различных методов факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.

Цель факторного анализа – сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более ёмких внутренних характеристик явления, которые, однако, не поддаются непосредственному измерению

Установлено, что выделение и последующее наблюдение за уровнем общих факторов даёт возможность обнаруживать предотказные состояния объекта на очень ранних стадиях развития дефекта. Факторный анализ позволяет отслеживать стабильность корреляционных связей между отдельными параметрами. Именно корреляционные связи между параметрами, а также между параметрами и общими факторами содержат основную диагностическую информацию о процессах. Применение инструментария пакета Statistica при выполнении факторного анализа исключает необходимость использования дополнительных вычислительных средств и делает анализ наглядным и понятным для пользователя.

Результаты факторного анализа будут успешными, если удается дать интерпретацию выявленных факторов, исходя из смысла показателей, характеризующих эти факторы. Данная стадия работы весьма ответственная; она требует чёткого представления о содержательном смысле показателей, которые привлечены для анализа и на основе которых выделены факторы. Поэтому при предварительном тщательном отборе показателей для факторного анализа следует руководствоваться их смыслом, а не стремлением к включению в анализ как можно большего их числа.

Сущность факторного анализа

Приведём несколько основных положений факторного анализа. Пусть для матрицы Х измеренных параметров объекта существует ковариационная (корреляционная) матрица C , где р – число параметров, n – число наблюдений. Путем линейного преобразования X =QY +U можно уменьшить размерность исходного факторного пространства Х до уровня Y , при этом р "<<р . Это соответствует преобразованию точки, характеризующей состояние объекта в j -мерном пространстве, в новое пространство измерений с меньшей размерностью р ". Очевидно, что геометрическая близость двух или множества точек в новом факторном пространстве означает стабильность состояния объекта.

Матрица Y содержит ненаблюдаемые факторы, которые по существу являются гиперпараметрами, характеризующими наиболее общие свойства анализируемого объекта. Общие факторы чаще всего выбирают статистически независимыми, что облегчает их физическую интерпретацию. Вектор наблюдаемых признаков Х имеет смысл следствия изменения этих гиперпараметров.

Матрица U состоит из остаточных факторов, которые включают в основном ошибки измерения признаков x (i ). Прямоугольная матрица Q содержит факторные нагрузки, определяющие линейную связь между признаками и гиперпараметрами.
Факторные нагрузки – это значения коэффициентов корреляции каждого из исходных признаков с каждым из выявленных факторов. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак – на обратную) связь данного признака с фактором.

Таким образом, данные о факторных нагрузках позволяют сформулировать выводы о наборе исходных признаков, отражающих тот или иной фактор, и об относительном весе отдельного признака в структуре каждого фактора.

Модель факторного анализа похожа на модели многомерного регрессионного и дисперсионного анализа. Принципиальное отличие модели факторного анализа в том, что вектор Y – это ненаблюдаемые факторы, а в регрессионном анализе – это регистрируемые параметры. В правой части уравнения (8.1) неизвестными являются матрица факторных нагрузок Q и матрица значений общих факторов Y.

Для нахождения матрицы факторных нагрузок используют уравнениеQQ т =S–V, где Q т – транспонированная матрица Q, V – матрица ковариаций остаточных факторов U, т.е. . Уравнение решается путем итераций при задании некоторого нулевого приближения ковариационной матрицы V(0). После нахождения матрицы факторных нагрузок Q вычисляются общие факторы (гиперпараметры) по уравнению
Y=(Q т V -1)Q -1 Q т V -1 X

Пакет статистического анализа Statistica позволяет в диалоговом режиме вычислить матрицу факторных нагрузок, а также значения нескольких заранее заданных главных факторов, чаще всего двух – по первым двум главным компонентам исходной матрицы параметров.

Факторный анализ в системе Statistica

Рассмотрим последовательность выполнения факторного анализа на примере обработки результатов анкетного опроса работников предприятия . Требуется выявить основные факторы, которые определяют качество трудовой жизни.

На первом этапе необходимо отобрать переменные для проведения факторного анализа. Используя корреляционный анализ, исследователь пытается выявить взаимосвязь исследуемых признаков, что, в свою очередь, даёт ему возможность выделить полный и безызбыточный набор признаков путём объединения сильно коррелирующих признаков.

Если проводить факторный анализ по всем переменным, то результаты могут получиться не совсем объективными, так как некоторые переменные определяется другими данными, и не могут регулироваться сотрудниками рассматриваемой организации.

Для того чтобы понять, какие показатели следует исключить, построим по имеющимся данным матрицу коэффициентов корреляции в Statistica: Statistics/ Basic Statistics/ Correlation Matrices/ Ok. В стартовом окне этой процедуры Product-Moment and Partial Correlations (рис. 4.3) для расчёта квадратной матрицы используется кнопка One variable list. Выбираем все переменные (select all), Ok, Summary. Получаем корреляционную матрицу.

Если коэффициент корреляции изменяется в пределах от 0,7 до 1, то это означает сильную корреляцию показателей. В этом случае можно исключить одну переменную с сильной корреляцией. И наоборот, если коэффициент корреляции мал, можно исключить переменную из-за того, что она ничего не добавит к общей сумме. В нашем случае сильной корреляции между какими-либо переменными не наблюдается, и факторный анализ будем проводить для полного набора переменных.

Для запуска факторного анализа необходимо вызвать модуль Statistics/ Multivariate Exploratory Techniques (многомерные исследовательские методы)/ Factor Analysis (факторный анализ). На экране появится окно модуля Factor Analysis.

Для анализа выбираем все переменные электронной таблицы; Variables (переменные): select all, Ok. В строке Input file (тип файла входных данных) указывается Raw Data (исходные данные). В модуле возможны два типа исходных данных – Raw Data (исходные данные) и Correlation Matrix – корреляционная матрица.

В разделе MD deletion задаётся способ обработки пропущенных значений:
* Casewise – способ исключения пропущенных значений (по умолчанию);
* Pairwise – парный способ исключения пропущенных значений;
* Mean substitution – подстановка среднего вместо пропущенных значений.
Способ Casewise состоит в том, что в электронной таблице, содержащей данные, игнорируются все строки, в которых имеется хотя бы одно пропущенное значение. Это относится ко всем переменным. В способе Pairwise игнорируются пропущенные значения не для всех переменных, а лишь для выбранной пары.

Выберем способ обработки пропущенных значений Casewise.

Statistica обработает пропущенные значения тем способом, который указан, вычислит корреляционную матрицу и предложит на выбор несколько методов факторного анализа.

После нажатия кнопки Ok появляется окно Define Method of Factor Extraction (определить метод выделения факторов).

Верхняя часть окна является информационной. Здесь сообщается, что пропущенные значения обработаны методом Casewise. Обработано 17 наблюдений и 17 наблюдений принято для дальнейших вычислений. Корреляционная матрица вычислена для 7 переменных. Нижняя часть окна содержит 3 вкладки: Quick, Advanced, Descriptives.

Во вкладке Descriptives (описательные статистики) имеются две кнопки:
1- просмотреть корреляции, средние и стандартные отклонения;
2- построить множественную регрессию.

Нажав на первую кнопку, можно посмотреть средние и стандартные отклонения, корреляции, ковариации, построить различные графики и гистограммы.

Во вкладке Advanced, в левой части, выберем метод (Extraction method) факторного анализа: Principal components (метод главных компонент). В правой части выбираем максимальное число факторов (2). Задаётся либо максимальное число факторов (Max no of factors), либо минимальное собственное значение: 1 (eigenvalue).

Нажимаем Ok, и Statistica быстро произвёдет вычисления. На экране появляется окно Factor Analysis Results (результаты факторного анализа). Как говорилось ранее, результаты факторного анализа выражаются набором факторных нагрузок. Поэтому далее будем работать с вкладкой Loadings.

Верхняя часть окна – информационная:
Number of variables (число анализируемых переменных): 7;
Method (метод выделения факторов): Principal components (главных компонент);
Log (10) determinant of correlation matrix (десятичный логарифм детерминанта корреляционной матрицы): –1,6248;
Number of factors extracted (число выделенных факторов): 2;
Eigenvalues (собственные значения): 3,39786 и 1,19130.
В нижней части окна находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа, числено и графически.
Factor rotation – вращение факторов, в данном выпадающем окне можно выбрать различные повороты осей. С помощью поворота системы координат можно получить множество решений, из которого необходимо выбрать интерпретируемое решение.

Существуют различные методы вращения координат пространства. Пакет Statistica предлагает восемь таких методов, представленных в модуле факторного анализа. Так, например, метод варимакс соответствует преобразованию координат: вращение, максимизирующее дисперсию. В методе варимакс получают упрощённое описание столбцов факторной матрицы, сводя все значения к 1 или 0. При этом рассматривается дисперсия квадратов нагрузок фактора. Факторная матрица, получаемая с помощью метода вращения варимакс, в большей степени инвариантна по отношению к выбору различных множеств переменных.

Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. Эквимакс занимает промежуточное положение? при вращении факторов по этому методу одновременно делается попытка упростить и столбцы, и строки. Рассмотренные методы вращения относятся к ортогональным вращениям, т.е. в результате получаются некоррелированные факторы. Методы прямого облимина и промакс вращения относятся к косоугольным вращениям, в результате которых получаются коррелированные между собой факторы. Термин?normalized? в названиях методов указывает на то, что факторные нагрузки нормируются, то есть делятся на квадратный корень из соответствующей дисперсии.

Из всех предлагаемых методов, мы сначала посмотрим результат анализа без вращения системы координат – Unrotated. Если полученный результат окажется интерпретируемым и будет нас устраивать, то на этом можно остановиться. Если нет, можно вращать оси и посмотреть другие решения.

Щёлкаем по кнопке "Factor Loading" и смотрим факторные нагрузки численно.

Напомним, что факторные нагрузки – это значения коэффициентов корреляции каждой из переменных с каждым из выявленных факторов.

Значение факторной нагрузки, большее 0,7 показывает, что данный признак или переменная тесно связан с рассматриваемым фактором. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак? на обратную) связь данного признака с фактором.
Итак, из таблицы факторных нагрузок было выявлено два фактора. Первый определяет ОСБ – ощущение социального благополучия. Остальные переменные обусловлены вторым фактором.

В строке Expl. Var (рис. 8.5) приведена дисперсия, приходящаяся на тот или иной фактор. В строке Prp. Totl приведена доля дисперсии, приходящаяся на первый и второй фактор. Следовательно, на первый фактор приходится 48,5 % всей дисперсии, а на второй фактор – 17,0 % всей дисперсии, всё остальное приходится на другие неучтенные факторы. В итоге, два выявленных фактора объясняют 65,5 % всей дисперсии.

Здесь мы также видим две группы факторов – ОСБ и остальное множество переменных, из которых выделяется ЖСР – желание сменить работу. Видимо, имеет смысл исследовать это желание более основательно на основе сбора дополнительных данных.

Выбор и уточнение количества факторов

Как только получена информация о том, сколько дисперсии выделил каждый фактор, можно возвратиться к вопросу о том, сколько факторов следует оставить. По своей природе это решение произвольно. Но имеются некоторые общеупотребительные рекомендации, и на практике следование им даёт наилучшие результаты.

Количество общих факторов (гиперпараметров) определяется путём вычисления собственных чисел (рис. 8.7) матрицы Х в модуле факторного анализа. Для этого во вкладке Explained variance (рис. 8.4) необходимо нажать кнопку Scree plot.

Максимальное число общих факторов может быть равно количеству собственных чисел матрицы параметров. Но с увеличением числа факторов существенно возрастают трудности их физической интерпретации.

Сначала можно отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий используется наиболее широко. В приведённом выше примере на основе этого критерия следует сохранить только 2 фактора (две главные компоненты).

Можно найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь". В соответствии с этим критерием можно оставить в примере 2 или 3 фактора.
Из рис. видно, что третий фактор незначительно увеличивает долю общей дисперсии.

Факторный анализ параметров позволяет выявить на ранней стадии нарушение рабочего процесса (возникновение дефекта) в различных объектах, которое часто невозможно заметить путём непосредственного наблюдения за параметрами. Это объясняется тем, что нарушение корреляционных связей между параметрами возникает значительно раньше, чем изменение одного параметра. Такое искажение корреляционных связей позволяет своевременно обнаружить факторный анализ параметров. Для этого достаточно иметь массивы зарегистрированных параметров.

Можно дать общие рекомендации по использованию факторного анализа вне зависимости от предметной области.
* На каждый фактор должно приходиться не менее двух измеренных параметров.
* Число измерений параметров должно быть больше числа переменных.
* Количество факторов должно обосновываться, исходя из физической интерпретации процесса.
* Всегда следует добиваться того, чтобы количество факторов было намного меньше числа переменных.

Критерий Кайзера иногда сохраняет слишком много факторов, в то время как критерий каменистой осыпи иногда сохраняет слишком мало факторов. Однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике более важен вопрос о том, когда полученное решение может быть интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее осмысленное.

Пространство исходных признаков должно быть представлено в однородных шкалах измерения, т. к. это позволяет при вычислении использовать корреляционные матрицы. В противном случае возникает проблема "весов" различных параметров, что приводит к необходимости применения при вычислении ковариационных матриц. Отсюда может появиться дополнительная проблема повторяемости результатов факторного анализа при изменении количества признаков. Следует отметить, что указанная проблема просто решается в пакете Statistica путем перехода к стандартизированной форме представления параметров. При этом все параметры становятся равнозначными по степени их связи с процессами в объекте исследования.

Плохо обусловленные матрицы

Если в наборе исходных данных имеются избыточные переменные и не проведено их исключение корреляционным анализом, то нельзя вычислить обратную матрицу (8.3). Например, если переменная является суммой двух других переменных, отобранных для этого анализа, то корреляционная матрица для такого набора переменных не может быть обращена, и факторный анализ принципиально не может быть выполнен. На практике это происходит, когда пытаются применить факторный анализ к множеству сильно зависимых переменных, что иногда случается, например, в обработке вопросников. Тогда можно искусственно понизить все корреляции в матрице путём добавления малой константы к диагональным элементам матрицы, и затем стандартизировать её. Эта процедура обычно приводит к матрице, которая может быть обращена, и поэтому к ней применим факторный анализ. Более того, эта процедура не влияет на набор факторов, но оценки оказываются менее точными.

Факторное и регрессионное моделирование систем с переменными состояниями

Системой с переменными состояниями (СПС) называется система, отклик которой зависит не только от входного воздействия, но и от обобщенного постоянного во времени параметра, определяющего состояние. Регулируемый усилитель или аттенюатор? это пример простейшей СПС, в котором коэффициент передачи может дискретно или плавно изменяться по какому-либо закону. Исследование СПС обычно проводится для линеаризованных моделей, в которых переходный процесс, связанный с изменением параметра состояния, считается завершённым.

Аттенюаторы, выполненные на основе Г-, Т- и П-образного соединения последовательно и параллельно включённых диодов получили наибольшее распространение. Сопротивление диодов под воздействием управляющего тока может меняться в широких пределах, что позволяет изменять АЧХ и затухание в тракте. Независимость фазового сдвига при регулировании затухания в таких аттенюаторах достигается с помощью реактивных цепей, включенных в базовую структуру. Очевидно, что при разном соотношении сопротивлений параллельных и последовательных диодов может быть получен один и тот же уровень вносимого ослабления. Но изменение фазового сдвига будет различным.

Исследуем возможность упрощения автоматизированного проектирования аттенюаторов, исключающего двойную оптимизацию корректирующих цепей и параметров управляемых элементов. В качестве исследуемой СПС будем использовать электрически управляемый аттенюатор, схема замещения которого приведена на рис. 8.8. Минимальный уровень затухания обеспечивается в случае малого сопротивления элемента Rs и большого сопротивления элемента Rp. По мере увеличения сопротивления элемента Rs и уменьшения сопротивления элемента Rp вносимое ослабление увеличивается.

Зависимости изменения фазового сдвига от частоты и затухания для схемы без коррекции и с коррекцией приведены на рис. 8.9 и 8.10 соответственно. В корректированном аттенюаторе в диапазоне ослаблений 1,3-7,7 дБ и полосе частот 0,01?4,0 ГГц достигнуто изменение фазового сдвига не более 0,2°. В аттенюаторе без коррекции изменение фазового сдвига в той же полосе частот и диапазоне ослаблений достигает 3°. Таким образом, фазовый сдвиг уменьшен за счет коррекции почти в 15 раз.

Будем считать параметры коррекции и управления независимыми переменными или факторами, влияющими на затухание и изменение фазового сдвига. Это даёт возможность с помощью системы Statistica провести факторный и регрессионный анализ СПС с целью установления физических закономерностей между параметрами цепи и отдельными характеристиками, а также упрощения поиска оптимальных параметров схемы.

Исходные данные формировались следующим образом. Для параметров коррекции и сопротивлений управления, отличающихся от оптимальных в большую и меньшую стороны на сетке частот 0,01?4 ГГц, были вычислены вносимое ослабление и изменение фазового сдвига.

Методы статистического моделирования, в частности, факторный и регрессионный анализ, которые раньше не использовались для проектирования дискретных устройств с переменными состояниями, позволяют выявить физические закономерности работы элементов системы. Это способствует созданию структуры устройства исходя из заданного критерия оптимальности. В частности, в данном разделе рассматривался фазоинвариантный аттенюатор как типичный пример системы с переменными состояниями. Выявление и интерпретация факторных нагрузок, влияющих на различные исследуемые характеристики, позволяет изменить традиционную методологию и существенно упростить поиск параметров коррекции и параметров регулирования.

Установлено, что использование статистического подхода к проектированию подобных устройств оправдано как для оценки физики их работы, так и для обоснования принципиальных схем. Статистическое моделирование позволяет существенно сократить объём экспериментальных исследований.

Результаты

Наблюдение за общими факторами и соответствующими факторными нагрузками – это необходимое выявление внутренних закономерностей процессов.
С целью определения критических значений контролируемых расстояний между факторными нагрузками следует накапливать и обобщать результаты факторного анализа для однотипных процессов.
Применение факторного анализа не ограничено физическими особенностями процессов. Факторный анализ является как мощным методом мониторинга процессов, так и применим к проектированию систем самого различного назначения.

Для чего используют факторный анализ. Факторный анализ, его виды и методы. Факторный анализ как метод классификации данных

ФАКТОРНЫЙ АНАЛИЗ

Фразы и выражения для успешного разговора по телефону на английском языке Деловой диалог по телефону на английском

Кто составляет задания ЕГЭ?

Анализ басни "Лягушки, просящие царя"

Функция обратная данной y 2x

Свободные колебания систем с двумя степенями свободы Переход к главным координатам

Для чего используют факторный анализ. Факторный анализ, его виды и методы. Факторный анализ как метод классификации данных

ФАКТОРНЫЙ АНАЛИЗ

Похожие статьи