Что изучает корреляционный анализ. Корреляционно-регрессионный анализ в Excel: инструкция выполнения


Понятие взаимосвязи довольно распространено в психологических исследованиях. С ним приходится оперировать психологу тогда, когда появляется необходимость сопоставить измерения двух или нескольких показателей признаков или явлений, чтобы сделать какие-либо выводы.

Характер взаимосвязи между изучаемыми явлениями может быть однозначным, т.е. таким, когда определенному значению одною признака соответствует четкое и определенное значение другого. Так, например, в субтесте на поиск закономерностей тестов психических функций количество набранных «сырых» баллов определяется по формуле:
Xi = Sтз - Sоз / Sтз + Sпз * Sbс,
где Xi - значение варианты, Sтз - количество априорно заданных закономерностей (соответствий) в субтесте, Sоз - количество ошибочно указанных соответствий испытуемым, Sоз - количество не указанных (пропущенных) соответствий испытуемым, Sbс - количество всех просмотренных испытуемыми слов в тесте.

Такая взаимосвязь получила название функциональной: здесь один показатель является функцией другого, который представляет собой аргумент по отношению к первому.

Однако однозначная четкая взаимосвязь встречается не всегда. Чаще приходится сталкиваться с таким положением, при котором одному значению признака могут соответствовать несколько значений другого. Эти значения варьируют в пределах более или менее очерченных границ. Такой вид взаимосвязи получил название корреляционной или соотносительной.

Применяется несколько видов выражения корреляционной взаимосвязи. Так, для выражения взаимосвязи между признаками, имеющими количественный характер варьирования своих значений, используют меры центральной тенденции: табулирование с последующим вычислением коэффициента парной корреляции, коэффициент множественной и частной корреляции, коэффициент множественной детерминации, корреляционное отношение.

Если необходимо изучить взаимосвязь между признаками, варьирование которых носит качественный характер (результаты проективных методов исследования личности, исследования по методу Семантического дифференциала, исследования с использованием Открытых шкал и т.д.), то используют коэффициент качественной альтернативной корреляции (тетрахорический показатель), критерий Пирсона x2, показатели сопряженности (контингенции) Пирсона и Чупрова.

Для определения качественно-количественной корреляции, т.е. такой корреляции, когда один признак имеет качественное варьирование, а другой - количественное.применяются специальные методы.

Коэффициент корреляции (термин впервые введен Ф. Гальто-ном в 1888 г.) - показатель силы связи между двумя сопоставляемыми вариантами выборки (выборок). По какой бы формуле не вычислялся коэффициент корреляции, его величина колеблется в пределах от -1 до +1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. Обычно это прямая линия, проходящая через точки пересечения значений каждой пары данных.

Если значения вариант не выстраиваются на прямой, а образуют «облако», то коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления «облака» приближается к нулю. Если коэффициент корреляции равен 0, обе варианты полностью независимы друг от друга.

Всякое вычисленное (эмпирическое) значение коэффициента корреляции должно быть проверено на достоверность (статистическую значимость) по соответствующим таблицам критических значений коэффициента корреляции. Если эмпирическое значение меньше или равно табличному для 5-процентного уровня (Р = 0,05), корреляция не является значимой. Если вычисленное значение коэффициента корреляции больше табличного для Р = 0,01, корреляция статистически значима (достоверна).

В случае, когда величина коэффициента заключена между 0,05 > Р > 0.01, на практике говорят о значимости корреляции для Р = 0,05.

Коэффициент корреляции Браве-Пирсона (г) - это предложенный в 1896 г. параметрический показатель, для вычисления которого сравнивают средние арифметические и средние квадратические значения вариант. Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

где E Xi Xi1 - сумма произведений значений попарно сопоотавимых вариантов, n-колличество сравниваемых пар, NXap, X1ap - средние арифметические вариант Xi, Xi; соответственно, Qx, Qx, -средние квадратические отклонения распределений х и х.

Коэффициент корреляции рангов Спирмена Rs (коэффициент ранговой корреляции, коэффициент Спирмена) является простейшей формой коэффициента корреляции и измеряет связь между рангами (местами) данной варианты по разным признакам, не учитывая ее собственного значения. Здесь исследуется скорее качественная связь, чем количественная.

Обычно этот непараметрический критерий используется в случаях, когда нужно сделать выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения крайне асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент корреляции Браве-Пирсона (в этих случаях бывает необходимо превратить количественные данные в порядковые). Если коэффициент Rs близок к +1, то это означает, что два ряда ранжированной по тем или иным признакам выборки практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Как и вычисление коэффициента корреляции Браве-Пирсона, вычисления коэффициента Rs удобнее представлять в табличной форме.

Регрессия обобщает понятие функциональной взаимосвязи на случай стохастического (вероятностного) характера зависимости между значениями вариант. Целью решения категории регрессионных задач является оценка значения непрерывной выходной вариативности по значениям входных вариант.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

Математические методы анализа и прогнозирования

Корреляционный анализ

Введение

2. Регрессионный анализ

3. Факторный анализ

4. Кластерный анализ

5. Анализ динамики и прогнозирования социально-правовых процессов

Заключение

Между социально-экономическими явлениями и процессами воз­можны два вида зависимости: функциональная и стохастическая. При или иных параметров, характеризующих различные явления. Примеры такого рода зависимостей в социальной среде практически не встречаются.

При стохастической (вероятностной) зависимости конкретному значению зависимой переменной соответствует набор значений объ­ясняющей переменной. Это связано, прежде всего, с тем, что на за­висимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных: вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.

В социально-экономической сфере приходится сталкиваться со многими явлениями, имеющими вероятностную природу. Так, число совершенных и раскрытых преступлений за фиксированный отрезок времени, число дорожно-транспортных происшествий в каком-либо регионе за определенное время - все это случайные величины.

Для изучения стохастических взаимосвязей существуют специальные методы, в частности корреляционный анализ ("корреляция" ­соотношение, связь между имеющимися явлениями и процессами).

Корреляционный анализ - это использование в определенной последовательности совокупности статистических методов обработки ин­формации, позволяющее исследовать взаимосвязи между различными признаками.

Задачей корреляционного анализа как метода математической статистики является установление формы и направления связи, а также измерение тесноты этой связи между изучаемыми случайными признаками.

В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции . Величина линейной зависимости одной перемен­ной от нескольких других измеряется коэффициентом множественной ми после устранение части линейной зависимости, обусловленной связью этих переменных с другими переменными.

По форме корреляционные связи могут быть линейными (прямо­линейными) и нелинейными (криволинейными), а по направлению ­

Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшают­ся) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увели­чению) значений другого признака.



Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корре­ляции и проверки их значимости.

Коэффициент корреляции может принимать значения при прямой связи от 0 до +1, а при обратной от -1 до 0. При коэффициен­тах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффици­ентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 ­связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).

Однако такая упрощенная оценка силы связи не всегда кор­ректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициен­та корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уве­ренности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (крити­ческих) значений коэффициента корреляции.

Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При дан­ном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.

Для определения существования и величины линейной зависи­мости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [{Xi,Yi},i=1,n] на плоскость . Полученный график называется допустимости предположения о линейной зависимости между перемен­ными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого исполь­зуется выборочный коэффициент корреляции:

где n - количество измерений, Xi,Yi - i-е значения, X,Y - сред­ние значения, sx, sy - среднеквадратические отклонения перемен­ных X и Y соответственно.

В теории статистического анализа корреляционная связь опре­деляется как линейная зависимость в условиях нормальности расп­ределения анализируемых переменных. Поэтому для корректного при­менения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.

Достаточно простой в вычислительном отношении способ про­верки нормальности эмпирического распределения состоит в оценке следующего отношения:

,

где C - среднее абсолютное отклонение, s - среднеквадратическое отклонение.

Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности примене­ния коэффициента корреляции как меры линейной статистической связи между переменными.

В общем случае на уровень преступности влияет множество фак­торных признаков. К ним относятся социально-экономические, геог­рафические и климатические, демографические и др., а также приз­наки, характеризующие силы и средства, степень организованности органа внутренних дел.

Однако даже при наличии сильной статистически значимой свя­зи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существо­вать другие причины (факторы), определяющие их совместную ста­тистическую взаимосвязь. Статистические выводы должны быть всег­да обоснованы надежной теоретической концепцией.

В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержа­тельная концепция и практический опыт указывают на ее возможное существование.

Изучение реальной действительности показывает, что практически каждое общественное явление находится в тесной связи и взаимодействии с другими явлениями, какими бы случайными они не казались на первый взгляд. Так, например, уровень урожайности сельскохозяйственных культур зависит от множества природных и экономических факторов, тесно связанных между собой.

Исследования и измерения взаимосвязей и взаимозависимостей социально-экономических явлений является одной из важнейших задач статистики.

Для исследования взаимосвязей между явлениями статистика использует ряд методов и приемов: статистические группировки (простые и комбинационные). индексный, корреляционный и дисперсионный анализ, балансовый, табличный, графический и др. Содержание, специфика и возможности применения некоторых из перечисленных методов уже были рассмотрены в предыдущих разделах учебника. Индексный и графический методы рассматриваются соответственно в 11 и 12 главах.

Наряду с уже рассмотренными методами изучения взаимосвязей особое место занимает метод корреляции, который является логическим продолжением таких методов как аналитическое группировки, дисперсионный анализ и сопоставление параллельных рядов. В сочетании с этими методами он предоставляет статистическому анализу законченный, завершенный характер.

Основателями теории корреляции являются английские статистики Ф.Гальтон (1822-1911 гг.) и К.Пірсон (1857-1936 гг.).

Срок корреляция происходит от английского слова correlation - соотношение, соответствие (взаимосвязь, взаимозависимость) между признаками, которая проявляется при массовом наблюдении изменения средней величины одного признака в зависимости от значения другой. Признаки, связанные между собой корреляционным связью, называют корельованими.

Корреляционный анализ дает возможность измерить степень влияния факторных признаков на результативные, установить единую меру тесноты связи и роль изучаемого фактора (факторов) в общем изменении результативного признака. Корреляционный метод позволяет получить количественные характеристики степени связи между двумя и большим числом признаков, а потому в отличие от рассмотренных выше методов, дает более широкое представление о связи между ними.

Связи между факторами достаточно разнообразны. При этом одни признаки выступают в роли факторов, действующих на другие, вызывая их изменение, вторые-в роли действия этих факторов. Первые из них называют факторными признаками, вторые -результативными.

Исследуя связи между признаками, необходимо выделить прежде всего два вида связей: 1) функциональный (полный) и 2) корреляционная (статистическая) связь.

Функциональным называют такую связь между признаками, при которой каждому значению одной переменной (аргумента) соответствует строго определенное значение другой переменной (функции). Такие связи наблюдаются в математике, физике, химии, астрономии и других науках.

Например, площадь круга (8 = яР2) и длина окружности (С = 27ГЇР) полностью определяется величиной радиуса, площади треугольника и прямоугольника - длина их сторон и т.д. Так, с увеличением радиуса окружности на 1 см его длина увеличивается на 6,28 см, на 2 см - на 12,56 см и т.д.

В сельскохозяйственном производстве примером функциональной связи может быть связь между выручкой от продажи продукции, цене реализации 1 ц и количеством реализованной продукции; валовому сбору, урожайности и размеру посевной площади; фондоотдачей, стоимостью валовой продукции и основных фондов; заработной платой и количеством отработанного времени при повременной оплате и т.д.

Функциональная связь проявляется как в совокупности в целом, так и в каждой ее единицы абсолютно точно и выражается с помощью аналитических формул.

В социально-экономических явлениях функциональные связи между признаками случаются редко. Здесь чаще всего имеют место следующие связи между переменными величинами, при которых численному значению одной из них соответствует несколько значений другого. Такая связь между признаками получил название корреляционной (статистической) связи. Например, известно, что с увеличением доз минеральных удобрений и улучшением их структуры (соотношения), как правило, урожайность сельскохозяйственных культур повышается, но хорошо известно, что прирост урожайности в каждом отдельном случае будет разным при одинаковых нормах внесения удобрений. Кроме того, одни и те же нормы удобрений, даже при очень выровненных условиях, часто по-разному влияют на урожайность. Кроме самих удобрений на величину формирования урожайности влияют также другие факторы, прежде всего, такие как качество почвы, осадки, сроки и способы сева и уборки и т.д. Известна закономерность между урожайностью и удобрениями проявится при достаточно большом количестве наблюдений и при сравнении достаточно большого количества средних значений результативного и факторного признаков.

Примером корреляционной связи в сельскохозяйственном производстве может быть связь между продуктивностью животных и уровнем кормления, качеством кормов, породностью скота; между стажем работы и производительностью труда рабочих и т.д.

Корреляционная связь является неполным, он проявляется при большом количестве наблюдений, при сравнении средних значений результативного и факторного признаков. В этом отношении выявление корреляционных зависимостей связано с действием закона больших чисел: только при достаточно большом количестве наблюдений индивидуальные особенности и второстепенные факторы сгладятся и зависимость между результативным и факторным признаками, если она имеет место, окажется достаточно отчетливо.

С помощью корреляционного анализа решают следующие основные задачи:

а) определение среднего изменения результативного признака под влиянием одного или нескольких факторов (в абсолютном или относительном выражении);

б) характеристика степени зависимости результативного признака от одного из факторов при фиксированном значении других факторов, включенных в корреляционной модели;

в) определение тесноты связи между результативными и факторными признаками (как со всеми факторами, так и с каждым фактором в отдельности при исключении влияния других);

г) определение и разложения общего объема вариации результативного признака на соответствующие части и установление роли каждого отдельного фактора в этой вариации;

д) статистическая оценка выборочных показателей корреляционной связи. Корреляционная связь выражается соответствующими математическими уравнениями. По направлению связь между корелюючими признакам может быть прямым и обратным. При прямой связи оба признака изменяются в одном направлении, то есть с увеличением факторного признака возрастает результативная и наоборот (например, связь между качеством почвы и урожайностью, уровнем кормления и продуктивностью животных, стажем работы и производительностью труда). При обратном связи оба признака изменяются в разных направлениях (например, связь между урожайностью и себестоимостью продукции, производительностью труда и себестоимостью продукции).

По форме или аналитическим выражением различают связи прямолинейные (или просто линейные) и нелинейные (или криволинейные). Если связь между признаками выражается уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой (параболы, гиперболы, показательной, степенной и т.д.), то такую связь называют нелинейной или криволинейным.

в Зависимости от количества исследуемых признаков различают парную (простую) и множественную корреляцию. При парной корреляции изучают связь между двумя признаками (результативным и факторным), при множественной корреляции - связь между тремя и большим числом признаков (результативным и двумя и большим числом факторов).

С помощью метода корреляционного анализа решается две главных задачи: 1) определение формы и параметров уравнения связи; 2) измерение тесноты связи.

Первая задача решается нахождением уравнения связи и определению его параметров. Второе - с помощью расчета различных показателей тесноты связи (коэффициент корреляции, корреляционного отношения, индекса корреляции и др.).

Схематично корреляционный анализ можно разделить на пять этапов:

1) постановка задачи, установление наличия связи между исследуемыми признаками;

2) отбор наиболее существенных факторов для анализа;

3) определение характера связи, его направления и формы, выбор математического уравнения для выражения существующих связей;

4) расчет числовых характеристик корреляционной связи (определение параметров уравнения и показателей тесноты связи);

5) статистическая оценка выборочных показателей связи.

Научно обоснованное применение корреляционного метода требует прежде всего глубокого понимания сущности взаимосвязей социально-экономических явлений. Сам метод не устанавливает наличие и причин возникновения связей между изучаемыми явлениями, его назначение состоит в их количественном измерении. На первом этапе корреляционного анализа осуществляется общее ознакомление с исследуемым объектом и явлениями, уточняются цель и задачи исследования, устанавливается теоретическая возможность причинно-следственной связи между признаками.

Установление причинных зависимостей в изучаемом явлении предшествует собственно корреляционному анализа. Поэтому применению методов корреляции должен предшествовать глубокий теоретический анализ, который охарактеризует основной процесс, протекающий в исследуемом явлении, определит существенные связи между отдельными его сторонами и характер их взаимодействия.

Предварительный анализ данных создает основу для формулирования конкретной задачи исследования связей, отбора важнейших факторов, установление возможной формы взаимосвязи признаков и тем самым приводит к математической формализации - к выбору математического уравнения, которое наиболее полно реализует существующие связи.

Одним из важнейших вопросов корреляционного анализа является отбор результативной и факторной (факторных) признаков. Факторные и результативные признаки, отбираемые для корреляционного анализа, должны быть существенными, первые должны непосредственно влиять на другие. Отбор факторов для включения их в корреляционную модель должен базироваться прежде всего на теоретических основах и практическом опыте анализа исследуемого социально-экономического явления. Большую помощь в решении этой задачи могут оказать такие статистические приемы и методы, как сопоставление параллельных рядов, построение таблиц распределения численностей по двум признакам (корреляционных таблиц, построение статистических группировок как по результативным признаком с анализом взаимосвязанных с ним факторов, так и по факторным признаком (или комбинацией факторных признаков) с анализом их влияния на результативный признак.

Отбор факторов для парных корреляционных моделей не сложный: из множества факторов, влияющих на результативный признак, отбирается один из важнейших факторов, который в основном определяет вариацию результативного признака или же фактор, существенность влияния которого на результативный признак предполагается изучить или проверить. Отбор факторов для множественных корреляционных моделей имеет ряд особенностей и ограничений. Они будут рассмотрены при изложении вопросов множественной корреляции.

Одной из главных проблем построения корреляционной модели является определение формы связи и на этой основе установление типа аналитической функции, отражающей механизм связи результативного признака с факторным (факторными). Под формой корреляционной связи понимают тип аналитического уравнения, выражающего зависимость между исследуемыми признаками.

Выбор того или иного уравнения для исследования связей между признаками является наиболее трудным и ответственным заданием, от которого зависят результаты корреляционного анализа. Все дальнейшие найретельніші расчеты могут быть обезцінені, если форма связи выбрана неверно. Важность этого этапа заключается в том, что правильно установленная форма связи позволяет подобрать и построить наиболее адекватную модель и на основе ее решения получить статистически достоверные и надежные характеристики.

Установление формы связи между признаками в большинстве случаев обосновывается теорией или практическим опытом предыдущих исследований. Если форма связи неизвестна, то при парной корреляции математическое уравнение может быть установлено с помощью составления корреляционных таблиц, построения статистических группировок, просмотра различных функций на ЭВМ и выбор такого уравнения, которое дает наименьшую сумму квадратов отклонений фактических данных от выровненных (теоретических) значений и др.

в Зависимости от исходных данных теоретической линией регрессии могут быть различные типы кривых или прямая линия. Так, если изменение результативного признака под влиянием фактора характеризуется постоянными приращениями, то это указывает на линейный характер связи, если же изменения результативного признака под влиянием фактора характеризуется постоянными коэффициентами роста, то есть основание предположить криволинейный связь.

Особое место в обосновании формы связи при проведении корреляционного анализа относится графиков, построенных в системе прямоугольных координат на основе эмпирических данных. Графическое изображение фактических данных дает наглядное представление о наличии и форму связи между исследуемыми признаками.

Согласно правилам математики при построении графика на оси абсцисс откладывают значения факторного признака, а на оси ординат - значения результативного признака. Отложив на пересечении соответствующих значений двух признаков точки, получим точечный график, который называют корреляционным полем. По характеру размещения точек на корреляционному поле делают вывод о направление и форму связи. Достаточно взглянуть на график, чтобы прийти к выводу о наличие и форму связи между признаками. Если точки концентрируются вокруг мнимой оси направленного слева, снизу, направо, вверх, то связь прямая, если к напротив слева, сверху, направо, вниз - связь обратная. Если точки разбросаны по всему полю, то это свидетельствует о том, что связь между признаками отсутствует или очень слабый. Характер размещения точек на корреляционному поле указывает также и на наличие прямолинейного или криволинейного связи между исследуемыми признаками.

С помощью графика подбирают соответствующее математическое уравнение для количественной оценки связи между результативным и факторным признаками. Уравнение, отражающее связь между признаками, называют уравнением регрессии или корреляционным уравнением. Если уравнение регрессии связывает только два признака, то оно называется уравнением парной регрессии. Если уравнение связи отражает зависимость результативного признака от двух и более факторных признаков, оно называется уравнением множественной регрессии. Кривые, построенные на основе уравнений регрессии, называют кривыми регрессии или линиями регрессии.

Различают эмпирическую и теоретическую линии регрессии. Если на корреляционному поле соединить точки отрезками прямой линии, то получим ломаную линию с некоторой тенденцией, которая называется эмпирической линией регрессии. в Теоретической линией регрессии называется та линия, вокруг которой концентрируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи. Теоретическая линия регрессии должна отражать изменение средних величин результативного признака по мере изменения величин факторного признака при условии полного взаємопогашення всех других - случайных по отношению к фактору - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек корреляционного поля от соответствующих точек теоретической линии равнялась нулю, а сумма квадратов отклонений была бы минимальной величине. Поиск, построение, анализ и практическое применение теоретической линии регрессии называют регрессионным анализом.

По эмпирической линией регрессии не всегда удается установить форму связи и добрать уравнения регрессии. В таких случаях строят и решают различные уравнения регрессии. Затем оценивают их адекватность и подбирают такое уравнение, которое обеспечивает наилучшую аппроксимацию (приближение) фактических данных к теоретическим и достаточную статистическую достоверность и надежность.

Если подходить строго, регресійно-корреляционный анализ следует расчленить на регрессионный и корреляционный. Регрессионный анализ решает вопрос построения, разрешения и оценки уравнений регрессии, а при корреляционному анализе этих вопросов присоединяется еще круг вопросов, связанных с определением тесноты связи между результативным и факторным (факторными) признакам. В дальнейшем изложении регресійно-корреляционный анализ рассматривается как единое целое и называется просто корреляционный анализ.

Чтобы результаты корреляционного анализа нашли практическое применение и дали научно обоснованные результаты, должны выполняться определенные требования в отношении объекта исследования и качества исходной статистической информации. Основные из этих требований следующие:

Качественная однородность исследуемой совокупности, что предполагает близость формирование результативных и факторных признаков. Необходимость выполнения этого условия вытекает из содержания параметров уравнения связи. Из математической статистики известно, что параметры являются средними величинами. В качественно однородной совокупности они будут типичными характеристиками, в качественно разнородной - искаженными, что искажают характер связи. Количественная однородность совокупности заключается в отсутствии единиц наблюдения, которые за своими числовыми характеристиками существенно отличаются от основной массы данных. Такие единицы наблюдения следует исключать из совокупности и изучать отдельно;

Достаточно большое число наблюдений, поскольку связи между признаками обнаруживаются только в результате действия закона больших чисел. Количество единиц наблюдения должна в 6 - 8 раз превышать число включенных в модель факторов;

Случайность и независимость отдельных единиц совокупности друг от друга. Это означает, что значения признаков в одних единиц совокупности не должны зависеть от значений других единиц данной совокупности;

Устойчивость и независимость действия отдельных факторов;

Постоянство дисперсии результативного признака при изменении факторных признаков; - нормальное распределение признаков.

Выбор редакции
Денежная единица РФ "...Статья 27. Официальной денежной единицей (валютой) Российской Федерации является рубль. Один рубль состоит из 100...

Техника "100 желаний" Научиться исполнять желания может каждый. Для этого нужно всего лишь договориться со своим подсознанием! А как это...

Получив атеистическое воспитание, я долгое время не испытывал интереса, а уж тем более священного трепета от религиозных святынь да...

Скакать во сне на белой лошади - прекрасный знак. В первую очередь он сулит Вам прочность дружеских связей и радость встреч с товарищами...
Заранее говорю, никогда не пробовала делать с другим сыром, только с твердыми сортами. В данном рецепте я использовала остатки трех...
Будьте чуткими к изменениям настроения любимых людей! Помните: мы получаем от мира ровно то, что ему даем. Хотите, чтобы окружающие...
Татуировка - практически такое же древнее явление, как и существование человечества. Тату были обнаружены даже на телах мумий, найденных...
Святой Спиридон Тримифунтский - очень почитаемый подвижник во всем христианском мире. К его мощам, на острове Корфу в Греции, постоянно...
Праздники, кто же их не любит? А что же легло в основу праздника День Народного Единства в России ? Праздник единства подчеркивает: какой...