Для связи в whatsapp +905441085890

Статистическое исследование зависимостей с примерами решения и образцами выполнения

Оглавление:

Рассмотрим несколько часто встречающихся задач, связанных с восстановлением зависимостей между наблюдаемыми в эксперименте переменными.

Статистическое исследование зависимостей

Общая структура задач, о которых пойдет речь ниже, такова: наблюдаются две группы переменных — объясняющая (или исходная), описываемая вектором Статистическое исследование зависимостейСтатистическое исследование зависимостей и итоговая (или выходная), описываемая скаляром у. Следует дать ответы на вопросы:
— есть ли связь между переменными х и у?
— если связь есть, то какова возможная форма этой связи?
— каковы качественные характеристики этой связи?

Ответы на перечисленные вопросы (да и сами вопросы) могут выглядеть по разному в зависимости как от природы переменных х и у, наблюдаемых в эксперименте, так и от условий проведения измерений.

Различают следующие три основные модели.

Переменные х — детерминированные, а переменная Статистическое исследование зависимостейслучайная величина.

Мы будем говорить что у зависит от х, если изменение переменных х влечет за собой изменение закона распределения случайной величины Статистическое исследование зависимостей

Статистическое исследование зависимостей

Если при этом математическое ожидание случайной величины Статистическое исследование зависимостей может быть описано некоторой функцией переменных X

Статистическое исследование зависимостей

то мы, следуя сложившейся традиции, будем называть такую зависимость регрессионной.

Широкий класс регрессионных моделей описывается следующим примером.

Пример:

Пусть Статистическое исследование зависимостей — неслучайный вектор, у =f(х). В эксперименте измеряются значения у так, что

Статистическое исследование зависимостей

Здесь Статистическое исследование зависимостей — измеренное значение переменной у, Статистическое исследование зависимостей — ошибка измерения с Статистическое исследование зависимостей (последнее означает отсутствие систематических ошибок измерения).

Соотношение (3) — модель измерений — доставляет нам пример регрессионной зависимости, так как из сделанных выше предположений следует, что

Статистическое исследование зависимостей

Как правило, в рассматриваемой ситуации вид линии регрессии Статистическое исследование зависимостей бывает известен с точностью до вектора параметров Статистическое исследование зависимостей и задача установления наличия зависимости между х и у не стойт. Требуется только определить возможные значения параметров Статистическое исследование зависимостей и установить «качество» описания величины у посредством функции Статистическое исследование зависимостей

2. Переменные Статистическое исследование зависимостей— случайные величины, совместный закон распределения которых дается функцией Статистическое исследование зависимостей. Известно, что случайные величины Статистическое исследование зависимостей независимы тогда и только тогда, когда выполняется соотношение

Статистическое исследование зависимостей

Если же равенство (5) не имеет места, то случайные величины зависимы. При этом, как и выше, выделим специальный случай, когда изменение математического ожидания случайной величины Статистическое исследование зависимостей описывается некоторой функцией от ,Статистическое исследование зависимостей

Статистическое исследование зависимостей

и будем говорить, что соотношение (6) описывает регрессию Статистическое исследование зависимостей. (Естественно, предполагается, что условные средние (6) существуют.)

Идентификация наличия или отсутствия зависимости между Статистическое исследование зависимостей представляет в рассматриваемом случае содержательную задачу, равно как и проблема установления формы регрессионной связи (6).

Важным для приложений частным случаем рассмотренной ситуации является случай совместной нормальности Статистическое исследование зависимостей. В этом случае проблема определения формы связи (6) не стоит — регрессия Статистическое исследование зависимостей является линейной и дается соотношением

Статистическое исследование зависимостей

Здесь Статистическое исследование зависимостей — ковариационная матрица вектора Статистическое исследование зависимостей, а Статистическое исследование зависимостей — ковариационная матрица Статистическое исследование зависимостей.

Как следует из соотношения (7), регрессия Статистическое исследование зависимостей полностью определяется корреляционными характеристиками совместного распределения величин Статистическое исследование зависимостей.

Конечно, регрессия может оказаться линейной не только для совместно нормальных случайных величин. В любом случае мы будем называть соответствующую связь между переменными корреляционной.

Переменные х и у — детерминированные, неслучайные переменные и в эксперименте измеряются абсолютно точно. При этом уже факт наблюдения пар конкретных значений (X, У) в одном и том же опыте определяет положительный ответ на первый вопрос, и речь может идти только об установлении формы зависимости у и х.

Здесь возможны различные постановки и способы решения — интерполяция, сглаживание и т. п. Это задачи классического анализа и мы на них останавливаться не будем.

Ниже будут рассмотрены статистические процедуры, исследующие ситуации 1 и 2. Учитывая важность для приложений случая совместной нормальности изучаемых случайных величин и их линейных описаний, основное внимание будет уделено исследованию корреляционных связей.

Случайные переменные. Корреляционные связи

Пусть в эксперименте Статистическое исследование зависимостей наблюдаются случайные переменные Статистическое исследование зависимостей и Статистическое исследование зависимостей. Проведено N опытов и получена выборка из совместного закона распределения величин Статистическое исследование зависимостей,

Статистическое исследование зависимостей

Здесь

Статистическое исследование зависимостей

Требуется по выборке (1) сделать заключение о наличии или отсутствии зависимости между переменными Статистическое исследование зависимостей и оценить эту зависимость.

Значимость коэффициента корреляции

Исследование вопроса о наличии связей между Статистическое исследование зависимостей мы начнем с простейшего случая n = 1. Тогда Статистическое исследование зависимостей — скалярные случайные величины, а выборка (1) — это выборка Статистическое исследование зависимостей из совместного закона распределения пары Статистическое исследование зависимостей

Отличие от нуля коэффициента корреляции Статистическое исследование зависимостейпары Статистическое исследование зависимостей является достаточно надежным показателем наличия зависимости между Статистическое исследование зависимостей. Эта зависимость носит корреляционный характер, т. е. может быть удовлетворительно описана линейной функцией в том смысле, что имеется четко выраженная тенденция к линейному изменению Статистическое исследование зависимостей относительно Статистическое исследование зависимостей. Точнее, в этом случае величина Статистическое исследование зависимостей представима в виде

Статистическое исследование зависимостей

и вклад остатка Статистическое исследование зависимостей в рассеяние Статистическое исследование зависимостей тем меньше, чем ближе Статистическое исследование зависимостей. В случае Статистическое исследование зависимостей между Статистическое исследование зависимостей и Статистическое исследование зависимостей имеется жесткая линейная связь, позволяющая с вероятностью восстанавливать неизвестные значения Статистическое исследование зависимостей по измеренным значениям Статистическое исследование зависимостей

Если Статистическое исследование зависимостей, то это, вообще говоря, еще не свидетельствует об отсутствии зависимости между Статистическое исследование зависимостей и Статистическое исследование зависимостей, но является надежным свидетельством в пользу отсутствия линейной зависимости.

Значит, для идентификации наличия или отсутствия линейном связи между скалярными случайными величинами достаточно уметь по выборке (1) делать заключение о равенстве или неравенстве нулю коэффициента корреляции Статистическое исследование зависимостей пары Статистическое исследование зависимостей.

Пусть Статистическое исследование зависимостей — выборочный (эмпирический) коэффициент корреляции пары Статистическое исследование зависимостей

Статистическое исследование зависимостей

Он является оценкой истинного, но неизвестного коэффициента корреляции Статистическое исследование зависимостей. Если Статистическое исследование зависимостей, то чисто случайные колебания Статистическое исследование зависимостеймогут привести к значению Статистическое исследование зависимостей. Как же выяснить, равен или не равен нулю коэффициент корреляции р по наблюдению за значением Статистическое исследование зависимостей, вычисленному по формуле (3)?

Теорема:

Пусть Статистическое исследование зависимостей — двумерная нормальная случайная величина, Статистическое исследование зависимостей — выборка значений Статистическое исследование зависимостей, полученная в эксперименте, и Статистическое исследование зависимостей— выборочный коэффициент корреляции (3). Тогда, если р = 0, то величина Статистическое исследование зависимостей, даваемая соотношением

Статистическое исследование зависимостей

имеет распределение Стьюдента с N — 2 степенями свободы.

Эта теорема дает возможность построить процедуру статистической проверки гипотезы о значимости коэффициента корреляции (т. е. гипотезы об отличии р от нуля) следующим образом. Так как при фиксированном значении N > 2 величина (4) монотонно возрастает (рис. 1), то «маленьким» значениям Статистическое исследование зависимостей отвечают «маленькие» значения Статистическое исследование зависимостей. Если истинный коэффициент корреляции р равен нулю, то его эмпирический аналог Статистическое исследование зависимостейв подавляющем большинстве случаев будет «маленьким», а, следовательно, в подавляющем большинстве случаев должна быть маленькой и величина Статистическое исследование зависимостей. Зададим некоторый (близкий к нулю) уровень значимости к и найдем значение Статистическое исследование зависимостей такое, что

Статистическое исследование зависимостей
Статистическое исследование зависимостей

При этом для Статистическое исследование зависимостей будет иметь место соотношение

Статистическое исследование зависимостей

Если окажется, что Статистическое исследование зависимостей, то гипотеза о равенстве нулю коэффициента корреляции должна быть признана не согласующейся с экспериментальными данными. Если же Статистическое исследование зависимостей, то можно считать, что р = 0 и, следовательно, величины Статистическое исследование зависимостей независимы (напомним, что мы рассматриваем случай совместной нормальности Статистическое исследование зависимостей, когда равенство нулю коэффициента корреляции эквивалентно независимости).

Если совместное распределение Статистическое исследование зависимостей не является нормальным, то основная теорема, позволившая построить критерий значимости для коэффициента корреляции, уже оказывается неверной. В этом случае рекомендуется использовать статистику Фишера Z, определяемую соотношением

Статистическое исследование зависимостей

Установлено, что уже при достаточно небольших значениях N величина Z приближенно нормальна с параметрами

Статистическое исследование зависимостей

где р — истинный коэффициент корреляции величин Статистическое исследование зависимостей. Учитывая монотонность функции Z = Z(r) на промежутке (-1, 1), мы можем, как и выше, построить процедуру статистической проверки гипотезы о значимости коэффициента корреляции.

Пусть р = 0. Тогда Статистическое исследование зависимостей. Для Статистическое исследование зависимостей определим Статистическое исследование зависимостей так, что

Статистическое исследование зависимостей

При этом

Статистическое исследование зависимостей

Гипотеза р = 0 принимается на уровне значимости х, если выполняется неравенство Статистическое исследование зависимостей; в противном случае признается значимым отличие коэффициента корреляции от нуля.

Таким образом, если предложенные выше критерии признали коэффициент корреляции значимо отличным от нуля, то можно сделать вывод о наличии зависимости между случайными величинами Статистическое исследование зависимостей, и чем ближе значения коэффициента корреляции к единице, тем лучше идентифицируемая зависимость описывается линейным соотношением (2).

Если отличие от нуля коэффициента корреляции признано незначимым, то в случае совместной нормальности это, как уже отмечалось выше, свидетельствует о независимости наблюдаемых случайных величин. В случае же, когда совместное распределение отличается от нормального, между наблюдаемыми случайными величинами возможно наличие зависимости, причем не исключается даже жесткая функциональная связь.

Множественная регрессия. Метод наименьших квадратов

Пусть теперь Статистическое исследование зависимостей — векторная случайная величина.

Если Статистическое исследование зависимостей — некоторая неслучайная функция п переменных, описывающая связь между Статистическое исследование зависимостей так, что Статистическое исследование зависимостей представима в виде

Статистическое исследование зависимостей

то естественно оценивать качество описания случайной величины Статистическое исследование зависимостей функцией Статистическое исследование зависимостей с помощью «остатка» Статистическое исследование зависимостей — чем меньше (в точно определенном смысле) Статистическое исследование зависимостей, тем лучше Статистическое исследование зависимостей описывает величину Статистическое исследование зависимостей. Если в качестве критерия малости Статистическое исследование зависимостей взять ее дисперсию, то наилучшей из всех функций Статистическое исследование зависимостей будет удовлетворяющая условию

Статистическое исследование зависимостей

Оказывается, что при достаточно естественных предположениях о законе распределения совокупности Статистическое исследование зависимостей, наилучшая (в смысле минимума дисперсии остатка) функция Статистическое исследование зависимостей существует и, как и в одномерном случае, совпадает с условным средним случайной величины Статистическое исследование зависимостей относительно Статистическое исследование зависимостей.

Теорема:

Если существует условное среднее Статистическое исследование зависимостей, то

Статистическое исследование зависимостей

◄ Рассмотрим

Статистическое исследование зависимостей

Последнее слагаемое равно нулю. Чтобы не загромождать изложение выкладками, покажем это для частного случая, когда Статистическое исследование зависимостей непрерывна.

Пусть Статистическое исследование зависимостей — совместная плотность величин Статистическое исследование зависимостей — условная плотность Статистическое исследование зависимостей относительно Статистическое исследование зависимостей. Тогда

Статистическое исследование зависимостей

С учетом Статистическое исследование зависимостей получаем, что

Статистическое исследование зависимостей

Но в силу соотношения (8) внутренний интеграл равен нулю, откуда и следует искомое.

Теперь соотношение (7) принимает вид

Статистическое исследование зависимостей

откуда (в силу неотрицательности Статистическое исследование зависимостей) немедленно заключаем, что

Статистическое исследование зависимостей

Таким образом, с точки зрения критерия минимума дисперсии остатка Статистическое исследование зависимостей, наилучшее описание зависимости Статистическое исследование зависимостей от Статистическое исследование зависимостей дается линией регрессии Статистическое исследование зависимостей на Статистическое исследование зависимостей

Статистическое исследование зависимостей

Отметим, что соотношению (10) отвечает дисперсионное соотношение, позволяющее оценивать степень тесноты связи между Статистическое исследование зависимостей и Статистическое исследование зависимостей. Имеет место следующее утверждение.

Теорема:

О разложении дисперсии. В условиях предыдущей теоремы

Статистическое исследование зависимостей

◄ Для доказательства соотношения (11) подставим в тождество (9) Статистическое исследование зависимостей и заметим, что

Статистическое исследование зависимостей

Разделим обе части соотношения (11) на Статистическое исследование зависимостей

Статистическое исследование зависимостей

и введем величину Статистическое исследование зависимостей — корреляционное отношение величины Статистическое исследование зависимостей относительно Статистическое исследование зависимостей — равенством

Статистическое исследование зависимостей

Тогда соотношение (11) запишется в виде

Статистическое исследование зависимостей

откуда видно, что если показатель (12) близок к единице — связь между Статистическое исследование зависимостейдостаточно тесная в том смысле, что среднее значение Статистическое исследование зависимостей закономерно меняется с изменением Статистическое исследование зависимостей, если же Статистическое исследование зависимостей близко к нулю, то такой тенденции нет — основной вклад в изменение Статистическое исследование зависимостей вносит случайный остаток Статистическое исследование зависимостей.

Важным случаем регрессионных связей (10) являются линейные зависимости

Статистическое исследование зависимостей

Как уже отмечалось выше (см. соотношение (7)), в случае совместной нормальности Статистическое исследование зависимостей регрессия всегда линейна. Она может оказаться таковой и в других случаях.

Поскольку любая регрессия Статистическое исследование зависимостей, независимо от того, линейна она или нет, должна удовлетворять условию Статистическое исследование зависимостей, то коэффициенты Статистическое исследование зависимостей линейной регрессии (14) могут быть найдены следующим образом. Положив Статистическое исследование зависимостей, заметим, что

Статистическое исследование зависимостей

Необходимое условие экстремума описывается набором условий

Статистическое исследование зависимостей

Если воспользоваться матричными обозначениями, то система линейных уравнений (15) может быть представлена в виде

Статистическое исследование зависимостей

где Статистическое исследование зависимостей — ковариационная матрица вектора Статистическое исследование зависимостей — матрица ковариаций Статистическое исследование зависимостей

Лемма:

Пусть компоненты вектора Статистическое исследование зависимостей линейно независимы. Тогда ковариационная матрица Статистическое исследование зависимостей невырождена и вектор коэффициентов линейной регрессии дается соотношением

Статистическое исследование зависимостей

◄ Пусть компоненты вектора Статистическое исследование зависимостей линейно зависимы, тогда существует ненулевой вектор Статистическое исследование зависимостейтакой, что

Статистическое исследование зависимостей

При этом

Статистическое исследование зависимостей

Заметим, что функция Статистическое исследование зависимостей неотрицательна и (в силу (18)) достигает в ненулевой точке Статистическое исследование зависимостей своего наименьшего значения. Поэтому однородная система (необходимое условие экстремума!)

Статистическое исследование зависимостей

имеет ненулевое решение, а отсюда следует вырожденность ковариационной матрицы Статистическое исследование зависимостей

Пусть теперь матрица Статистическое исследование зависимостей вырождена. Тогда система (19) имеет ненулевое решение Статистическое исследование зависимостей. Умножая соотношение (19) на Статистическое исследование зависимостей, заключаем, что

Статистическое исследование зависимостей

откуда (см. соотношение (18))

Статистическое исследование зависимостей

и значит с вероятностью единица компоненты Статистическое исследование зависимостей линейно зависимы. ►

Еще раз отметим, что независимо от того, линейна регрессия или нет, мы можем попытаться описать связь величины Статистическое исследование зависимостей с величинами Статистическое исследование зависимостейлинейным соотношением (14), коэффициенты которого даются равенством (17). Это будет наилучшее с рассматриваемой точки зрения линейное приближение к линии регрессии Статистическое исследование зависимостей на Статистическое исследование зависимостей, совпадающее с ней в случае, когда регрессия линейна.

Пусть Статистическое исследование зависимостей — регрессия Статистическое исследование зависимостей на Статистическое исследование зависимостей — линейная функция (14) с коэффициентами (17). Рассмотрим корреляцию Статистическое исследование зависимостей. Оказывается, функция регрессии Статистическое исследование зависимостей дает наилучшее описание случайной величины Статистическое исследование зависимостей не только с точки зрения минимума дисперсии остатка, но и имеет наибольший коэффициент корреляции с Статистическое исследование зависимостей.

Теорема:

Пусть Статистическое исследование зависимостей— произвольная функция, Статистическое исследование зависимостей — регрессия Статистическое исследование зависимостей на Статистическое исследование зависимостей Тогда

Статистическое исследование зависимостей

при этом Статистическое исследование зависимостей (см. соотношение (12)).

Рассмотрим корреляцию случайной величины Статистическое исследование зависимостей и линейной функции Статистическое исследование зависимостей (соотношение (14)) и заметим, что если регрессия Статистическое исследование зависимостей — линейна, т.е.Статистическое исследование зависимостей, то

Статистическое исследование зависимостей

Если же регрессия Статистическое исследование зависимостей линейной не является, то, как уже было отмечено выше, Статистическое исследование зависимостей Величина Статистическое исследование зависимостейопределяемая правой частью соотношения (20), в этом случае описывает качество представления случайной величины Статистическое исследование зависимостей линейной функцией переменных Статистическое исследование зависимостей и называется множественным коэффициентом корреляции.

Таким образом, множественный коэффициент корреляции Статистическое исследование зависимостейв случае линейной регрессии Статистическое исследование зависимостей совпадает с корреляционным отношением Статистическое исследование зависимостей, Если же регрессия нелинейна, то он отличен от Статистическое исследование зависимостей заключен между 0 и 1 и характеризует степень представимости Статистическое исследование зависимостей линейной комбинацией величинСтатистическое исследование зависимостей — при Статистическое исследование зависимостей корреляционная связь между Статистическое исследование зависимостей и линейными комбинациями Статистическое исследование зависимостей отсутствует, при Статистическое исследование зависимостей — имеется жесткая функциональная связь между Статистическое исследование зависимостей и компонентами Статистическое исследование зависимостейс вероятностью 1Статистическое исследование зависимостей является линейной комбинацией компонент Статистическое исследование зависимостей.

Значимость множественного коэффициента корреляции

В практической ситуации, имея дело с выборочными значениями из закона распределения совокупности Статистическое исследование зависимостей, мы не имеем возможности определить точное значение множественного коэффициента корреляции Статистическое исследование зависимостей, а можем лишь найти его выборочный аналог. При этом, как и в случае с парным коэффициентом корреляции, возникает задача установления значимости выборочного коэффициента множественной корреляции, для решения которой необходимо знание закона распределения последнего.

Пусть в эксперименте получена выборка из закона распределения совокупности Статистическое исследование зависимостей

Статистическое исследование зависимостей

Эмпирический аналог Статистическое исследование зависимостеймножественного коэффициента корреляции Статистическое исследование зависимостейможет быть построен на основе соотношения (20) заменой фигурирующих там дисперсий их выборочными аналогами, найденными по выборке (21)

Статистическое исследование зависимостей

где Статистическое исследование зависимостей — оценки (17) коэффициентов регрессии (14), полученные методом наименьших квадратов.

В предположении совместной нормальности Статистическое исследование зависимостей установлено, что если множественный коэффициент корреляции равен нулю, то квадрат его эмпирического аналога имеет известное распределение. Этим можно воспользоваться для построения процедуры проверки значимости Статистическое исследование зависимостей

◄ Пусть компоненты вектора Статистическое исследование зависимостей линейно зависимы, тогда существует ненулевой вектор Статистическое исследование зависимостей такой, что

Статистическое исследование зависимостей

При этом

Статистическое исследование зависимостей

Заметим, что функция Статистическое исследование зависимостейнеотрицательна и (в силу (18)) достигает в ненулевой точке Статистическое исследование зависимостей своего наименьшего значения. Поэтому однородная система (необходимое условие экстремума!)

Статистическое исследование зависимостей

имеет ненулевое решение, а отсюда следует вырожденность ковариационной матрицы Статистическое исследование зависимостей.

Пусть теперь матрица Статистическое исследование зависимостей вырождена. Тогда система (19) имеет ненулевое решение Статистическое исследование зависимостей. Умножая соотношение (19) на Статистическое исследование зависимостей, заключаем, что

Статистическое исследование зависимостей

откуда (см. соотношение (18))

Статистическое исследование зависимостей

и значит с вероятностью единица компоненты Статистическое исследование зависимостей линейно зависимы. ►

Еще раз отметим, что независимо от того, линейна регрессия или нет, мы можем попытаться описать связь величины Статистическое исследование зависимостей с величинами Статистическое исследование зависимостей линейным соотношением (14), коэффициенты которого даются равенством (17). Это будет наилучшее с рассматриваемой точки зрения линейное приближение к линии регрессии Статистическое исследование зависимостей совпадающее с ней в случае, когда регрессия линейна.

Пусть Статистическое исследование зависимостей — регрессия Статистическое исследование зависимостей на Статистическое исследование зависимостей — линейная функция (14) с коэффициентами (17). Рассмотрим корреляцию Статистическое исследование зависимостей. Оказывается, функция регрессии Статистическое исследование зависимостей дает наилучшее описание случайной величины Статистическое исследование зависимостей не только с точки зрения минимума дисперсии остатка, но и имеет наибольший коэффициент корреляции с Статистическое исследование зависимостей.

Теорема:

Пусть Статистическое исследование зависимостей— произвольная функция, Статистическое исследование зависимостей — регрессия Статистическое исследование зависимостей на Статистическое исследование зависимостей.Тогда

Статистическое исследование зависимостей

при этом Статистическое исследование зависимостей (см. соотношение (12)).

Рассмотрим корреляцию случайной величины Статистическое исследование зависимостей и линейной функции Статистическое исследование зависимостей (соотношение (14)) и заметим,что если регрессия Статистическое исследование зависимостей — линейна,т.е. Статистическое исследование зависимостей, то

Статистическое исследование зависимостей

Если же регрессия Статистическое исследование зависимостей линейной не является, то, как уже было отмечено выше, Статистическое исследование зависимостей ВеличинаСтатистическое исследование зависимостей, определяемая правой частью соотношения (20), в этом случае описывает качество представления случайной величины Статистическое исследование зависимостей линейной функцией переменных Статистическое исследование зависимостей и называется множественным коэффициентом корреляции.

Таким образом, множественный коэффициент корреляции Статистическое исследование зависимостейв случае линейной регрессии Статистическое исследование зависимостей совпадает с корреляционным отношением Статистическое исследование зависимостей, Если же регрессия нелинейна, то он отличен от Статистическое исследование зависимостей, заключен между 0 и 1 и характеризует степень представимости Статистическое исследование зависимостей линейной комбинацией величин Статистическое исследование зависимостей — при Статистическое исследование зависимостей корреляционная связь между Статистическое исследование зависимостей и линейными комбинациями Статистическое исследование зависимостей отсутствует, при Статистическое исследование зависимостей — имеется жесткая функциональная связь между Статистическое исследование зависимостей и компонентами Статистическое исследование зависимостейс вероятностью 1Статистическое исследование зависимостей является линейной комбинацией компонент Статистическое исследование зависимостей

Значимость множественного коэффициента корреляции

В практической ситуации, имея дело с выборочными значениями из закона распределения совокупности Статистическое исследование зависимостей, мы не имеем возможности определить точное значение множественного коэффициента корреляции Статистическое исследование зависимостей, а можем лишь найти его выборочный аналог. При этом, как и в случае с парным коэффициентом корреляции, возникает задача установления значимости выборочного коэффициента множественной корреляции, для решения которой необходимо знание закона распределения последнего.

Пусть в эксперименте получена выборка из закона распределения совокупности Статистическое исследование зависимостей

Статистическое исследование зависимостей

Эмпирический аналог Статистическое исследование зависимостеймножественного коэффициента корреляции Статистическое исследование зависимостейможет быть построен на основе соотношения (20) заменой фигурирующих там дисперсий их выборочными аналогами, найденными по выборке (21)

Статистическое исследование зависимостей

где Статистическое исследование зависимостей— оценки (17) коэффициентов регрессии (14), полученные методом наименьших квадратов.

В предположении совместной нормальности Статистическое исследование зависимостей установлено, что если множественный коэффициент корреляции равен нулю, то квадрат его эмпирического аналога имеет известное распределение. Этим можно воспользоваться для построения процедуры проверки значимости Статистическое исследование зависимостей

На практике для установления значимости отличия эмпирического коэффициента множественной корреляции от нуля пользуются тем, что величина

Статистическое исследование зависимостей

имеет распределение Фишера с (n, N — n — 1) степенями свободы при условии справедливости сделанных выше предположений о равенстве нулю Статистическое исследование зависимостей и совместной нормальности Статистическое исследование зависимостей.

По заданному уровню значимости х определяют величину Статистическое исследование зависимостей такую, что Статистическое исследование зависимостейСтатистическое исследование зависимостей. Если расчетное значение Статистическое исследование зависимостей оказывается меньше табличного Статистическое исследование зависимостей — гипотеза о незначимом отличии Статистическое исследование зависимостейот нуля считается согласующейся с результатами эксперимента и Статистическое исследование зависимостей полагается равным нулю. В противном случае считается, что коэффициент Статистическое исследование зависимостей отличен от нуля и множественная регрессия (14) дает представление о характере изменения величины Статистическое исследование зависимостей с изменением Статистическое исследование зависимостей.

Случайные переменные. Нелинейные зависимости


Пусть Статистическое исследование зависимостей — наблюдаемые в эксперименте случайные переменные. Предположим, что на основе рассмотрений предыдущих пунктов сделан вывод о незначимом отличии от нуля выборочного коэффициента корреляции (парного или множественного). Как уже неоднократно было отмечено, это дает основание для вывода об отсутствии линейной зависимости между Статистическое исследование зависимостей, но не исключает возможного наличия зависимостей нелинейных (в том числе и жестких функциональных) между ними.

Для идентификации этих зависимостей изучим корреляционное отношение Статистическое исследование зависимостей, введенное соотношением (12). Оно обладает следующими свойствами:

1. Величина корреляционного отношения Статистическое исследование зависимостей заключена между нулем и единицей. Если отношение Статистическое исследование зависимостей близко к нулю — закономерное изменение переменной Статистическое исследование зависимостей в зависимости от отсутствует. Если же Статистическое исследование зависимостей близко к 1 — средние значения Статистическое исследование зависимостей с высокой степенью надежности могут быть найдены по известным значениям Статистическое исследование зависимостей.

2. Корреляционное отношение Статистическое исследование зависимостей не меньше квадрата коэффициента корреляции (теорема пункта 3.1.2)

Статистическое исследование зависимостей

Знак равенства достигается тогда и только тогда, когда между переменными Статистическое исследование зависимостей имеется корреляционная (т. е. хорошо описываемая линейными соотношениями) связь.

Как и при анализе линейных зависимостей, достаточно уметь строить эмпирический аналог Статистическое исследование зависимостей величины Статистическое исследование зависимостей по выборке (21) и оценивать значимость отличия этого выборочного аналога от нуля. Обе задачи оказываются технически более сложными, чем аналогичные для парного и множественного коэффициентов корреляции. Уже процедура построения эмпирического аналога Статистическое исследование зависимостей предъявляет специальные требования к выборке (21) — в соответствии с (12) мы должны быть в состоянии вычислить эмпирический аналог (оценку) величины Статистическое исследование зависимостей, описывающей рассеяние Статистическое исследование зависимостей относительно линии регрессии Статистическое исследование зависимостей. А для этого необходимо, чтобы экспериментальные данные позволяли строить линию условных средних Статистическое исследование зависимостей. Возможность построения линии

условных средних может быть обеспечена, например, наличием в выборке (21) повторных измерений величины Статистическое исследование зависимостей: каждому из наблюденных значений Статистическое исследование зависимостей, отвечает несколько измерений Статистическое исследование зависимостей

Статистическое исследование зависимостей

Либо выборочные данные должны допускать объединение наблюденных значений переменной Статистическое исследование зависимостей, в группы так, чтобы каждому групповому выборочному среднему отвечало несколько значений переменной Статистическое исследование зависимостей.

В любом из указанных случаев эмпирическое корреляционное отношение может быть подсчитано по формуле

Статистическое исследование зависимостей

где Статистическое исследование зависимостей — среднее наблюденных в i-й точке значений Статистическое исследование зависимостей (либо групповое среднее игреков),

Статистическое исследование зависимостей

Статистическое исследование зависимостей — среднее всех наблюденных значений Статистическое исследование зависимостей

Статистическое исследование зависимостей

Для проверки гипотезы о значимом отличии от нуля величины Статистическое исследование зависимостейвоспользуемся тем фактом, что статистика Статистическое исследование зависимостей, задаваемая соотношением

Статистическое исследование зависимостей

и мест приближенно распределение Фишера с Статистическое исследование зависимостей степенями свободы при условии, что все сечения (групповые данные) нормальны с одинаковой дисперсией, и в предположении, что Статистическое исследование зависимостей В силу монотонности Статистическое исследование зависимостей как функции переменной Статистическое исследование зависимостей это обстоятельство дает возможность обычным образом строить процедуру проверки интересующей нас гипотезы.

По заданному уровню значимости х определяем Статистическое исследование зависимостейтак, что

Статистическое исследование зависимостей

При этом

Статистическое исследование зависимостей

и гипотеза о значимом отличии от нуля эмпирического корреляционного отношения признается согласующейся с опытными данными, если

Статистическое исследование зависимостей

В этом случае можно считать, что переменные Статистическое исследование зависимостей связаны некоторой зависимостью, вообще говоря, нелинейной. Представление о ней может дать линия условных средних, построенная по экспериментальным точкам

Статистическое исследование зависимостей

В противном случае корреляционное отношение признается равным нулю и, следовательно, можно считать, что закономерного изменения среднего значения переменной Статистическое исследование зависимостей в связи с изменением значений переменных Статистическое исследование зависимостей нет.

Неслучайные переменные.
Линейные по параметрам регрессионные модели

3.1. Основные допущения

Пусть теперь Статистическое исследование зависимостей — неслучайные переменные, связанные с неслучайной переменной у соотношением

Статистическое исследование зависимостей

где функция Статистическое исследование зависимостей известна с точностью до параметров. В эксперименте получены значения (У, X) переменных (у, х). Предполагается, что модель измерений аддитивна относительно ошибки измерений є и каждое измерение У складывается из значения f(X) и ошибки измерения Статистическое исследование зависимостей

Статистическое исследование зависимостей

При этом допускается проведение нескольких измерений в одной и той же точке X, так что выборка измеренных значений имеет вид

Статистическое исследование зависимостей

Здесь нижний индекс показывает точку, в которой проведено измерение Статистическое исследование зависимостей верхний — номер измерения в i-й точке Статистическое исследование зависимостей

Требуется найти оценки неизвестных параметров Статистическое исследование зависимостей и высказать некоторое обоснованное суждение о качестве найденного описания зависимости величины у от переменных Статистическое исследование зависимостей

Последняя задача ниже будет уточнена, однако сразу заметим, что проблему подбора наилучшего класса параметрических функций Статистическое исследование зависимостей, выбираемых для построения зависимости (1), мы здесь не обсуждаем. Предполагается, что этот класс определен из внестатистических соображений.

В дальнейшем ограничимся, чтобы избежать технических осложнений в выкладках, линейными по параметрам функциямиСтатистическое исследование зависимостей. Функции Статистическое исследование зависимостей будем предполагать линейно независимыми. Тогда модель измерений (3) запишется в виде

Статистическое исследование зависимостей

Считая ошибки Статистическое исследование зависимостейпопарно некоррелированными случайными величинами (что соответствует предположению о независимости измерений) с нулевым математическим ожиданием (отсутствие систематических ошибок) и одинаковой дисперсией Статистическое исследование зависимостей

(равноточность измерений), будем искать неизвестные параметры Статистическое исследование зависимостей, исходя из принципа минимизации суммы квадратов ошибок

Статистическое исследование зависимостей

Заметим, что в силу предположения об отсутствии систематических ошибок измерения Статистическое исследование зависимостей из соотношения (2) следует

Статистическое исследование зависимостей

В соответствии с принятой терминологией соотношение (6) позволяет назвать функцию Статистическое исследование зависимостей функцией регрессии, параметры Статистическое исследование зависимостей — параметрами регрессии; в частности, для линейной по параметрам модели (4), параметры Статистическое исследование зависимостей будем называть коэффициентами регрессии.

Оценивание коэффициентов регрессии методом наименьших квадратов

Для удобства дальнейшего изложения и обозримости выкладок перейдем от скалярной формы записи задачи (5) к векторно-матричной, для чего введем следующие обозначения: Y — вектор измерений значений переменной Статистическое исследование зависимостей — вектор ошибок измерений, Статистическое исследование зависимостей — вектор параметров. Все векторы — матрицы-столбцы,

Статистическое исследование зависимостей

Тогда исследуемая зависимость (1) представима в виде

Статистическое исследование зависимостей

где символом Статистическое исследование зависимостей обозначена матрица, транспонированная по отношению к А (в данном случае Статистическое исследование зависимостей— матрица-строка).

Модель измерений (4) запишется так

Статистическое исследование зависимостей

где F — матрица формата Статистическое исследование зависимостей, имеющая следующую структуру

Статистическое исследование зависимостей

Метод наименьших квадратов (5) в матричной форме примет вид

Статистическое исследование зависимостей

а необходимое условие экстремума

Статистическое исследование зависимостей

после несложных выкладок приводит к соотношению

Статистическое исследование зависимостей

Отметим, что функция Статистическое исследование зависимостей как функция параметров Статистическое исследование зависимостей является неотрицательно определенной квадратичной функцией, а потому достигает своего наименьшего значения. Поэтому argmin Статистическое исследование зависимостей содержится среди решений системы (10). Система линейных относительно Статистическое исследование зависимостей уравнений (10) носит название системы нормальных уравнений метода наименьших квадратов. Если матрица Статистическое исследование зависимостей оказывается невырожденной, то (10) имеет единственное решение, задаваемое соотношением

Статистическое исследование зависимостей

которое определяет оценки метода наименьших квадратов коэффициентов регрессии.

Отметим, что линейная независимость функций Статистическое исследование зависимостей не гарантирует невырожденности матрицы Статистическое исследование зависимостей, в то время как их линейная зависимость приводит к вырожденности указанной матрицы. Связано это с тем, что вырожденность или невырожденность Статистическое исследование зависимостей определяется наличием или отсутствием линейной зависимости системы столбцов матрицы F, которые представляют собой упорядоченные значения базисных функций Статистическое исследование зависимостей в точках, где проводятся измерения, с учетом их кратности

Статистическое исследование зависимостей

Матрица Статистическое исследование зависимостей является матрицей Грама векторов Статистическое исследование зависимостей— ее элементами являются скалярные произведения Статистическое исследование зависимостей. Она невырождена тогда и только тогда, когда векторы Статистическое исследование зависимостей линейно независимы.

Ясно, что для линейно зависимых функций Статистическое исследование зависимостей векторы Статистическое исследование зависимостей линейно зависимы. Линейная независимость Статистическое исследование зависимостей, как показывает следующий простой пример

Статистическое исследование зависимостей

линейной независимости векторов Статистическое исследование зависимостей не гарантирует.

Однако, даже если матрица Статистическое исследование зависимостей — вырождена, система нормальных уравнений (10) все равно разрешима, и ее решение (т. е. оценки коэффициентов регрессии) могут быть найдены с помощью обобщенного обращения матрицы Статистическое исследование зависимостей.

Свойства оценок коэффициентов регрессии

Пусть ошибки измерений Статистическое исследование зависимостей совместно нормальны с нулевым средним и ковариационной матрицей Статистическое исследование зависимостей — величина, характеризующая точность каждого отдельного измерения, I — единичная матрица порядка Статистическое исследование зависимостей Тогда статистические свойства оценок (11) коэффициентов регрессии описываются следующим утверждением.

Теорема:

Оценки (11) коэффициентов регрессии совместно нормальны с вектором средних Статистическое исследование зависимостейи ковариационной матрицей Статистическое исследование зависимостей.

◄ В силу модели (8) из формулы (11) получаем, что

Статистическое исследование зависимостей

откуда следует совместная нормальность компонент вектора оценок Статистическое исследование зависимостей, так как они являются линейными комбинациями нормальных величин. Далее

Статистическое исследование зависимостей

Заметим, что утверждения теоремы о несмещенности оценок (11) и о корреляционной матрице не зависит от предположения о нормальности ошибок. Точно так же не зависит от этого предположения некоторое свойство оптимальности оценок (4), описываемое теоремой Гаусса—Маркова.

Теорема Гаусса—Маркова:

Среди всех линейных несмещенных оценок коэффициентов регрессии оценки (11) — наилучшие в том смысле, что обладают наименьшим рассеянием.

Оценивание параметра

Оценивание параметра Статистическое исследование зависимостей

Как правило, параметр Статистическое исследование зависимостей, характеризующий точность каждого отдельного измерения при построении регрессионных зависимостей не известен и подлежит оцениванию по тем же исходным данным, по которым была построена модель. Это можно сделать различными способами. Некоторые из них мы приведем ниже.

Если Статистическое исследование зависимостей — вектор оценок (11), то модель принимает вид

Статистическое исследование зависимостей

при этом сумма квадратов ошибок, допущенных при замене экспериментальных данных Статистическое исследование зависимостей, данными, рассчитанными по модельному соотношению (7), дается соотношениемСтатистическое исследование зависимостей — минимальным значением суммы квадратов отклонений модели от расчетных данных. Имеет место следующая теорема.

Теорема об оценивании Статистическое исследование зависимостей:

Величина

Статистическое исследование зависимостей

является несмещенной оценкой неизвестной дисперсии Статистическое исследование зависимостей.

◄ В силу

Статистическое исследование зависимостей

и

Статистическое исследование зависимостей

числитель соотношения (13) может быть представлен в виде

Статистическое исследование зависимостей

где I — единичная матрица форматаСтатистическое исследование зависимостей

Далее

Статистическое исследование зависимостей

и

Статистическое исследование зависимостей

поэтому

Статистическое исследование зависимостей

Вычисляя математическое ожидание обеих частей последнего соотношения и учитывая некоррелированность компонент вектора ошибок Статистическое исследование зависимостей, получим, что

Статистическое исследование зависимостей

где Тr A — след матрицы А, обладающий следующими свойствами

Статистическое исследование зависимостей

последнее — (для согласованных относительно умножения матриц).

Отсюда немедленно следует, что

Статистическое исследование зависимостей

Если дополнительно вектор ошибок измерений считать нормальным с нулевым вектором средних и ковариационной матрицей Статистическое исследование зависимостей, то, используя метод максимального правдоподобия, можно получить отличную от (13) оценку параметра Статистическое исследование зависимостей

Статистическое исследование зависимостей

Оценка (14) свойством несмещенности обладать уже не будет, однако можно показать, что она несмещена асимптотически.

3.5. Адекватность модели

Пусть Статистическое исследование зависимостей — оценки коэффициентов регрессии (11), а зависимость переменной у от переменных Статистическое исследование зависимостейх принимается в виде

Статистическое исследование зависимостей

Важный вопрос (о соответствии построенной нами модели (15) исследуемому процессу) — насколько удачно соотношение (15) позволяет прогнозировать значения переменной у по известным значениям переменных Статистическое исследование зависимостей ?

Мы не задаемся целью установить, является ли найденная нами зависимость «истинной» или «правильной» — исследование этого вопроса лежит вне плоскости наших рассмотрений, а мы просто хотим получить ответ на вопрос о том, насколько хорошо найденная нами зависимость заменяет реальный эксперимент.

Уточним постановку задачи. Будем называть остаточной ошибкой модели величину Статистическое исследование зависимостей, т. е. сумму квадратов отклонений наблюденных в эксперименте значений Y переменной у от прогнозируемых в этих же точках значений, полученных с помощью соотношения (15). Если через Статистическое исследование зависимостей обозначить вектор, составленный из средних значений измерений переменной у в точках Статистическое исследование зависимостей, компоненты которого

Статистическое исследование зависимостей

повторяются столько раз, какова кратность (т. е. количество Статистическое исследование зависимостей) измерений в і -й точке, то остаточная ошибка может быть представлена в виде

Статистическое исследование зависимостей

◄ Положим Статистическое исследование зависимостей рассмотрим

Статистическое исследование зависимостей

Легко убедиться в том, что два последних слагаемых равны нулю. Например,

Статистическое исследование зависимостей

В полученном разложении остаточной ошибки модели первое слагаемое описывает отличие найденной нами зависимости от эмпирической регрессии, второе — рассеяние экспериментальных данных относительно эмпирической регрессии, т. е. ошибку эксперимента. Ясно, что модель тем лучше, чем меньше первое слагаемое и чем ближе остаточная ошибка модели ко второму слагаемому. Остаточная ошибка, описывает рассеяние экспериментальных данных относительно модели и не может быть меньше второго слагаемого — ошибки эксперимента. Чем меньше разница между остаточной ошибкой и рассеянием экспериментальных данных относительно эмпирической регрессии, тем лучше модель представляет наблюденные в эксперименте значения у.

Будем говорить что модель адекватно описывает результаты эксперимента, или просто, что модель адекватна, если в подавляющем большинстве случаев остаточная ошибка модели близка к ошибке эксперимента.

Статистические свойства слагаемых из соотношения (16) описываются следующей теоремой.

Теорема:

Пусть ошибки измерений совместно нормальны с нулевым вектором средних и ковариационной матрицей Статистическое исследование зависимостей

Тогда
статистики Статистическое исследование зависимостей независимы;
статистика Статистическое исследование зависимостей имеет распределение Статистическое исследование зависимостей степенями свободы, при этом величина

Статистическое исследование зависимостей

является несмещенной оценкой параметра Статистическое исследование зависимостей .

Если гипотеза об адекватности модели (15) справедлива, то дополнительно статистика

Статистическое исследование зависимостей


имеет Статистическое исследование зависимостей -распределение с N — k степенями свободы.

Сформулированная теорема позволяет установить, что величина Статистическое исследование зависимостей, описываемая отношением

Статистическое исследование зависимостей

в случае справедливости гипотезы об адекватности имеет распределение Фишера с Статистическое исследование зависимостей степенями свободы.

Задавая уровень значимости х, определяем величину Статистическое исследование зависимостей так, что Статистическое исследование зависимостей. Если рассчитанная по результатам эксперимента величина (18) окажется меньше, чем Статистическое исследование зависимостей, то гипотезу об адекватности следует признать согласующейся с опытными данными, так как в этом случае с надежностью, не худшей чем 1-х, остаточная ошибка модели ненамного превышает ошибку эксперимента. В противном случае гипотезу об адекватности следует признать плохо согласующейся с опытными данными, а в постулируемую модель внести изменения.

Точность и надежность оценивания коэффициентов регрессии

Для адекватных моделей представляет интерес вопрос о качестве оценок (11) коэффициентов регрессии: как велик может быть диапазон их надежного (для заданной степени надежности) варьирования? Поскольку оценки коэффициентов регрессии являются, вообще говоря, зависимыми случайными величинами, то желательно уметь получать информацию не только об индивидуальной, но и о совместной точности их оценивания.

Мы рассмотрим ниже процедуры определения точности оценивания коэффициентов регрессии как в предположении, что параметр Статистическое исследование зависимостей известен точно, так и считая, что он оценен по результатам эксперимента.

1. Из результатов п. 3.2.3 следует, что вектор оценок Статистическое исследование зависимостей нормален с вектором средних Статистическое исследование зависимостей и ковариационной матрицей Статистическое исследование зависимостей. При точно известной величине Статистическое исследование зависимостей этой информации достаточно для построения доверительных интервалов для каждого из коэффициентов регрессии в отдельности и для совместного определения точности их оценивания.

Индивидуальные доверительные интервалы

Каждая из компонент Статистическое исследование зависимостей, вектора а нормальна со средним Статистическое исследование зависимостей и дисперсией Статистическое исследование зависимостейСтатистическое исследование зависимостей — i-й диагональный элемент матрицы Статистическое исследование зависимостей Задавая уровень доверия х, легко находим (см. п. 1.3.1) доверительные границы для коэффициентов регрессии Статистическое исследование зависимостей

Статистическое исследование зависимостей

величины Статистическое исследование зависимостей определяются из условия Статистическое исследование зависимостей и задаются равенством

Статистическое исследование зависимостей

где Статистическое исследование зависимостей — решение уравнения Статистическое исследование зависимостей — функция стандартного нормального с параметрами (0,1) распределения.

Совместные доверительные границы

Вообще говоря (если матрица Статистическое исследование зависимостей не является диагональной), оценки коэффициентов регрессии зависимы.

Назовем главным эллипсоидом рассеяния случайного вектора Статистическое исследование зависимостей относительно Статистическое исследование зависимостей эллипсоид Статистическое исследование зависимостей, задаваемый неравенством

Статистическое исследование зависимостей

Величина є называется радиусом эллипсоида. Заметим, что уравнение

Статистическое исследование зависимостей

при заданной х однозначно разрешимо относительно Статистическое исследование зависимостей.

◄ В силу совместной нормальности компонент вектора Статистическое исследование зависимостей, уравнение (21) имеет вид

Статистическое исследование зависимостей

Сделаем в интеграле замену переменных, приводящую квадратичную форму, стоящую в показателе степени у экспоненты, к сумме квадратов. Последнее соотношение примет вид

Статистическое исследование зависимостей

Переходя к сферическим координатам в Статистическое исследование зависимостей и полагая

Статистическое исследование зависимостей

где Статистическое исследование зависимостей из соотношения (22)
получим

Статистическое исследование зависимостей

Учитывая, что

Статистическое исследование зависимостей

где Г(s) — гамма-функция Эйлера, для определения радиуса главного эллипсоида рассеяния Статистическое исследование зависимостей получаем соотношение

Статистическое исследование зависимостей

которое доказывает утверждение. ►

Если задать доверительную вероятность х (х близка к единице) и из уравнения (23) найти соответствующий ей радиус є, то совместное рассеяние оценок Статистическое исследование зависимостей коэффициентов регрессии будет описываться главным эллипсоидом Статистическое исследование зависимостей.

2. Если величина параметра Статистическое исследование зависимостей неизвестна, то, заменив в полученных выше соотношениях для индивидуальных или совместных доверительных областей значение параметра Статистическое исследование зависимостей какой-нибудь его оценкой, мы подучим приближенные индивидуальные или совместные доверительные области.

Построение точных доверительных областей в этом случае может быть осуществлено следующим образом.

Индивидуальные доверительные границы

Рассмотрим величины Статистическое исследование зависимостей определяемые отношением

Статистическое исследование зависимостей

где s — оценка параметра Статистическое исследование зависимостей, даваемая соотношением (13). Так же, как и в п. 1.3.1, можно установить, что каждая из этих величин имеет распределение Стьюдента с Статистическое исследование зависимостейстепенями свободы. Отсюда для заданной доверительной вероятности х обычным образом получаем, что точность оценивания і-го коэффициента регрессии Статистическое исследование зависимостей описывается двойным неравенством

Статистическое исследование зависимостей

Величина Статистическое исследование зависимостей находится по заданному значению х из условия

Статистическое исследование зависимостей

Совместные доверительные границы

Индивидуальные доверительные интервалы (24) не дают исчерпывающей информации о совместной оценке точности определения коэффициентов регрессии из-за возможной зависимости последних.

Для получения доверительной области в этом случае заметим, что в силу совместной нормальности компонент Статистическое исследование зависимостей вектора оценок Статистическое исследование зависимостей величина

Статистическое исследование зависимостей

имеет распределение Статистическое исследование зависимостейс k степенями свободы. По теореме из предыдущего пункта величина

Статистическое исследование зависимостей

имеет распределение Статистическое исследование зависимостейстепенями свободы и не зависит от величины, даваемой формулой (25).

Следовательно их отношение

Статистическое исследование зависимостей

имеет распределение Фишера с Статистическое исследование зависимостей степенями свободы. Зададим доверительную вероятность х и определим величину Статистическое исследование зависимостей так, что

Статистическое исследование зависимостей

Перепишем неравенство (27) с учетом (26)

Статистическое исследование зависимостей

(здесь Статистическое исследование зависимостей — оценка (13) параметра Статистическое исследование зависимостей). Искомой совместной доверительной областью для коэффициентов регрессии Статистическое исследование зависимостей будет главный эллипсоид рассеяния Статистическое исследование зависимостей радиуса Статистическое исследование зависимостей

Прогнозирование результатов эксперимента. Точность и надежность прогноза

В предыдущих разделах мы показали, как по результатам эксперимента можно найти зависимость (1) между переменными Статистическое исследование зависимостей, и описали эту зависимость соотношением (12)

Статистическое исследование зависимостей

где Статистическое исследование зависимостей— известные функции, а оценки Статистическое исследование зависимостей— даются формулой (11)

Статистическое исследование зависимостей

Эти формулы могут быть использованы теперь для прогнозирования результатов эксперимента. При этом, конечно, предполагается, что новые измерения подчиняются тем же закономерностям и структура взаимодействия переменных в новых экспериментах такая же, какой она была в экспериментах, послуживших источником информации для построения модели.

Пусть Статистическое исследование зависимостей — точка, в которой мы хотим спрогнозировать значение переменной Статистическое исследование зависимостей. Отметим, что Статистическое исследование зависимостей — предсказываемое моделью (12) значение переменной у в точке Статистическое исследование зависимостей,

Статистическое исследование зависимостей

является несмещенной оценкой математического ожидания прогнозируемого измерения Статистическое исследование зависимостей. Дисперсия этой оценки легко находится

Статистическое исследование зависимостей

откуда, учитывая равенство Статистическое исследование зависимостей, заключаем, что

Статистическое исследование зависимостей

В соответствии с принятыми допущениями прогнозируемое измерение Статистическое исследование зависимостей складывается из значения Статистическое исследование зависимостей и ошибки измерения Статистическое исследование зависимостей

Статистическое исследование зависимостей

Разница между прогнозируемым значением и предсказанным с помощью модели (12) является нормальной случайной величиной с нулевым средним

Статистическое исследование зависимостей

и дисперсией

Статистическое исследование зависимостей

Отсюда, как и выше, заключаем, что отношение

Статистическое исследование зависимостей

имеет распределение Стьюдента Статистическое исследование зависимостей степенями свободы. Это позволяет нам оценивать точность прогноза стандартным образом — задаем надежность х, близкую к единице, и находим значение Статистическое исследование зависимостей такое, что Статистическое исследование зависимостей С вероятностью,
не меньшей х, при этом выполняется соотношение

Статистическое исследование зависимостей

указывающее границы, в которых с надежностью, не худшей х, находится прогнозируемое значение Статистическое исследование зависимостей переменной у.

Здесь Статистическое исследование зависимостей — оценка дисперсии Статистическое исследование зависимостей

Заключение

Завершая обсуждение простейших задач статистического анализа экспериментальных данных отметим, что рассмотренные нами проблемы допускают широкое обобщение, как с точки зрения постановок, так и с точки зрения используемых методов исследования. Одним из важнейших обстоятельств, определяющих успех в постановке и решении статистических задач, является четкое осознание исследователем того, каким фактическим исходным материалом он обладает, какие цели он перед собой ставит и чего в конечном итоге хочет добиться. Постановка задачи определяет, как правило, не только аппарат, необходимый для ее решения, но, зачастую, и способы получения экспериментального материала.

Не менее существенной является и интерпретация результатов применения тех или иных статистических процедур.

Только компетентность исследователя и корректность статистика являются гарантией содержательной и безошибочной интерпретации. Сами по себе статистические процедуры не решают реальных прикладных проблем, однако правильно понятые и объясненные результаты их применения являются надежным ориентиром для прикладника.

Примеры решения задач

1. Случайные величины Статистическое исследование зависимостей независимы и нормальны с одинаковым средним, равным 2. Известно, что их дисперсии относятся соответственно как 3:4:2. Найти ковариационную матрицу этих случайных величин, если известно, что

Статистическое исследование зависимостей

Решение:

Поскольку случайные величины Статистическое исследование зависимостей — независимы, то они некоррели-рованы. Следовательно, искомая ковариационная матрица диагональна и ее диагональные элементы — дисперсии случайных величин Статистическое исследование зависимостей соответственно:

Статистическое исследование зависимостей

Далее, из независимости и нормальности заключаем, что любая линейная комбинация этих случайных величин — нормальная случайная величина. В частности

Статистическое исследование зависимостей

где

Статистическое исследование зависимостей

и

Статистическое исследование зависимостей

Пусть дисперсия случайной величины Статистическое исследование зависимостей равна Статистическое исследование зависимостей. Тогда из условия задачи получим, что Статистическое исследование зависимостей

Для нахождения величины Статистическое исследование зависимостей используем последнее условие задачи

Статистическое исследование зависимостей

Отсюда

Статистическое исследование зависимостей

Искомая ковариационная матрица

Статистическое исследование зависимостей

2. Пара случайных величин Статистическое исследование зависимостей имеет совместное нормальное распределение с вектором математических ожиданий {-2,-1} и ковариационной матрицей К

Статистическое исследование зависимостей

Известно, что Статистическое исследование зависимостей Найти Статистическое исследование зависимостей

Решение:

Совместная нормальность пары случайных величин Статистическое исследование зависимостей обеспечивает нормальность каждой из них и любой их линейной комбинации, в частности величина Статистическое исследование зависимостей нормальна с параметрами

Статистическое исследование зависимостей

Подставляя в последнее соотношение элементы ковариационной матрицы:

Статистическое исследование зависимостей

получим

Статистическое исследование зависимостей

По условию Статистическое исследование зависимостей, откуда, используя нормальность Статистическое исследование зависимостей,

Статистическое исследование зависимостей

Искомые дисперсии равны, соответственно,

Статистическое исследование зависимостей

3. Найти ковариацию ординаты и абсциссы точки Статистическое исследование зависимостей, равномерно распределенной в квадрате К с вершинамиСтатистическое исследование зависимостей Зависимы ли эти случайные величины?

Решение:

Пара Статистическое исследование зависимостей равномерно распределена в квадрате, значит, ее плотность задается соотношением

Статистическое исследование зависимостей

Для ковариации получаем

Статистическое исследование зависимостей

Поскольку

Статистическое исследование зависимостей

постольку

Статистическое исследование зависимостей

Тем не менее случайные величины Статистическое исследование зависимостей зависимы, так как изменение значения одной из них вызывает изменение диапазона значений другой .

4. Двумерная случайная величина Статистическое исследование зависимостей имеет вектор математических ожиданий {0, -1} и ковариационную матрицу

Статистическое исследование зависимостей

Достаточно ли этих данных, чтобы спрогнозировать значения компоненты Статистическое исследование зависимостей при известных значениях компоненты Статистическое исследование зависимостей?

Решение:

Заметим, что

Статистическое исследование зависимостей

Отсюда Статистическое исследование зависимостей, и это значит, что между случайными величинамиСтатистическое исследование зависимостей имеется линейная функциональная зависимость, описываемая соотношением

Статистическое исследование зависимостей

Следовательно, при известных значениях компоненты Статистическое исследование зависимостей значения компоненты Статистическое исследование зависимостей могут быть спрогнозированы с вероятностью 1.

5. Случайные величины Статистическое исследование зависимостей связаны соотношением

Статистическое исследование зависимостей

Известно, что Статистическое исследование зависимостей Найти ковариационную матрицу этих случайных величин.

Решение:

Умножая данное в условии линейное соотношение последовательно на Статистическое исследование зависимостей и находя математические ожидания от обеих частей получающихся равенств, получим

Статистическое исследование зависимостей

В силу равенства нулю математических ожиданий случайных величин, математические ожидания квадратов будут равны дисперсиям, а математические ожидания произведений — ковариациям. Для элементов ковариационной матрицы приходим к системе

Статистическое исследование зависимостей

или, подставляя известные дисперсии рассматриваемых случайных величин

Статистическое исследование зависимостей

Решая эту систему, получим искомую ковариационную матрицу

Статистическое исследование зависимостей

Решение заданий и задач по предметам:

Дополнительные лекции по теории вероятностей:

  1. Случайные события и их вероятности
  2. Случайные величины
  3. Функции случайных величин
  4. Числовые характеристики случайных величин
  5. Законы больших чисел
  6. Статистические оценки
  7. Статистическая проверка гипотез
  8. Теории игр
  9. Вероятность события
  10. Теорема умножения вероятностей
  11. Формула полной вероятности
  12. Теорема о повторении опытов
  13. Нормальный закон распределения
  14. Определение законов распределения случайных величин на основе опытных данных
  15. Системы случайных величин
  16. Нормальный закон распределения для системы случайных величин
  17. Вероятностное пространство
  18. Классическое определение вероятности
  19. Геометрическая вероятность
  20. Условная вероятность
  21. Схема Бернулли
  22. Многомерные случайные величины
  23. Предельные теоремы теории вероятностей
  24. Оценки неизвестных параметров
  25. Генеральная совокупность