Решения 🤴 и примеры задач по математической статистике по всем темам и готовыми ответами

Оглавление:

Математическая статистика задачи с решением

Прежде чем изучать готовые решения задач по математической статистике, нужно знать теорию, поэтому для вас я подготовила краткую теорию по предмету «математическая статистика», после которой подробно решены задачи.

Эта страница подготовлена для школьников и студентов.

Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!

Приступая к изучению элементов статистики, отметим несколько особенностей в постановке и решении ее задач в сравнении с задачами теоретико-вероятностными.

Теория вероятностей, исходя из известных характеристик совокупности случайных величин, отвечает на вопрос о возможности осуществления того или иного события, обусловленного рассматриваемыми случайными величинами:

знаем закон распределения совокупности случайных величин — хотим уметь находить вероятности событий, которые этими случайными величинами определяются.

В статистике мы решаем задачи, в некотором смысле обратные, а именно: наблюдая некоторые события, о которых известно, что возможность их осуществления или неосуществления обусловливается комплексом случайных величин, хотим определить эти (неизвестные) случайные величины, их вероятностные характеристики:

знаем результаты наблюдений {конкретные значения, принятые случайной величиной} —хотим сделать какие-нибудь заключения о законе распределения (в частности о параметрах и числовых характеристиках} наблюдаемой случайной величины.

Ясно, что в силу принципиальной непредсказуемости результатов наблюдения за случайной величиной, выводы, сделанные на основе результатов эксперимента, будут информативными только в том случае, когда эти наблюдения «хорошие» — т. е. те значения £, которые имеют большую вероятность, будут наблюдаться в эксперименте чаще, а имеющие меньшую вероятность — реже. Законы больших чисел утверждают, что в подавляющем большинстве экспериментов так и будет. Однако, это не гарантирует нам, что данный конкретный эксперимент окажется именно таким.

Поэтому всякое статистическое заключение недостоверно: если основа заключения «хороший» эксперимент, то заключение достаточно близко к истине, если «плохой», то ошибочно. При этом «хорош» эксперимент или «плох» определяется не нами, не нашей добросовестностью наблюдателя и тщательностью экспериментатора, а исключительно случаем — природой.

Сказанное хорошо иллюстрируется следующим примером: пусть наблюдаются результаты n-кратного бросания монеты. Если бросать монету достаточно долго, то частота появления, например, герба, как гласит закон больших чисел в форме Бернулли, будет близка к вероятности. Поэтому по частоте (наблюдаемой и вычисляемой величине) можно сделать заключение о вероятности (неизвестной величине). Насколько это заключение соответствует истине?

Пусть монета симметрична, т. е. Р(Г) = Р(Р) = 0,5 (что тем не менее не препятствует асимметрии в количестве появлений герба и решки в конкретном эксперименте)!

Может статься, что в серии из 100 бросаний герб появится 45 раз, а решка 55, а может статься и так, что герб появится 20 раз, а решка — 80. Ясно, что первая серия может быть признана «хорошей» с точки зрения рассматриваемой задачи, а вторая — «плохой». В любом случае мы сделаем заключение о неизвестной вероятности выпадения герба по наблюденной в эксперименте частоте и в первом случае положим Р(Г) = 0,45, а во втором — 0,2. Основанием для оптимизма является то важное обстоятельство, что «плохие» серии будут встречаться тем реже, чем длиннее серия! Значит, при достаточно длинной серии бросаний эксперимент скорее будет «хорошим» чем «плохим», и определенная по результатам такого эксперимента Р(Г) будет «похожа» на истинную. Достоверность статистического вывода будет определяться тем, насколько «редки» плохие эксперименты.

Практика использования статистических процедур показывает, что чаще всего решения, принятые на основании подобных выводов, оказываются верными. И именно это обстоятельство (согласованность статистических выводов с экспериментом) делает математическую статистику не бесполезной в практическом отношении наукой.

В дальнейшем мы неоднократно будем употреблять термины «маленькая вероятность», «маловероятное событие» и т. п. Какая же вероятность может считаться маленькой, а какая нет? Не вдаваясь подробно в обсуждение этого вопроса, заметим только, что абсолютная величина вероятности вне связи с конкретной обстановкой не дает нам никаких сведений о ее малости или немалости. Скажем, если нам известно, что вероятность осуществления некоторого события равна 0,01, то эта вероятность будет маленькой, если комплекс условий, обусловливающий рассматриваемое событие, складывается один раз за сто лет. Если же комплекс условий, при котором наблюдается рассматриваемое событие, складывается каждые пять минут, то эта же вероятность должна рассматриваться как значительная. Другими словами, под маленькой вероятностью мы будем понимать вероятность такого события, которое практически не наблюдается, вне зависимости от ее численного значения.

Математическая статистика

Математическая статистика – это раздел математики, изучающий математические методы сбора, систематизации, обработки и интерпретации результатов наблюдений с целью выявления статистических закономерностей.

Статистический материал и его обработка

Результаты наблюдений массовых явлений, случайных величин составляют статистические данные или статистический материал. Выборкой объёма Решение задач по математической статистике называется совокупность случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака Решение задач по математической статистике у некоторой части статистической совокупности (выборки), полученной в результате статистического отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).

Результаты наблюдений выборки Решение задач по математической статистике объёма записываются, в частности, в виде статистической совокупности;

При больших значениях Решение задач по математической статистике и различных значениях xt статистическую совокупность подвергают специальным видам статистической обработки.

Расположим значения Решение задач по математической статистике которые назовём вариантами, в порядке возрастания и обозначим . Величина называется размахом статистической совокупности. Среди значений Решение задач по математической статистике могут быть одинаковые. Пусть значение наблюдалось раз, раз, наблюдалось раз. Тогда общий объём выборки равен . Число показывающее, сколько раз встречается варианта (значение) Решение задач по математической статистике называется частотой а число — относительной частотой варианты .

Последовательность Решение задач по математической статистике записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом. Статистическим рядом называется последовательность пар Решение задач по математической статистике . Обычно статистический ряд записывается в виде следующей таблицы:

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины Решение задач по математической статистике — ломаная с вершинами — см. рисунок 1.

Вариационный ряд обозрим при небольших значениях . В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.

Все варианты Решение задач по математической статистике принадлежат отрезку . Пусть к некоторое (не больше 20) натуральное число. Отрезок разобьём на равных частей длины .

Обозначим эти промежутки следующим образом: Решение задач по математической статистике . Через обозначим число вариант, попавших в интервал , при этом будем считать, что каждый промежуток содержит свой левый конец, но лишь последний промежуток содержит и свой правый конец. Пусть Решение задач по математической статистике (числа и можно также отнести к середине . интервала ). Полученные данные занесём в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.

Количество интервалов Решение задач по математической статистике можно рассчитать по формуле Стерджеса либо с помощью таблицы:

Геометрическим изображением интервальной обработки служит гистограмма (см. рисунок 1). Гистограммой частот называется множество прямоугольников с основаниями Решение задач по математической статистике и высотами . Площадь гистограммы равна объёму выборки .

Нормированная гистограмма (гистограмма относительных частот) представляет собой ступенчатую фигуру из прямоугольников с основаниями равными интервалам значений признака Решение задач по математической статистике и высотами, равными плотности частоты . Если соединить прямолинейными отрезками середины верхних оснований прямоугольников, получим полигон распределения. Суммарная площадь всех прямоугольников гистограммы равна 1:

Эмпирической функцией распределении (функцией распределения выборки) называется функция Решение задач по математической статистике , определяющая для каждого значения относительную частоту события (см. рисунок 2):

где Решение задач по математической статистике — число вариант , меньших чем — объем выборки.

Функция Решение задач по математической статистике обладает следующими свойствами (здесь ):

-монотонно неубывающая, непрерывная слева функция.

Функция Решение задач по математической статистике является статистическим аналогом функции распределения генеральной совокупности. Функцию распределения в математической статистике называют теоретической функцией распределения. Различие между теоретической и эмпирической функциями распределения состоит в том, что Решение задач по математической статистике определяет вероятность события , a — относительную частоту этого события.

Эмпирическая функция распределения служит для оценки вида теоретической функции распределения случайного признака, полигон и гистограмма — для оценки вида теоретической кривой распределения.

Числовые характеристики законов распределения эмпирических величии

Одна из задач математической статистики состоит в установлении закона распределения случайной величины Решение задач по математической статистике (генеральной совокупности) и оценке параметров этого закона.

Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из параметров этого закона.

Важнейшим этапом обработки статистических данных является вычисление оценок числовых характеристик исследуемой случайной величины.

Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.

Любая величина Решение задач по математической статистике , определяемая как функция выборочных значений = , называется выборочной статистикой или просто статистикой. Статистика в, используемая в качестве приближённого значения неизвестного параметра Решение задач по математической статистике , называется статистической оценкой параметра .

Существует два вида оценок параметров: точечные и интервальные.

Точечной называется статистическая оценка, которая определяется одним числом.

К точечным статистическим оценкам предъявляется ряд требований.

Если Решение задач по математической статистике — статистическая оценка параметра , то она должна удовлетворять следующим условиям:

1) быть несмещенной, что означает, что Решение задач по математической статистике .

2) быть состоятельной, т.е. предел по вероятности при Решение задач по математической статистике последовательности таких оценок должен быть равен искомому параметру, т.е. вероятность того, что , стремится к нулю при .

3) быть эффективной, т.е. дисперсия Решение задач по математической статистике — наименьшая или быть асимптотически эффективной, что означает, что .

Число Решение задач по математической статистике называется точностью оценки, если имеет место равенство . Если это неравенство имеет место с некоторой вероятностью , то число Решение задач по математической статистике называется надёжностью оценки или уровнем надёжности. Наиболее употребительными уровнями надёжности являются 0,999.

Выборочной средней называют среднее арифметическое значение случайной величины по выборочной совокупности объёма :

Выборочная средняя служит несмещенной оценкой математического ожидания признака Решение задач по математической статистике или генеральной совокупности.

Кроме выборочной средней в статистическом анализе применяются структурные средние: медиана и мода.

Модой Мо называют варианту, которая имеет наибольшую частоту. Если распределение интервальное, то определяется модальный интервал Решение задач по математической статистике , которому соответствует наибольшая частота , мода вычисляется по формуле:

где Решение задач по математической статистике — величина модального интервала; — частоты предмодального и послемодального интервала.

Медианой Me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если Решение задач по математической статистике , а если , то при вычислении медианы интервального ряда распределения используется формула:

где Решение задач по математической статистике — накопленная частота интервала, предшествующего медианному, включая интервал, предшествующий медианному; — — начальное значение интервала, который содержит медиану. Номер медианного интервала определяется из неравенства Решение задач по математической статистике случае выполнения равенства номер медианного интервала равен , в противном случае — .

Средние величины не отражают изменчивости (вариации) значений признака. Чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения Решение задач по математической статистике вводят свободную характеристику — выборочную дисперсию.

Выборочной дисперсией Решение задач по математической статистике называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения :

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Выборочная дисперсия является смещённой оценкой генеральной дисперсии, так как

В качестве несмещенной оценки генеральной дисперсии служит «исправленная» выборочная дисперсия:

При достаточно больших Решение задач по математической статистике выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если < 50.

Выборочная средняя и дисперсия вариационного ряда являются частными случаями более общего понятия — выборочных (эмпирических) моментов.

Начальный момент Решение задач по математической статистике — го порядка вариационного ряда определяется по формуле

Центральный момент Решение задач по математической статистике — го порядка вариационного ряда определяется по формуле

В частности

Центральные моменты первых четырёх порядков выборки Решение задач по математической статистике выражаются через начальные моменты по формулам:

Коэффициентом асимметрии вариационного ряда называется число

Эксцессом вариационного ряда называется число:

Асимметрия называется также нормированным третьим центральным моментом, а эксцесс — нормированным четвертым центральным моментом признака Решение задач по математической статистике . Знаки асимметрии и эксцесса указывают на отклонения графика закона распределения от нормального распределения, для которого Решение задач по математической статистике . При большая часть вариант будет расположена слева от — имеет место левосторонняя асимметрия распределения, при — правосторонняя. Если Решение задач по математической статистике , в этом случае распределение имеет симметричную форму (рисунок 3).

Положительное значение эксцесса указывает на то, что полигон распределения около моды имеет более высокую острую вершину, чем нормальная кривая, с тем же центром и той же дисперсией.

Отрицательное значение эксцесса имеет место для кривых с более низким и более плоским характером вершины по сравнению с нормальной кривой (см. рисунок 4).

Точечные оценки не указывают величину ошибки, которая совершается при замене Решение задач по математической статистике и их приближёнными значениями (оценками). Поэтому иногда выгодно пользоваться интервальной оценкой, которая определяется двумя числами Решение задач по математической статистике и — концами интервала, накрывающего оцениваемый параметр в с заданной вероятностью (надёжностью).

Пусть Решение задач по математической статистике — точечная оценка параметра . Она тем лучше, чем меньше разность . Тогда в качестве характеристики точности оценки можно взять некоторое Решение задач по математической статистике , такое, что . Но в статистике можно говорить лишь о вероятности (надёжности) , с которой выполняется это неравенство. Число Решение задач по математической статистике называется уровнем значимости.

Доверительной вероятностью оценки называется вероятность Решение задач по математической статистике выполнения неравенства . Обычно у задаётся заранее и наиболее часто полагают и пр. Таким образом:

Доверительный интервал — это интервал Решение задач по математической статистике , который накрывает неизвестный параметр с заданной надёжностью .

Границы интервала и его величина находятся по выборочным данным и поэтому являются случайными величинами в отличие от оцениваемого параметра Решение задач по математической статистике , поэтому говорят, что накрывает, а не содержит истинное значение .

Величина доверительного интервала существенно зависит от объёма выборки Решение задач по математической статистике (уменьшается с ростом ) и значения доверительной вероятности (увеличивается с приближением к единице).

Интервальной оценкой с надёжностью у математического ожидания а нормально распределённой случайной величины (признака) Решение задач по математической статистике по выборочной средней при известном СКО генеральной совокупности служит доверительный интервал

где Решение задач по математической статистике — точность оценки, — объём выборки, — значение аргумента функции Лапласа при котором .

При неизвестном Решение задач по математической статистике (в условиях эксперимента обычно неизвестно) доверительный интервал для математического ожидания нормально распределённой случайной величины Решение задач по математической статистике имеет вид:

где Решение задач по математической статистике — квантиль распределения Стьюдента, определяемый по таблицам, а параметры находятся по данным выборки.

При больших выборках распределение Стьюдента приближается к нормальному, и тогда можно пользоваться теоремами о нормальном распределении.

Доверительный интервал для Решение задач по математической статистике задаётся неравенствами:

где Решение задач по математической статистике — квантили распределения, определяемые по соответствующим таблицам по заданному уровню значимости а и числу степеней свободы Решение задач по математической статистике , либо

Величина Решение задач по математической статистике находится по таблице и зависит от надежности и объема выборки.

Статистическая проверка гипотез

Статистической гипотезой называется предположение относительно параметров или вида распределения изучаемой случайной величины.

Статистические гипотезы можно разделить на следующие основные группы:

1 (гипотезы о параметрах распределения;

2)гипотезы о виде распределения.

Выдвинутую гипотезу называют нулевой и обозначают ее через Решение задач по математической статистике . Наряду с рассматривают конкурирующую (или альтернативную) гипотезу .

Таким образом, ставится задача проверки гипотезы Решение задач по математической статистике относительно конкурирующей гипотезы на основе выборки объема . Правило, по которому принимается или отвергается гипотеза, называется статистическим критерием. Принципы проверки статистических гипотез впервые были сформулированы в работах известных математиков Е. Неймана и Э. Пирсона. Они исходили из того, что принимая или отвергая гипотезу Решение задач по математической статистике , можно допустить ошибки двух видов.

Ошибка первого рода: Решение задач по математической статистике отвергается (принимается ) в то время как в действительности верна гипотеза . Вероятность ошибки первого рода называют уровнем значимости и обозначают Решение задач по математической статистике :

Величину Решение задач по математической статистике , то есть вероятность принять верную гипотезу, называют уровнем доверия (доверительным уровнем).

Ошибка второго рода: Решение задач по математической статистике принимается, в то время как верна гипотеза . Вероятность ошибки второго рода обозначается .

Вероятность принять гипотезу Решение задач по математической статистике если она верна, называют мощностью критерия.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) Решение задач по математической статистике , полученная по выборке , так, чтобы в случае, если гипотеза верна, точное или приближенное распределение было бы известным. Построение критерия, в зависимости от вида гипотезы Решение задач по математической статистике , заключается в выборе таких значений и , что если то гипотеза принимается. Значения и называются критическими, а область Решение задач по математической статистике называется областью допустимых значений.

Множество возможных значений статистики Решение задач по математической статистике разбивается на 2 непересекающихся подмножества: критическую область — множество значений , при которых отвергается — Решение задач по математической статистике , и область допустимых значений — множество значений , при которых принимается — . Если фактически наблюдаемое (полученное по выборке) значение статистики критерия Решение задач по математической статистике попадает в критическую область, то гипотезу отвергают, в противном случае принимают.

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона

Одной из задач математической статистики является установление истинного закона распределения случайной величины на основании экспериментальных данных. Критерии, устанавливающие закон распределения, называются критериями согласия.

Алгоритм применения критерия Пирсона.

1)Из генеральной совокупности образовывается случайная выборка, и на ее основе делается предположение о нормальном законе распределения. Выдвигается гипотеза Решение задач по математической статистике : «генеральная совокупность распределена нормально».

2)Вычисляются выборочные числовые характеристики Решение задач по математической статистике .

3)Вычисляются теоретические частоты:

а) Для дискретного ряда

где Решение задач по математической статистике — объем выборки, — шаг (разность между двумя соседними вариантами),

Значения Решение задач по математической статистике определяются из таблицы приложения 1.

б) Для интервального ряда Решение задач по математической статистике , где — объем выборки,

теоретические вероятности попадания в интервалы

функция Лапласа, значения которой определяются по таблице

4)Находится наблюдаемое значение критерия Пирсона по формуле

5)По таблице критических точек распределения Решение задач по математической статистике по заданному уровню значимости а и числу степеней свободы ( — число групп для дискретного ряда или число интервалов для интервального ряда) находят критическую точку Решение задач по математической статистике правосторонней критической области.

6)Если Решение задач по математической статистике — нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо. Если Решение задач по математической статистике — гипотезу отвергают.

Замечание. Малочисленные варианты и интервалы (содержащие малочисленные частоты ) следует объединить, а соответствующие им частоты сложить. Если производилось объединение частот, то в формуле следует в качестве принять число групп или интервалов выборки, оставшихся после объединения частот.

Элементы теории регрессионного и корреляционного анализа

Методы теории корреляции позволяют определять зависимость между различными факторами или случайными величинами. Термин «корреляция» происходит от латинского «correlatio» — соотношение, взаимосвязь.

В естественных науках часто речь идёт о функциональной зависимости, когда каждому значению одной величины соответствует вполне определённое значение другой. Случайные величины обычно не связаны функциональной зависимостью. В большинстве случаев между переменными существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).

В силу неоднозначной статистической зависимости между случайными величинами Решение задач по математической статистике и для исследователя представляет интерес усреднённая схема зависимости — зависимость условного математического ожидания Решение задач по математической статистике или его статистического аналога от значений случайной величины , то есть или . Здесь — условная средняя, которая определяется как среднее арифметическое значений Решение задач по математической статистике , то есть , соответствующих значению . Такая зависимость получила название корреляционной. Корреляционной зависимостью Решение задач по математической статистике от называют функциональную зависимость условной средней ух от :

Уравнение (14) называют уравнением регрессии Решение задач по математической статистике на ; функцию называют регрессией на , а её график -линиейрегрессии на .

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка ее тесноты. Основной задачей регрессионного анализа — установление и изучение формы зависимости между переменными.

Данные о статистической зависимости удобно представлять в виде корреляционной таблицы:

Здесь

значения случайных величин Решение задач по математической статистике и соответственно, а

соответствующие частоты, Решение задач по математической статистике — частота, с которой встречается пара .

По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные.

Наличие корреляции приближенно может быть определено с помощью корреляционного поля. Его получим, если нанесем на график в определенном масштабе точки, соответствующие наблюдаемым одновременным значениям двух величин Решение задач по математической статистике — если точки рассеяны хаотично, то связь между и отсутствует; если точки группируются около какой-то линии, то связь есть, и она тем теснее, чем ближе они группируются (рисунок 5).

Рассмотрим наиболее важный для практики случай линейной зависимости между величинами. В теории вероятностей показателем тесноты линейной зависимости являлся коэффициент корреляции, в математической статистике таким показателем является выборочный коэффициент корреляции.

Выборочным коэффициентом корреляции называется величина, рассчитываемая по формуле:

где

оценка корреляционного момента; Решение задач по математической статистике и — исправленные средние квадратические отклонения.

Выборочный коэффициент корреляции обладает некоторыми свойствами:

;
Чем ближе значение к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько приближается к единице, различают слабую, умеренную, заметную, достаточно тесную и весьма тесную линейную связь.
Если , то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же , говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
Если все значения переменных увеличить (уменьшить) на одно и тоже число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Коэффициент корреляции есть безразмерная характеристика тесноты линейной связи.
При корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
При или близком к нулю линейная корреляционная связь отсутствует, но это не означает отсутствие другой зависимости, например, нелинейная связь может быть очень тесной.

Для ответа на вопрос о значимости коэффициента корреляции проверяют нулевую гипотезу Решение задач по математической статистике о равенстве нулю генерального коэффициента корреляции. Если гипотеза принимается, то говорят, что между и нет линейной корреляционной зависимости, иначе линейная зависимость признается значимой.

Для того чтобы при уровне значимости проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции при конкурирующей , надо вычислить наблюдаемое значение критерия:

затем, пользуясь таблицей критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы Решение задач по математической статистике найти критическую точку для двухсторонней критической области. Если сравнить данные величины, то можно сделать вывод о степени коррелированности исходных признаков:

•если Решение задач по математической статистике , то верна нулевая гипотеза и, следовательно, величины не коррелированны;

•если же Решение задач по математической статистике , то нулевая гипотеза отвергается.

Рассмотрим уравнение парной линейной регрессии Математическая статистика задачи с решением . Найдём формулы расчёта неизвестных параметров и по имеющимся статистическим данным .

Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений Математическая статистика задачи с решением от значений , полученных по уравнению регрессии, была минимальна:

На основании необходимого условия экстремума, приравнивая нулю частные производные, получим:

После преобразования получаем систему нормальных уравнений для определения параметров линейной регрессии:

Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии Математическая статистика задачи с решением на :

Уравнение регрессии Математическая статистика задачи с решением можно с учётом формулы вычисления параметра записать в виде

Коэффициент Математическая статистика задачи с решением показывает, на сколько единиц в среднем изменится переменная при увеличении переменной на одну единицу.

Уравнение регрессии может быть использовано для прогнозирования значений Математическая статистика задачи с решением при значениях , не указанных в корреляционной таблице.

Величину Математическая статистика задачи с решением называют остаточной дисперсией случайной величины относительно случайной величины ; она характеризует величину ошибки, которая возникает при замене Математическая статистика задачи с решением линейной функцией. При остаточная дисперсия равна нулю, т.е. при представлении в виде линейной функции от не возникает ошибки, a Математическая статистика задачи с решением и связаны линейной функциональной зависимостью.

Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.

Задачи с решением

Задача № 1

Из генеральной совокупности извлечена выборка объёма :

Требуется:

1)Найти и построить эмпирическую функцию распределения;

2)Найти выборочное среднее, «исправленное» СКО, выборочную моду и медиану.

Решение:

1) Согласно определению эмпирической функции распределения её значение при любом Математическая статистика задачи с решением равно , где — количество элементов ; выборки, меньших, чем — объём выборки.

Например, при

Тогда

График эмпирической функции распределения изображён на рисунке 6.

2) Определим выборочное среднее выборки по формуле (2):

«Исправленную» дисперсию найдём, используя следующую формулу:

Так как мода — это варианта, которой соответствует наибольшая частота, то Математическая статистика задачи с решением .

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий нечётное число вариант Математическая статистика задачи с решением :

Значит, медиана равна

Задача № 2

Записать в виде вариационного ряда выборку 20, 19, 12, 13, 16, 17, 17, 14, 16, 14, 13, 19, 18, 16, 14. Представить статистическое распределение выборки. Построить полигон относительных частот для статистического ряда. Вычислить числовые характеристики выборки: выборочное среднее, «исправленную» и выборочную дисперсии, «исправленное» среднеквадратическое отклонение (СКО).

Решение:

Объём выборки Математическая статистика задачи с решением . Упорядочив элементы выборки по возрастанию, получим вариационный ряд:

12, 13, 13, 14, 14, 14, 16, 16, 16, 17, 17, 18, 19, 19, 20.

Статистическое распределение исходной выборки можно записать в виде следующей таблицы:

Полигон относительных частот изображён на рисунке 7.

Находим выборочное среднее по формуле (2):

Для вычисления выборочной дисперсии используем формулу (5):

«Исправленная» дисперсия и СКО:

Задача № 3

Найти выборочное среднее, моду, медиану и выборочное СКО выборки объёмом , распределение которой задано следующей таблицей:

Построить гистограмму и полигон частот.

Решение:

Для построения гистограммы все частоты необходимо разделить на длину интервала, равную 1,02, и откладывать по оси ординат. По оси абсцисс отмечаются границы интервалов (рисунок 8).

Для построения полигона частот найдем середины интервалов и дополним исходную таблицу:

Ломаная линия (рисунок 8) будет соединять точки с координатами Математическая статистика задачи с решением .

Для расчёта выборочного среднего и выборочного СКО составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Таким образом:

Так как наибольшая частота

отвечает интервалу 1,02 — 2,04, то

Мода (согласно формуле (3)) равна:

Определим номер медианного интервала. Так как Математическая статистика задачи с решением , то номер медианного интервала равен 3, а сам интервал — 2,04 — 3,06. Тогда, по формуле (4), получаем:

Задача № 4

Дан статистический ряд признака Математическая статистика задачи с решением :

Найти начальные и центральные моменты первых четырёх порядков признака Математическая статистика задачи с решением , а также определить асимметрию и эксцесс.

Решение:

Вычисления проводим по формулам (8) для Математическая статистика задачи с решением и по формулам (10) для .

Начальные моменты:

Центральные моменты

Тогда, так как

то

Задача № 5

Предельная нагрузка для выборки из 50 стальных стержней характеризуется следующим рядом:

Считая распределение предельной нагрузки Математическая статистика задачи с решением нормальным, построить доверительные интервалы для оценки с надёжностью средней предельной нагрузки и СКО предельной нагрузки стальных стержней партии, из которой произведена выборка.

Решение:

Вычислим выборочное среднее и исправленное СКО соответственно по формулам

По таблице (см. приложение 3) найдём

Точность оценки:

Доверительный интервал для средней предельной нагрузки найдём по формуле (13):

Доверительный интервал для СКО предельной нагрузки будем искать по формуле

так как

Задача № 6

В результате эксперимента получены данные, представленные в виде статистического ряда:

Требуется:

1 )3аписать значения результатов эксперимента в виде вариационного ряда.

2)Представить данную выборку в виде интервального статистического ряда.

3)Найти числовые характеристики выборки:

4) Определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения. Предполагается, что генеральная совокупность имеет нормальное распределение. Доверительную вероятность принять равной 0,95.

Решение:

1) Расположим значения результатов эксперимента в порядке возрастания, т.е. записываем вариационный ряд:

14 21 28 30 30 32 33 35 38 39 40 41 41 42 42 42 43 44 45 45 46 4747 47 48 48 49 49 50 51 52 53 54 54 56 57 58 58 59 59 60 60 60 60 61 61 65 67 72 77.

2) Объём выборки Математическая статистика задачи с решением . Наибольшая варианта — 77, наименьшая — 14. Найдём длину интервала:

Выбираем длину интервала 9. Интервальный статистический ряд примет вид:

3) Для вычисления числовых характеристик составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Таким образом:

4) Доверительный интервал для оценки математического ожидания нормально распределённой случайной величины найдём по формуле:

Из приложения 3 для Математическая статистика задачи с решением находим . Далее

Доверительный интервал для оценки а нормального распределения по несмещённой оценке Математическая статистика задачи с решением определяется из неравенства

где величина

определяется из таблицы (приложение 4).

Имеем

При

в таблице приложения находим

Следовательно,

Значит,

Задача № 7

Требуется при уровне значимости проверить по критерию согласия Пирсона гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические частоты и теоретические частоты :

Решение:

Определим наблюдаемое значение критерия Пирсона по формуле

В таблице критических точек Математическая статистика задачи с решением (приложение 5) находим при уровне значимости значение (имеем степени свободы). Значение Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается.

Задача № 8

Из генеральной совокупности извлечена выборка, представленная в виде ряда.

Требуется проверить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины Математическая статистика задачи с решением с помощью критерия согласия Пирсона при уровне значимости , разбив отрезок на интервалов одинаковой длины. Величину рассчитать по формуле Стерджеса Математическая статистика задачи с решением .

Решение:

Подсчитаем количество интервалов разбиения:

Из ряда видно, что

поэтому

Границы интервалов будут:

Частота Математическая статистика задачи с решением — интервала подсчитывается с помощью ряда как число наблюдений, попавших в интервал. Так в первый интервал ) 0,6; 1,11 попало 7 значений, во второй [1,1; 1,6[ — 14 значений. Сведём полученные данные в таблицу:

Объем выборки равен

Выборочное среднее и дисперсия определяются по формулам:

Найдём теоретические вероятности Математическая статистика задачи с решением по формуле

где Математическая статистика задачи с решением — функция Лапласа, значения которой даются в приложении 3. Результаты вычислений сведём в таблицу:

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим следующую расчетную таблицу:

По таблице критических точек распределения Математическая статистика задачи с решением , уровню значимости и числу степеней свободы

находим

Так как

то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности.

Задача № 9

По заданной таблице зависимости признаков и

вычислить выборочный коэффициент корреляции и остаточную дисперсию. Записать уравнения прямой регрессии Математическая статистика задачи с решением на . Построить корреляционное поле и линию регрессии на корреляционном поле.

Решение:

Вычислим основные выборочные характеристики: Выборочные средние:

Найдем оценки для средних квадратичных отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Согласно формуле (15):

Найдем методом наименьших квадратов эмпирическую формулу вида Математическая статистика задачи с решением . Составим систему нормальных уравнений (17) для определения параметров линейной регрессии. Так как

Уравнение регрессии Математическая статистика задачи с решением на имеет вид:

Остаточная дисперсия:

Корреляционное поле и линия регрессии на корреляционном поле изображены на рисунке 9.

Задача № 10

Таблица значений признака при данных значениях признака имеет вид:

Построить корреляционное поле. Найти выборочный коэффициент корреляции, оценить его значимость. Записать уравнения прямой линии регрессии Математическая статистика задачи с решением на .

Решение:

Корреляционное поле данной двумерной выборки приведено на рисунке 10.

По виду поля корреляции можно судить о том, что между величинами существует зависимость.

Для вычисления выборочных числовых характеристик составляем следующую расчётную таблицу:

Замечание. Строка

получается следующим образом:

Столбец

Вычислим выборочные средние

«Исправленные» дисперсии находим по формулам:

Оценку корреляционного момента вычисляем по формуле:

Рассчитав все нужные величины, можно вычислить выборочный коэффициент корреляции:

Для оценки значимости выборочного коэффициента корреляции вычислим наблюдаемое значение критерия, воспользовавшись формулой (16):

Затем по таблице критических точек распределения Стьюдента, по заданному уровню значимости Математическая статистика задачи с решением и числу степеней свободы найдем критическую точку для двухсторонней критической области:

Сравнивая Математическая статистика задачи с решением , получим, что , следовательно, величины коррелированы.

Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид

Тогда

Задача № 11

Из генеральной совокупности извлечена выборка, представленная в виде статистического ряда:

Требуется:

1)вычислить выборочное среднее Математическая статистика задачи с решением , выборочную дисперсию , исправленную выборочную дисперсию и среднее квадратичное отклонение ;

2)найти размах варьирования; моду и медиану;

3)построить полигон частот и эмпирическую функцию распределения;

4)провсрить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины Математическая статистика задачи с решением графически и с помощью критерия согласия Пирсона при уровне значимости , представив данную выборку в виде интервального ряда. Количество интервалов рассчитать по формуле Стерджеса Математическая статистика задачи с решением ;

5)найти с доверительной вероятностью Математическая статистика задачи с решением доверительный интервал для математического ожидания, а также доверительный интервал для .

Решение:

1) Объем выборки равен

Выборочное среднее определим по формуле:

Для нахождения выборочной дисперсии составим следующую вспомогательную таблицу:

Тогда

Исправленное среднее квадратичное отклонение будет

2) Размах варьирования находится по формуле

Так как мода — это варианта, которой соответствует наибольшая частота, то

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий чётное число вариант Математическая статистика задачи с решением , поэтому

3) Согласно определению эмпирической функции распределения ее значение при любом Математическая статистика задачи с решением равно где — количество элементов выборки, меньших, чем .

Тогда

График эмпирической функции распределения:

Полигон частот изображен на рисунке:

4) Так как полигон частот по форме напоминает кривую Гаусса, то можно сделать предположение о том, что случайная величина Математическая статистика задачи с решением распределена по нормальному закону. Проверим данное утверждение по критерию Пирсона. Вычислим количество интервалов:

Длина интервала

Границы интервалов будут:

Посчитаем число выборочных значений, попавших в каждый интервал. Частота Математическая статистика задачи с решением интервала подсчитывается с помощью ряда, как число наблюдений, попавших в интервал. Так, в первый интервал [4; 5,2] попало 3 значения; во второй Математическая статистика задачи с решением — [5,2; 6,4] попало 7 значений. Аналогично получаем частоты 3-7 интервалов.

Полученные данные сведём в следующую таблицу:

Найдем теоретические вероятности Математическая статистика задачи с решением по формуле:

Результаты вычислений сведем в таблицу:

Так как ожидаемые (эмпирические) частоты первого и седьмого интервалов группировки не удовлетворяют условию Математическая статистика задачи с решением 5, объединим эти интервалы (первый со вторым; а седьмой — с шестым).

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим

По таблице критических точек распределения Математическая статистика задачи с решением , уровню значимости и числу степеней свободы находим . Так как

то гипотеза о нормальном распределении принимается.

5) Доверительный интервал для математического ожидания найдём по формуле

Значение Математическая статистика задачи с решением определим по таблице для доверительной вероятности

и объёму выборки

Тогда доверительный интервал имеет вид:

Задача № 12

По заданной таблице зависимости признаков Математическая статистика задачи с решением и :

1}Вычислить выборочный коэффициент корреляции; проверить его на значимость, приняв Математическая статистика задачи с решением .

2)Методом наименьших квадратов выровнять зависимость Математическая статистика задачи с решением от по прямой .

3)Вычислить остаточную дисперсию, сделать вывод.

4)Построить корреляционное поле и линию регрессии на корреляционном поле.

Решение:

Найдём выборочные средние х, у, а также оценки для средних квадратичсских отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Здесь

Тогда

Выборочное значение коэффициента корреляции:

Проверим значимость полученного выборочного коэффициента корреляции. Найдём наблюдаемое значение критерия:

По таблице критических точек распределения Стьюдента, по уровню значимости Математическая статистика задачи с решением и числу степеней свободы находим критическую точку двусторонней критической области .

Так как Математическая статистика задачи с решением , то отвергаем гипотезу о равенстве нулю генерального коэффициента корреляции, значит и -коррелированы.

Запишем нормальную систему уравнений. Так как

то

Решая систему по формулам Крамера, получим:

Следовательно, зависимость между величинами Математическая статистика задачи с решением и выражается приближённой формулой

3) Остаточная дисперсия:

То сеть величина ошибки, которая возникает при замене Математическая статистика задачи с решением линейной функцией, невелика можно сделать вывод, что между величинами и существует приближённая линейная зависимость.

4) Корреляционное поле и линия регрессии на корреляционном поле представлены на следующем рисунке:

Возможно эти страницы вам будут полезны:

Примеры решения задач по всем темам математической статистики

Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.

Статистическое описание применяют к таким физическим процессам, для которых результат отдельного измерения не может быть предсказан с необходимой точностью. Тем не менее, при проведении достаточто большого числа повторных измерений может быть с достаточно хорошей точностью предсказана некоторая величина, являющаяся функцией результатов измерений.

При построении моделей в математической статистике предполагают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей. Хотя математическая статистика и опирается на методы и понятия теории вероятностей, но можно сказать, что в каком-то смысле математическая статистика решает обратные задачи.

Основные понятия и задачи математической статистики

Математическая статистика — это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных,

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики — получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин «шум»).

Чем же конкретно занимается математическая статистика? Какие задачи решает?

Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СБ). Обычно функции распределения вероятностей бывают заданы с точностью до одного, двух параметров значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики поволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра,

Оценки, тесты (критерии значимости), решения Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования точечных оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия (ММП). Другой известный метод, который можно рассматривать либо как специальный случай ММП, либо как независимую процедуру подгонки, — метод наименьших квадратов.

Интервальное оценивание связано с определением «доверительных интервалов», правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра — одна при одном наборе условий, а другая -при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами. Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А. Фишера, который рассматривает проверку гипотезы как пробный шаг в проведении научного исследования, позволяющий получить ученому объективный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан в основном с именами Дж. Неймана и Э. Пирсона, которые рассматривают процедуру проверки гипотезы как правило, с помощью которого должен быть сделан выбор либо принято решение об истинности одной гипотезы в противоречие другой.

Одна из частных проблем теории проверки статистических гипотез -оценка пригодности модели, предложенной для объяснения (интерпретации) данных, При этом необходимо решить: насколько предложенная модель соответствует выборке? И являются ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Генеральной совокупностью случайной величины

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе — бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введены понятия абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины Примеры решения задач по математической статистике называется множество всех значений, которые может принимать случайная величина .

Выпорка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины Примеры решения задач по математической статистике неизвестна; ее определяют по результатам наблюдений или, как говорят, по выборке.

Выборкой объемом Примеры решения задач по математической статистике для данной случайной величины называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

Объем выборки:

Наблюдаемые значения Примеры решения задач по математической статистике называют вариантами, а последовательность вариантов, записанных в возрастающем порядке, — вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки: Примеры решения задач по математической статистике — относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Больший считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и достижению заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В Этом случае строится гак называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

Объем выборки должен быть достаточно велик .
Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
Необходимо, по возможности, охватывать всю область данных, так как при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5-2 раза по сравнению с оптимальным числом .

Оптимальное число групп Примеры решения задач по математической статистике выборки объемом рассчитывается по формулам:

• при известном значении

• при неизвестном значении Примеры решения задач по математической статистике , но известно, что

• согласно формуле Стерджесса:

Из (8.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое, Шаг группирования (ширина интервала) определяется по формуле:

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось которого разбивается на Примеры решения задач по математической статистике равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) Примеры решения задач по математической статистике соответствующего интервала.

Полигоном распределения. или просто полигоном называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы как слева, так и справа размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) — кривая накопления частот (час-гостей). Для дискретного ряда кумулята представляет ломаную, соединяющую точки

Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината — накопленной частоте (частости), равной нулю. Остальные точки этой ломаной соответствуют концам интервалов.

Пример № 1

Построить полигон, гистограмму и кумуляту по выборке объема Примеры решения задач по математической статистике . Сгруппированные данные приведены в таблице.

Статистическая (эмпирическая) функция распределения

Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (частосгпей).

В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми значениями и их частотами или относительными частотами.

Пример № 2

Задана выборка объемом Примеры решения задач по математической статистике с соответствующими частотами. Необходимо найти частости (относительные частоты).

Контроль:

Пусть исследуется статистическое распределение частот количественного признака (случайной величины) Примеры решения задач по математической статистике . Введем обозначение:

Примеры решения задач по математической статистике — число наблюдений, при которых отслеживалось значение признака меньшее ;

Примеры решения задач по математической статистике — общее число наблюдений (объем выборки). Очевидно, что относительная частота (частость) события равна .

Статистической функцией распределения случайной величины Примеры решения задач по математической статистике называется функция, определяющая для каждого значения относительную частоту события :

Сравним статистическую и интегральную функции распределения. Вспомним (теорема Бернулли), что относительная частота события Примеры решения задач по математической статистике , то есть стремится по вероятности к вероятности этого события.

Функция Примеры решения задач по математической статистике обладает теми же свойствами, что и :

Значения .
Эмпирическая функция распределения — неубывающая.
Если — наименьшая варианта, то при .
Если — наибольшая варианта, то при .

Пример № 3

Построить эмпирическую функцию по данной выборке:

Решение:

Найдем объем выборки Примеры решения задач по математической статистике = 12 + 18 + 30 = 60. Теперь найдем статистическую функцию распределения:

Представим Примеры решения задач по математической статистике в аналитическом и графическом виде:

Выборочные значения и оценка параметров

Рассмотрим один из возможных методов оценивания среднего значения и дисперсии случайной величины Примеры решения задач по математической статистике по независимым наблюдениям:

Здесь Примеры решения задач по математической статистике и — выборочное среднее и выборочная дисперсия соответственно. Индекс в формуле (см. 8.7) указывает на смещенность оценки дисперсии. Наряду с вышеприведенными характеристиками, при обработке результатов наблюдений обычно находят следующие оценки:

• выборочная дисперсия (несмещенная)

♦ среднее квадратическое отклонение

• выборочный коэффициент асимметрии

выборочный коэффициент эксцесса

Для установления качества или «правильности» любой оценки используются свойства (требования) «хороших оценок».

Требования «хороших оценок»

1 Несмещенность.

Во-первых, желательно, чтобы математическое ожидание оценки равнялось оцениваемому параметру:

где Примеры решения задач по математической статистике — оценка параметра . Если свойство (8.12) имеет место, то оценка называется несмещенной.

2, Эффективность,

Во-вторых, желательно, чтобы среднеквадратическая ошибка данной оценки была наименьшей среди всех возможных оценок, то есть:

где Примеры решения задач по математической статистике — исследуемая оценка, a — любая другая оценка. Если по свойство имеет место, то оценка называется эффективной.

3* Состоятельность,

В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, то есть для любого Примеры решения задач по математической статистике

Если выполнено условие (8,14), то оценка называется состоятельной. Из неравенства Чебышева следует, что достаточным для выполнения (8.14) является условие:

В качестве примера «хорошей оценки» рассмотрим оценку среднего значения (8.6). Математическое ожидание выборочного среднего Примеры решения задач по математической статистике равно:

Следовательно, согласно (8.12), оценка Примеры решения задач по математической статистике несмещенная.

Среднеквадратическая ошибка выборочного среднего Примеры решения задач по математической статистике равна:

Поскольку наблюдения Примеры решения задач по математической статистике , независимы, то математическое ожидание членов, содержащих смешанные произведения, равны нулю. Поэтому из (8.17) получим:

Таким образом, согласно (8.15) оценка Примеры решения задач по математической статистике — состоятельная. Можно показать, что эта оценка эффективна.

Рассмотрим оценку дисперсии по формуле (8.7).

Однако

Поскольку

то, подставив получим:

Следовательно, оценка Примеры решения задач по математической статистике — смещенная.

Хотя оценка (выборочная дисперсия) Примеры решения задач по математической статистике и является смещенной, она состоятельна и эффективна. Из (8.21) понятно, что для получения несмещенной оценки следует взять несколько видоизмененную выборочную дисперсию (8.8).

Интервальное оценивание

Ранее мы обсудили использование выборочных значений в качестве оценок параметров случайных величин. Однако такие процедуры дают только точечные оценки интересующих нас параметров и не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более предпочтительная процедура — построения интервала, который накрывает оцениваемый параметр с известной степенью достоверности, Такой подход называется «интервальным оцениванием».

Сразу отметим следующее: чем больше уверенность в том, что оцениваемый параметр лежит в интервале, тем шире интервал.

Так что искать интервал, накрывающий параметр с вероятностью, равной единице, бессмысленно. Это вся область Примеры решения задач по математической статистике , то есть.

Пусть для параметра Примеры решения задач по математической статистике получена несмещенная оценка . Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность Примеры решения задач по математической статистике (например: …)„ такую, что событие с вероятностью можно считать практически достоверным, и найдем такое значение Примеры решения задач по математической статистике , для которого выполняется соотношение

Тогда диапазон практически возможных значений ошибки, возникающей при замене Примеры решения задач по математической статистике на будет равен Ошибки, большие по абсолютной величине будут появляться с малой вероятностью . Запишем (9.1) в другом виде:

То есть неизвестное значение параметра Примеры решения задач по математической статистике с вероятностью попадает в интервал

Ранее (в теории вероятностей) мы рассматривали вероятность попадания случайной величины на некоторый интервал. У нас же а не случайная величина, а интервал случаен, здесь корректно говорить о вероятности Примеры решения задач по математической статистике накрыть точку а.

Вероятность Примеры решения задач по математической статистике принято называть доверительной вероятностью, а интервал — доверительным интервалом.

Рассмотрим задачу нахождения доверительных границ Примеры решения задач по математической статистике и параметра , имеющего несмещенную оценку . Если бы нам был известен закон распределения величины , то из выражения (9.1) нахождение Примеры решения задач по математической статистике при заданной не представляло бы затруднений. Однако, как правило, мы не знаем закон распределения случайной величины Примеры решения задач по математической статистике .

Пусть теперь распределение случайной величины Примеры решения задач по математической статистике отлично от нормального. Применяя центральную предельную теорему, получаем следующий результат.

С увеличением объема выборки выборочное распределение выборочного среднего стремится к нормальному распределению независимо от вида распределения исходной случайной величины.

Практически во многих случаях выборочное Примеры решения задач по математической статистике можно считать нормальным уже при , а при приближение будет хорошим.

В качестве примера рассмотрим задачу нахождения доверительного интервала математического ожидания, Пусть произведено Примеры решения задач по математической статистике независимых опытов над случайной величиной с неизвестными .

Для этих параметров выберем оценки:

Необходимо построить доверительный интервал Примеры решения задач по математической статистике соответствующий доверительной вероятности :

Интервальная оценка математического ожидания при известной дисперсии

Пусть СВ Примеры решения задач по математической статистике имеет гауссово распределение с параметрами причем неизвестно значение известно. Тогда эффективной оценкой параметра Примеры решения задач по математической статистике будет .

При этом Примеры решения задач по математической статистике имеет нормальное распределение

Статистика (оценка) СВ

имеет распределение Примеры решения задач по математической статистике , независимо от параметра , и как функция — непрерывна и монотонна. Вспомним, что . Тогда, с учетом (9.2), запишем:

где Примеры решения задач по математической статистике ~ квантили стандартного нормального распределения , причем Подставим в явном виде в (9.6):

Запишем это неравенство относительно Примеры решения задач по математической статистике :

Квантили стандартного нормального распределения определяются по таблицам, тогда окончательно получим:

Искомый доверительный интервал математического ожидания нормально распределенной СВ с известной дисперсией равен:

На рис. 9.1 представлена плотность распределения стандартного нормального распределения с отмеченными квантилями Примеры решения задач по математической статистике .

Интервальная оценка математического ожидания при неизвестной дисперсии

На практике почти всегда генеральная дисперсия Примеры решения задач по математической статистике (как и оцениваемое математическое ожидание ) неизвестна. Итак, имеется нормально распределенная СВ

с неизвестными параметрами Примеры решения задач по математической статистике и случайной выборке найдем несмещенные, эффективные оценки

Построение интервальной оценки основано на статистике:

Вспомним, что

и подставим в (9.11):

Числитель выражения (9.12), как было показано выше, имеет стандартное нормальное распределение Примеры решения задач по математической статистике . Показано, что величина имеет распределение с степенями свободы. А статистика имеет распределение Стыодснта с Примеры решения задач по математической статистике степенями свободы. Распределение Стьюдента не зависит от неизвестных параметров распределения случайной величины Примеры решения задач по математической статистике , а зависит лишь от числа .

Следует отметить, что распределение Стьюдента напоминает нормальное распределение, и при Примеры решения задач по математической статистике сколь угодно близко приближается к нему.

Число степеней свободы Примеры решения задач по математической статистике определяется как общее число наблюдений (вариантов) случайной величины минус число уравнений, связывающих эти наблюдения, то есть Примеры решения задач по математической статистике

Так, например, для распределения Примеры решения задач по математической статистике статистики число степеней свободы , поскольку одна степень свободы «теряется» при определении выборочного среднего Примеры решения задач по математической статистике ( наблюдений связаны одним уравнением).

Таким образом, по аналогии с (9.6) запишем:

Ha рис. 9,2 представлена плотность распределения Стьюдента с пятнадцатью степенями свободы.

Доверительный интервал математического ожидания нормально распределенной СB с неизвестной дисперсией равен:

Интервальная оценка выборочной дисперсии

Доверительный интервал для оценки дисперсии по выборочной дисперсии Примеры решения задач по математической статистике для СВ

строится аналогичным образом.

Естественно, что в качестве математического ожидания и дисперсии гауссовой СВ мы возьмем их несмещенные и эффективные оценки:

Исходя из вышесказанного, запишем:

Это интервал, который с вероятностью Примеры решения задач по математической статистике накрывает неизвестную дисперсию. Из статистики известно, что если СВ имеет гауссово распределение

то справедливо соотношение:

Здесь Примеры решения задач по математической статистике хи-квадрат распределения с степенями свободы. Теперь, задавая или что равносильно , можно найти квантили (соответствующие) Примеры решения задач по математической статистике . При этом следует учесть, что распределение не симметрично (рис. 9.3).

Как же решить эту задачу однозначно? Ведь сдвигая интервал влево или вправо соответствующим образом, можно для заданной доверительной вероятности найти бесконечное множество решений (интервалов).

Для обеспечения единообразия условились выбирать такие квантили (интервал), чтобы площадь под кривой, лежащая левее левой квантили, равнялась площади под кривой, расположенной правее правой квантили:

Тогда из (9.19), учитывая (9.20), получим соответствующие границы интервала:

Пример № 4

Дана выборка СВ Примеры решения задач по математической статистике объемом . Предполагается, что СВ распределена нормально с неизвестными параметрами .

Необходимо найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,97,

Решение:

В качестве несмещенных и эффективных оценок вычислим:

a) Вычислим доверительный интервал для математического ожидания, если дисперсия известна (полагаем, что Примеры решения задач по математической статистике ). Тогда из таблицы нормального распределения получим

Подставим значения квантилий в (9.9) и (9.10):

b) Вычислим доверительный интервал для математического ожидания, при неизвестной дисперсии. Воспользуемся таблицей распределения Стьюдснта с числом степеней свободы

Соответствующие квантили равны

Подставим полученные значения в (9.15) и (9.16):

c) Вычислим доверительный интервал для дисперсии. Воспользуемся таблицей распределения Примеры решения задач по математической статистике Симметричный 97 % вероятностный интервал с

числом степеней свободы: (2,33; 20,5). Подставив полученные значения в (9.21), получим:

Статистические критерии

Прежде чем перейти к рассмотрению понятия статистической гипотезы, сформулируем так называемый принцип практической уверен-посты, лежащий в основе применения выводов и рекомендаций, полученных с помощью теории вероятностей и математической статистики.

Если вероятность события А в данном испытании очень мала, то при однократном испытании можно быть уверенным в том, что событие А не произойдет, и в практической деятельности вести себя так, как будто событие А вообще невозможно.

Вопрос о том, насколько малой должна быть вероятность а события А, чтобы его можно было считать практически невозможным, выходит за рамки математической теории и решается в каждом отдельном случае с учетом важности последствий, вытекающих из наступления события А. В ряде случаев можно пренебречь событиями, вероятность которых меньше 0,05, а в других, когда речь идет, например, о разрушении сооружений, гибели судна и т. п., нельзя пренебрегать событиями, которые могут появиться с вероятностью, равной 0,00К

Статистическим критерием (или просто критерием) называют случайную величину Кщ которая служит для проверки гипотезы.

Критерии значимости (критерии проверки гипотез, иногда просто тесты) — это простейшие, но наиболее широко используемые стати сти ч ее к и е средства.

Критерий значимости дает возможность статистику найти разумный ответ на вопрОС, подобный следующим;

• Сталь, произведенная разными методами, имеет неодинаковые пределы прочности. «Указывает ли это на то, что производимая разными методами сталь имеет различную прочность или же выявленное различие можно объяснить выборочными флуктуация ми?»

«Превосходит ли по эффективности одно противогриппозное средство другое?»
«Способствует ли отказ от курения снижению вероятности раковых заболеваний?»
«Превосходит ли по воздействию одно удобрение другое приращивании овощей ? »

Проверка гипотез

Статистически называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.

Рассмотрим простейший вид статистической процедуры, называемой проверкой гипотез. Пусть дана некоторая оценка Примеры решения задач по математической статистике построенная по выборке из я независимых наблюдений СВ . Предположим, что есть основания считать истинное значение оцениваемого параметра равным Примеры решения задач по математической статистике .

Однако, даже если истинное значение параметра Примеры решения задач по математической статистике равно выборочное значение , вероятно, не будет в точности равняться из-за выборочной изменчивости, присущей . Поэтому сформулируем следующий вопрос. Если предположить, что Примеры решения задач по математической статистике = то при каком отклонении от эта гипотеза должна быть отвергнута как несостоятельная? На этот вопрос ответ можно дать в статистических терминах, вычислив вероятность любого значимого отклонения Примеры решения задач по математической статистике от по выборочному распределению . Если вероятность такого отличия мала, то отличие следует считать значимым и гипотеза Примеры решения задач по математической статистике = должна быть отвергнута. Если же вероятность такого отличия велика, то отклонение следует приписать естественной статистической изменчивости и гипотеза = может быть принята.

Проиллюстрируем общий подход, предположив, что выборочное значение , являющееся оценкой параметра имеет плотность вероятности нормального распределения . Теперь, если гипотеза , верна, то должна иметь среднее значение (рис. ЮЛ).

Вероятность использованная при испытании гипотез, называется уровнем значимости критерия.

Вероятность того, что Примеры решения задач по математической статистике окажется меньше нижней границы , равна вероятности того, что превзойдет верхнюю границу и каждая из них равна . Следовательно, вероятность того, что Примеры решения задач по математической статистике окажется вне интервала, заключенного между этими границами, равна а. Область значений , при которых гипотеза принимается, называется областью принятия гипотезы

Нулевой (основной) называют выдвинутую гипотезу Примеры решения задач по математической статистике . В данном

примере Примеры решения задач по математической статистике : .

Область значений Примеры решения задач по математической статистике при которых гипотеза должна быть отверг нута, называется областью отклонения гипотезы, или критической областью,

Конкурирующей (альтернативной) называют гипотезу, которая противоречит нулевой.

В данном примере

Рассмотренный нами простой критерий испытания гипотез называется двусторонним критерием, так как, когда гипотеза неверна, значение может быть либо больше, либо меньше Примеры решения задач по математической статистике .

В ряде случаев достаточно бывает односторонних критериев (рис. 10.2). Например, пусть основная гипотеза

Тогда альтернативная гипотеза:

Следовательно, в критерии должна использоваться только нижняя (левая} граница определяемая по плотности вероятности Примеры решения задач по математической статистике .

Ошибки проверки гипотез

При проверке гипотезы возможны два типа ошибок.

Во-первых, гипотеза может быть отклонена, хотя фактически она верна. Такая ошибка называется ошибкой первого рода.
Во-вторых, гипотеза может быть принята, хотя фактически она неверна. Такая ошибка называется ошибкой второго рода.

Проиллюстрируем эти понятия графически (рис, 10.3).

Из рисунка видно, что ошибка первого рода происходит в том случае, когда при справедливости гипотезы Примеры решения задач по математической статистике значение попадает в область ее отклонения (критическую область). Следовательно„ вероятность ошибки первого рода равна Примеры решения задач по математической статистике — уровню значимости критерия.

Для определения вероятности ошибки второго рода предположим, к примеру, что истинный параметр равен либо

либо

(см. рис. 10.3), Если гипотеза состоит в том, что

тогда как на самом деле

то вероятность того, что Примеры решения задач по математической статистике попадает в область принятия гипотезы, заключенную между

равна Примеры решения задач по математической статистике Следовательно, вероятность ошибки второго рода равна при выявлении отклонения величиной ±d от гипотетического значения Примеры решения задач по математической статистике .

Вероятность называется мощностью критерия Следует отмстить, что вероятности ошибок первого и второго рода вычисляются при разных предположениях о распределении (если верна гипотеза Примеры решения задач по математической статистике и если верна гипотеза ), так что никаких раз и навсегда фиксированных соотношений (например , независимо от вида гипотезы и вида критерия) между ними нет. Таким образом, при фиксированном объеме выборки Примеры решения задач по математической статистике мы можем сколь угодно уменьшать ошибку первого рола, уменьшая уровень значимости . При этом, естественно, возрастает вероятность Примеры решения задач по математической статистике — ошибки второго рода (уменьшается мощность критерия). Единственный способ одновременно уменьшить ошибки первого и второго рода — увеличить размер выборки Примеры решения задач по математической статистике .

Именно такие соображения лежат в основе выбора нужного размера выборки в статистических экспериментах.

Пример № 5

Построение критерия проверки гипотез,

Предположим, что среднее значение СВ Примеры решения задач по математической статистике равно

также предположим, что дисперсия известна и равна

Необходимо найти объем выборки, позволяющий построить критерий проверки гипотезы

с 5%-м уровнем значимости и 5%-й ошибкой второго рода для выявления 10%-х отклонений от гипотетического значения. Построим также область принятия гипотезы Примеры решения задач по математической статистике .

Решение:

Выборочное среднее Примеры решения задач по математической статистике определяемое формулой (8.6), является несмещенной оценкой . Соответствующее выборочное распределение определяется из соотношения (9.7):

где Примеры решения задач по математической статистике имеет распределение Верхняя и нижняя границы области принятия гипотезы соответственно равны:

Если теперь истинное среднее значение равно

то с вероятностью Примеры решения задач по математической статистике произойдет ошибка второго рода, если выборочное среднее окажется меньше (левее) верхней границы и больше (правее) нижней. В терминах выборочного распределения Примеры решения задач по математической статистике со средним

или

для верхней и нижней границ (рис. 10,3);

Итак, справедливы следующие равенства:

Вспомним, что благодаря симметричности распределения справедливы равенства:

Теперь из (10.4) с учетом (10.5) найдем требуемый объем выборки:

Для конкретных значений данного примера:

Подставим эти значения в (10.6) и получим значение необходимою объема выборки Примеры решения задач по математической статистике . Таким образом, объем выборки должен быть равен или больше пятидесяти двух. Область принятия гипотезы определяется соответствующими границами (верхней и нижней (10.2)):

Математическая статистика основные определения и вычисления

Основные задачи математической статистики:

Математическая статистика — это раздел математики, который изучает методы обработки и классификации статистических данных для получения научно обоснованных выводов и принятия решений.

Примером статистических данных служит последовательность значений случайной величины, полученных в результате некоторого наблюдения, эксперимента (опыта). Так, последовательность чисел, которые получаются в результате неоднократного измерения некоторой величины, скажем, взвешивания некоторого тела на
аналитических весах, является простейшим примером статистических данных. Рассмотрим еще один пример. Электрическая лампочка считается стандартной, если она горит не менее 1400 часов. Каким образом определить, в какой степени партия лампочек, выпущенная заводом, соответствует установленному стандарту? Очевидно, что испытывать все лампочки бессмысленно. Поэтому выбирают случайным образом некоторое количество лампочек для испытания. Последовательность полученных данных о продолжительности горения отобранных лампочек представляет собой статистические данные, которые, будучи обработаны методами математической статистики, позволяют делать выводы о качестве данной партии продукции.

В связи с тем, что статистические данные зависят от случайных факторов, математическая статистика тесно связана с теорией вероятностей, которая является ее теоретической основой.

Как мы уже знаем, теория вероятностей устанавливает правила нахождения вероятностей более сложных событий (суммы, произведения событий) и вычисления различных числовых характеристик случайных величин (математического ожидания, дисперсии) по заданным вероятностям исходных событий. На практике же редко встречаются задачи, в которых вероятности
рассматриваемых событий были бы заранее известны. В таких случаях методами математической статистики можно получить сведения о случайной величине путем изучения небольшого набора наблюденных значений случайной величины, содержащего как можно больше нужных сведении о случайной величине.

Основные задачи математической статистики могут быть сформулированы следующим образом:

а) оценка неизвестных параметров случайной величины (вероятности случайного события, математического ожидания случайной величины, дисперсии, функции распределения);

б) статистическая проверка гипотез, т. е. проверка предположений, сделанных относительно некоторых случайных событий, случайных величин (о вероятности события, о законе распределения случайной величины и т. д. );

в) принятие решений (сюда относятся, в частности, задачи оптимального выбора момента настройки или замены действующей аппаратуры, например, определения срока замены двигателя самолета, отдельных деталей станков и т. д.).

В настоящее время математическая статистика продолжает бурно развиваться; при этом все больше расширяется круг ее задач и методов исследования с широким применением ЭВМ.

Так, разрабатываются статистические методы распознавания образов, определения характеристик элементов системы автоматического управления и т. д.

Математическая и прикладная статистика используется при планировании и организации производства, при анализе технологических процессов при предупредительном и приемочном контроле качества продукции и в других практических задачах.

Основные понятия математической статистики

Пусть требуется изучить множество значений случайной величины или совокупности объектов относительно некоторого признака. Например, требуется определить процент изделий, выпускаемых одним и тем же оператором, параметры которых отличаются от
номинальных.

Если число элементов в совокупности не очень большое, обследование объекта не связано с его уничтожением или не требует больших затрат, то можно исследовать каждый элемент в отдельности, фиксировать значение исследуемого признака и соответствующей обработкой результатов сделать тот или иной вывод о наблюдаемом или измеряемом признаке.

Если же совокупность состоит из очень большого числа объектов, или исследование связано с уничтожением объекта, или оно дорого стоит, то сплошное обследование невозможно. Невозможно, например,
исследовать на долговечность всю партию электрических
лампочек, так как в результате исследуемые лампочки сгорают и вся партия уничтожилась бы. В этих случаях выводы об исследуемом признаке делаются на основе изучения ограниченного числа
объектов, должным образом отобранных из общей совокупности. Основными понятиями математической статистики являются генеральная и выборочная совокупности.

Множество всех значений некоторой изучаемой величины или, другими словами, совокупность всех объектов, которая подлежит изучению, носит название генеральной совокупности, а специальным образом отобранная группа объектов — выборочной совокупности или выборки. Например, партия всех электрических
лампочек, которая подлежит изучению, является генеральной совокупностью, а множество лампочек, взятых для обследования, составляет выборочную совокупность.

Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности (выборки). Например, если цех выпустил 2000 деталей, а для обследования отобрано 150 деталей, то объем генеральной совокупности равен 2000 (N = 2000), а объем
выборки— 150 (п = 150).

Сейчас можно сказать, что основная задача математической статистики состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки.

Рассмотрим теперь основные виды выборок. Различают выборки с возвращением и без возвращения. Если после фиксирования значения параметра объект возвращается в генеральную совокупность и, таким образом, он может многократно повторяться в выборке, то говорят о выборке с возвращением или с повторением. Если же раз отобранный объект обратно не возвращается и он не может больше, чем один раз, повторяться в выборке, то такая выборка называется выборкой без возвращения или без повторения. Заметим, что когда объем выборки намного меньше объема генеральной
совокупности, то различие между выборкой с возвращением и без возвращения практически исчезает.

Говорят, что выборка репрезентативна (представительна), если она достаточно «хорошо» представляет изучаемые признаки генеральной совокупности.

Важным условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.

С целью обеспечения репрезентативности выборки в зависимости от конкретных условий применяются различные способы отбора: простой, типический, механический, серийный.

Простым называется отбор, при котором из генеральной совокупности случайным образом извлекается по одному элементу с возвращением или без возвращения. Например, для изучения белых медведей экспедиция ловит- случайным образом попавшихся ей белых медведей, измеряет исследуемые параметры и отпускает
на волю или сдает в зоопарк в зависимости от целей, которые стоят перед ней.

Типическим называется отбор, при котором объекты случайным образом отбираются из каждой «типической» части генеральной совокупности…

Например, если детали изготовляются разными цехами, то для обеспечения репрезентативности выборки отбор производится случайным образом с соблюдением пропорций из продукции каждого цеха. Типическим отбором пользуются тогда, когда исследуемый признак существенно колеблется в различных частях генеральной совокупности.

Механическим называется отбор, при котором объекты отбираются через определенный интервал, скажем, каждый пятый, двадцатый, сотый и т. д. Механическим отбором надо пользоваться осторожно.

Например, если резец заменяется после тридцати обработанных
деталей, то нельзя составлять выборку, отбирая каждую десятую или пятнадцатую детали. Отметим, что в таких случаях целесообразно, чтобы номер отбираемой детали и период ритма работы были взаимно простыми числами. Тогда в выборку попадут объекты со всех точек периода ритма.

Серийным называется отбор, при котором выборка состоит из целой серии объектов. Этим способом пользуются в тех случаях, когда исследуемый признак в генеральной совокупности колеблется незначительно.

Например, если квалификация всех рабочих цеха, качество технических средств и сырья существенно не изменяются в течение недели, то для проверки недельной продукции данного цеха можно провести сплошную проверку продукции одного дня.

На практике для обеспечения репрезентативности выборки пользуются сочетанием вышеуказанных способов отбора.

Если отбор объектов из генеральной совокупности и образование выборки невозможны непосредственным манипулированием самими объектами ввиду их громоздкости, труднодоступности или по другим причинам, то объектам генеральной совокупности присваиваются номера, которые записываются, например, на отдельных карточках, удобных для перемешивания и осуществления отбора. Путем случайного отбора карточек образуется выборка заданного объема, а впоследствии из генеральной совокупности отбираются те объекты номера которых совпадают с номерами карточек, попавших в выборку. Описанным способом поступают,
например, при составлении тиражей выигрышных билетов в денежно-вещевых лотереях, облигаций трехпроцентного займа и др.

В научных исследованиях для формирования выборок чаще всего пользуются так называемыми таблицами случайных чисел, которые могут быть получены при помощи случайного выбора карточек или
специальными алгоритмами на ЭВМ. Существуют таблицы случайных чисел четырехзначные, пятизначные и т. д. Если надо, например, образовать выборку объема n из генеральной совокупности объема N = 100 000, то берем пятизначную таблицу случайных чисел и выписываем любую группу из n последовательных ее чисел. Обследованию подвергаются те объекты генеральной совокупности, номера которых совпадают с выписанными числами из таблицы случайных чисел.

Выборочные ряды распределения

Группировка статистических данных. Определение
статистических (выборочных) распределений

Для установления закономерностей массовых случайных явлений изучаются статистические данные, т. е. сведения, полученные путем наблюдений или экспериментов о значениях интересующего нас признака. Примеры статистических данных были приведены в § 1. Рассмотрим здесь еще один пример. Экономист, интересующийся
тарифным разрядом рабочих некоторого подразделения завода, выбрал документы 100 рабочих и выписал из них последовательность разрядов 5, 1, 4, 5, 4, 3, 6 и т. д. Эта последовательность представляет собой статистические данные, которые подлежат обработке.

Изучение статистических данных обычно начинается с их группировки в порядке возрастания значения признака. Пусть в нашем примере после упорядочения по возрастанию статистических данных мы получили ряд из 100 чисел

где 1 повторяется 4 раза, 2 — 6 раз, 3—12 раз, 4 — 16 раз (для экономии места мы не выписали этот ряд полностью), 5 — 44 раза и 6— 18 раз.

Наблюдаемые значения рассматриваемого признака называются вариантами, а последовательность вариант, записанных в возрастающем порядке, называется выборочным или вариационным рядом.

Условимся обозначать через Математическая статистика значения вариант в данной выборке, Если — вариационный ряд, т. е. — это наименьшее значение признака,
— наибольшее значение признака в данной выборке, а разность Математическая статистика называется размахом выборки. В нашем примере

Пусть из генеральной совокупности отобрана выборка, в которой значение Математическая статистика признака X наблюдалось раз, значение раз, …, значение раз. Если объем выборки равен n, то

Числа Математическая статистика .., называются частотами, а их отношения к объему выборки, т, е. — относительными частотами соответствующих вариант.

Рассматривается еще накопленная или кумулятивная частота Математическая статистика , которая показывает, сколько наблюдалось элементов выборки со значениями признака, меньшими . Отношение накопленной частоты к общему объему выборки называется относительной накопленной частотой,

Определение:

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

В теории вероятностей изучается аналогичное понятие, именно закон распределения или просто распределение случайной величины. При этом под распределением случайной величины понимается соответствие между возможными значениями случайной величины и их вероятностями. Для дискретной случайной величины X, принимающей значения Математическая статистика с вероятностями , закон распределения записывается, как правило, в виде таблицы

В первой строке этой таблицы указаны значения случайной величины, во второй соответствующие вероятности Аналогичным образом, статистическое распределение выборки можно записать в виде таблицы, в первой строке которой указываются значения вариант выборки, во второй строке — значения частот:

или значения относительных частот (которые легко вычисляются по известным частотам и объему выборки):

Так, статистическое распределение выборки рассмотренного выше примера, запишется в виде

или

Можно свести обе эти характеристики выборки в одну таблицу:

Таблица 6

Пример:

Дано статистическое распределение выборки

Найти относительные частоты, накопленные частоты накопленные относительные частоты.

Решение:

Вычислим объем выборки n = 3 + 10 + 7 = 20. Тогда

Пример:

Найти вариационный ряд, частоты, относительные частоты для выборки, полученной при измерении электрической емкости двадцати пластин пьезоэлементов в пикофарадах по следующим результатам:

Решение:

Вариационный ряд для данной выборки будет:

Здесь каждая варианта встречается по одному разу, следовательно, Математическая статистика для всех Равными будут также и относительные частоты, причем .

Теперь мы можем следующим образом уточнить понятие репрезентативности выборки: выборка является репрезентативной, если относительные частоты выборки близки к соответствующим относительным частотам генеральной совокупности (по всем вариантам генеральной совокупности).

Пример:

Исследовать репрезентативность выборки

для генеральной совокупности, заданной таблицей 6.

Решение:

Вычислим относительные частоты для нашей выборки (обозначим их через Математическая статистика ):

Из этих подсчетов делаем вывод, что данную выборку можно считать репрезентативной.

При большом числе наблюдений и большом числе
вариант, удобно варианты группировать по отдельным интервалам их значений. Для этого шкала интересующего нас признака разделяется на некоторое число интервалов, и вместо отдельных вариант рассматриваются группы значений вариант, попавших в последовательно расположенные интервалы. Число m таких интервалов, как правило, берется в пределах от 10 до 20. Ширина
интервалов Математическая статистика определяется путем деления размаха выборки на количество интервалов: . В таких случаях составляется статистическое распределение выборки по частотам интервалов (интервальное статистическое распределение выборки). При этом частота интервала равна сумме частот вариант, попавших
в данный интервал.

Пример:

Для выборки примера 2 составить таблицу статистического распределения, по интервалам, беря число интервалов m = 10.

Решение:

Вычисляем ширину интервалов:

Следовательно, имеем интервалы (точнее, — промежутки):
[7,0; 7,5], ]7,5; 8,0], ]8,0; 8,5], ]8,5; 9,0], ]9,0; 9,5], ]9,5; 10,0], ]10,0; 10,5], ]10,5; 11,0], ]11,0; 11,5], ]11,5; 12,0]. Используя данные примера 2, получаем следующую таблицу статистического распределения
выборки по интервалам:

Геометрическая интерпретация статистических распределений выборки

Если на оси абсцисс прямоугольной системы координат расположить варианты Математическая статистика а на оси ординат — соответствующие им частоты, то в плоскости получим точки . Соединим точки отрезками прямых. Полученная ломаная линия называется
полигоном частот.

Пример:

Построить полигон частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 148

Полигоном относительних частот называют ломаную, отрезки которой соединяют точки Математическая статистика , , построенные в системе координат так, что на оси абсцисс расположены варианты а на оси ординат — относительные частоты . Так как , то ординаты точек Математическая статистика получаются из ординат точек уменьшением их в n раз.

Следовательно, полигон частот будет представлять полигон относительных частот в системе координат, у которой масштаб на оси ординат увеличен в n раз.

Пример:

Построить полигон относительных частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 149.

Если статистическое распределение выборки задается в виде
последовательности интервалов значений вариант и их частот, то геометрическое изображение дается при помощи гистограммы
частот (очевидно, что в этом случае нельзя построить полигон частот).

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, построенных на частичных интервалах с длиной d и высотой, равной отношению Математическая статистика (плотность частоты на данном интервале).

Площадь i-го частичного прямоугольника равна Математическая статистика Следовательно, площадь гистограммы частот равна сумме всех частот, т. е. объему выборки.

Гистограммы относительных частот строятся аналогичным образом, только в качестве высот прямоугольников берется отношение Математическая статистика (плотность относительной частоты на данном интервале).

Гистограмма относительных частот может быть получена из гистограммы частот сжатием вдоль оси ординат в n раз, или увеличением масштаба на оси ординат в n раз.

Легко видеть, что площадь гистограммы относительных частот равна единице.

Пример:

По данным изучения выработки на одного рабочего в отчетном году в процентах по отношению к предыдущему году было составлено интервальное статистическое распределение в виде таблицы 7 для выборки объема n = 117, извлеченной из всей
совокупности рабочих завода. Построить гистограмму статистического распределения данной выборки.

Таблица 7

Решение:

См. рис. 150.

Можно построить и график кумулятивной частоты или кумулятивной относительной частоты — кумулятивную кривую.

Пример:

Построить кумулятивную кривую частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 151.

Заметим, что кумулятивная кривая частот сыграничена сверху числом n, а кумулятивная кривая относительных частот ограничена сверху единицей.

Теоретико-вероятностные аналоги статистических распределений

Сопоставляя известные нам определения вероятности и данное выше определение относительной частоты выборки, легко заметить, что между ними имеется числовая связь. Однако следует подчеркнуть, что между этими двумя понятиями имеется и принципиальное различие. Это различие состоит в том, что вероятность события определяется до испытания, исходя из равновозможности элементарных событий, а относительная частота выборки — после испытания (отбора выборки). Обычно о равновозможности элементарных событий судят, исходя из. соображений симметрии, однородности и т. д., т. е. из теоретических соображений. Так, исходя из того, что игральная кость имеет форму куба, состоит из однородного материала, заключают, что вероятность появления какого-нибудь определенного числа очков, например 4, равна 1/6, причем такова же вероятность появления 1, 2, ».., 6 очков.

Определение же относительной частоты может быть получено только после того как испытания были фактически произведены. Так,
если при 100-кратном бросании игральной кости мы получили варианты

то относительные частоты будут

в то время как вероятность любого из указанных исходов равна Математическая статистика . Хотя численные значения этих величин и близки, они не совпадают. Однако если из теоретических соображений нам известно значение вероятности, то, как это следует из закона больших чисел, при большом объеме выборки относительная частота варианты
будет близкой к его вероятности. На практике же случаи, в которых можно определить вероятность, исходя из теоретических соображений, встречаются весьма редко. Поэтому на практике, учитывая закон больших чисел, в качестве приближенного значения вероятности случайной величины принимают относительную частоту репрезентативной выборки.

В силу такой тесной связи между понятиями вероятности и относительной частоты имеет место много аналогий между основными понятиями и теоремами теории вероятностей и математической статистики.

В математической статистике большую роль играют понятия, аналогичные понятиям математического ожидания, дисперсии, среднего квадратичного отклонения, известные нам из теории вероятностей.

Сводные числовые характеристики выборки

Как мы уже говорили выше, одной из основных задач математической статистики является оценка параметров генеральной совокупности (случайной величины) при помощи соответствующих параметров выборки. Пусть дана случайная величина X, принимающая значения Математическая статистика

Определение:

Выборочным средним выборки объема n со статистическим распределением

называется «среднее взвешенное» значений признака выборки, т. е.

Если рассмотренная выборка является генеральной совокупностью объема N со статистическим распределением

то получаем генеральное среднее:

Вероятность Математическая статистика того, что случайная величина X получает значение , будет Вычислим математическое ожидание M(X) случайной величины X:

Таким образом,

Генеральное среднее (а следовательно, и математическое ожидание случайной величины) может быть оценено при помощи выборочной средней той или иной выборки. Точность таких оценок зависит от степени репрезентативности данной выборки.

Пример:

Вычислить генеральное среднее для генеральной совокупности, заданной таблицей 6.

Решение:

Математическая статистика

Пример:

Оценить генеральное среднее генеральной совокупности примера 1 при помощи выборочного среднего выборки

Решение:

Следовательно, можно принять Математическая статистика , что близко к истинному значению (см. пример 1).

Пример:

По данным таблицы 7 оценить среднюю выработку на одного рабочего завода в отчетном году в процентах к предыдущему году (в качестве вариант берутся середины соответствующих интервалов).

Решение:

Оценим среднюю выработку при помощи выборочного среднего Математическая статистика :

Определение:

Выборочной дисперсией Математическая статистика которой выборки называется среднее взвешенное квадратов отклонений значений признака от выборочной средней .

Если варианты Математическая статистика выборки объема n.
имеют частоты то

Если рассматриваемая выборка является генеральной совокупностью, то получаем генеральную дисперсию Математическая статистика Пусть X — случайная величина, значения которой предоставлены генеральной совокупностью объема N со статистическим распределением

Тогда Математическая статистика

Вычислим дисперсию случайной величины X:

Множество значений случайной величины Математическая статистика представляет собой генеральную совокупность объема N с вариантами с частотами следовательно, для ее математического ожидания имеем:

Таким образом.

Генеральная дисперсия генеральной совокупности (а следовательно, и дисперсия случайной величины) может быть оценена при помощи выборочной дисперсии той или иной выборки. Точность такой оценки зависит от степени репрезентативности данной выборки.

Напомним, что дисперсия является характеристикой рассеяния значений признака вокруг своего среднего значения.

Часто рассматривается еще величина которая называется средним квадратическим отклоненнием выборки.

Пример:

Вычислить генеральную дисперсию генеральной совокупности, заданной таблицей 6.

Решение:

Из примера 1 имеем Математическая статистика . Тогда

Пример:

Оценить генеральную дисперсию генеральной совокупности, заданной таблицей 6, при помощи выборочной дисперсии выборки из примера 2.

Решение:

Из примера 2 имеем Математическая статистика .

Тогда

Следовательно, можно принять Математическая статистика , что близко к истинному значению (см. пример 4),

Пример:

По данным таблицы 7 оценить дисперсию средней выработки на одного рабочего завода и среднее квадратическое отклонение.

Решение:

Из примера 3 имеем Математическая статистика . Тогда

Отсюда

Понятие об аппроксимации распределений

Пусть дано статистическое распределение частот некоторой выборки объема n случайной величины X. Пусть Математическая статистика — накопленная частота выборки. Очевидно, что зависит от варианты поэтому, для
простоты, обозначим ее через т. е. Аналогично,
относительную накопленную частоту Математическая статистика обозначим через . Ясно, что относительная частота события равна Обозначая через x текущую варианту, можем сказать, что является функцией от x. Обозначим эту функцию через Математическая статистика :

и назовем ее функцией распределения выборки. Поскольку значения функции Математическая статистика определяются из опыта, то называется эмпирической функцией распределения выборки. Функция распределения генеральной совокупности, которая может оставаться неизвестной или может быть выведена из теоретических результатов теории вероятностей, называется теоретической функцией распределения.

Из теоремы Бернулли следует, что относительная частота события Математическая статистика стремится по вероятности к вероятности этого события. В силу этого числа мало различаются между собой, т. е. . Следовательно, эмпирическая функция Математическая статистика распределения выборки может быть
использована для приближенного представления теоретической функции распределения генеральной совокупности или соответствующей случайной величины.

Пример:

Построить эмпирическую функцию распределения по данному, распределению выборки:

Решение:

Вычислим объем выборки:

Наименьшая варианта Математическая статистика равна 2, следовательно,

Значение Математическая статистика равно 12, так как событие наблюдается 12 раз. Тогда при имеем

Значение Математическая статистика равно 23, так как событие . наблюдается 12 + 11 = 23 раза. Тогда при имеем:

Значение Математическая статистика равно 20 так как событие наблюдается 12 + 11 + 3 = 26 раз. Тогда при имеем

Наконец, так как Математическая статистика — наибольшая варианта, то Следовательно, при X > 7 имеем:

Следовательно, искомая эмпирическая функция распределения дается формулой

График этой функции изображен на рис. 152

Таким образом, если дана генеральная совокупность (или случайная величина), закон распределения которой неизвестен, то извлекают репрезентативную выборку и вычисляют эмпирическую функцию распределения Математическая статистика для данной выборки и оценивают распре
деление генеральной совокупности при помощи эмпирической функции распределения выборки Иногда удобно поступить и обратным путем. Для многих распространенных случайных величин из теоретико-вероятностных соображений известен характер их

закона распределения. Многие Случайные величины, а следовательно, и генеральные совокупности, имеют нормальный закон распределения с функцией распределения

где параметры a и Математическая статистика имеют вполне конкретный вероятностный смысл: а — математическое ожидание, — дисперсия случайной величины. Отметим еще, что существуют случайные величины с показательным законом распределения с функцией распределения

где а — математическое ожидание случайной величины, случайные величины с биномиальным законом распределения и др.
Допустим, что нам известен вид функции распределения генеральной совокупности, например, что генеральная совокупность имеет нормальное распределение, показательное распределение или какой-либо другой вид распределения. Рассмотрим некоторую выборку,
которая извлечена из данной генеральной совокупности.

Определяем по вариантам данной выборки значения параметров, входящих в формулу теоретической функции распределения. Заменяя найденные значения параметров в формулах функции распределения, получим конкретную функцию, которая является
аппроксимацией выборочных распределений теоретическими
распределениями. Таким образом, распределения конкретных выборок аппроксимируются теоретическими.

Совместные распределения случайных величин

1. Статистическая зависимость. Во многих случаях возникает необходимость совместного изучения двух или нескольких случайных величин. Две случайные величины могут быть независимыми, либо зависимыми, при этом зависимость может быть функциональной или статистической (во втором случае говорят еще — вероятностная, или стохастическая зависимость). В теории вероятностей и математической статистике изучаются статистические (стохастические) зависимости.

Зависимость между двумя случайными величинами называется статистической, если при изменении одной го величин изменяется закон распределения другой величины.

Пусть, например, Y — вес мужчин одного возраста, a X — их рост. Зависимость между Y и X не является функциональной, так как вес разных мужчин одного и того же роста различный, но изменение величины X ведет к изменению закона распределения величины Y — веса. Зависимость между Y и X является статистической.

Статистическая зависимость, у которой при изменении одной из величин изменяется среднее значение другой величины, называется корреляционной.

Пусть, например, Y — урожай участка, X — количество внесенных удобрений. Зависимость между Y и X не является функциональной, так как на равных участках земли при равном количестве удобрений снимают все же различный урожай. Это связано с тем, что урожай
зависит от многих случайных факторов. Тем не менее, опыт показывает, что средний урожай зависит от количества удобрений. Следовательно, случайные величины — урожай и количество внесенных удобрений — связаны корреляционной зависимостью.

Понятие о корреляции и регрессии

Рассмотрим две случайные величины Y и X. Допустим, что каждому значению X соответствует несколько значений Y, например при Математическая статистика = 2 величина Y принимает значения

Среднее арифметическое значений величины Y при Математическая статистика называется условным средним и обозначается . В нашем примере имеем

Как мы уже отметили, зависимость Y от X называется корреляционной зависимостью, если условная средняя Математическая статистика функционально зависит от x:

Уравнение (1) называется уравнением регрессии Y на X; Математическая статистика называется регрессией Y на X, а ее график — линией регрессии Y на X.
Аналогично определяется корреляционная зависимость X от Y, .

Различаются две основные задачи теории корреляции. Первая — установить вид функции регрессии (1) (линейная, квадратическая, показательная и т. д.). Вторая — определить величину рассеяния значений Y вокруг условного среднего Математическая статистика , т. е. оценить силу
зависимости Y от X.

3. Выборочное уравнение. Пусть X и Y — две случайные величины, связанные корреляционной зависимостью. Для отыскания уравнения этой зависимости проведено n независимых испытаний; в результате
получены n пар чисел:

Множество пар (2) является случайной выборкой из генеральной совокупности всех возможных пар (x; у) значений величин X и Y. Распределение выборки (2) называется выборочным распределением пары случайных величин X и Y. В связи с этим уравнение (1),
определенное по данным выборки (2), называется выборочным уравнением регрессии Y на X.

Нахождение уравнений выборочной регрессии методом наименьших квадратов

Будем искать выборочное уравнение регрессии

по выборке

в виде линейного уравнения — одного из самых распространенных случаев. При этом будем считать, что в данной выборке каждому значению x признака X соответствует единственное значение у признака Y. Тогда Математическая статистика , т. е. можем считать, что заданы средние
значения величины Y для каждого значения X.

Рассмотрим линейную функцию

и поставим задачу определить параметры Математическая статистика и b так, чтобы линейная функция давала наилучшее приближение в смысле квадратического отклонения функции регрессии (1). Полученную линейную функцию назовем прямой линии регрессии Y на X. Угловой
коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X и обозначается через Математическая статистика

Таким образом, выборочное уравнение прямой линии регрессии Y на X будем искать в виде

Если Математическая статистика a — наблюдаемое значение Y, соответствующее , то разности . называются отклонениями значений Y. Подберем параметры и b так, чтобы сумма квадратов отклонений Математическая статистика , которая равна

или

была минимальной.

Для отыскания минимума приравняем нулю соответствующие частные производные Математическая статистика

Отсюда находим:

Умножая уравнение (5) на n и (6) на — Математическая статистика получим:

Сложив полученные уравнения, имеем

Отсюда

Аналогично находим

Пример:

Найти выборочное уравнение прямой линии регрессии Y на X по данным n = 5 наблюдений:

Решение:

Составим расчетную таблицу дли вычисления Математическая статистика и b по формулам (7) и (8). В результате вычислений найдем линейную функцию регрессии:

Математическая статистика — решение заданий и задач по всем темам с вычислением

Статистический материал и его обработка

1°. Результаты наблюдений массовых явлений, случайных величин составляют статистические данные, или статистический материал. Выборкой объема n называется совокупность n случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака X у некоторой части статистической совокупности (выборки), полученной в результате случайного отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).

Результаты наблюдений выборки объема n записываются, в частности, в виде статистической совокупности:

i: 1, 2, …. n — номера наблюдений, измерений,
Математическая статистика — значения наблюденной величины. При больших значениях n и различных значениях необозримую статистическую совокупность подвергают специальным видам статистической обработки.

2°. Расположим значения Математическая статистика которые называются вариантами, в порядке возрастания и обозначим Величина R = b — а называется размахом статистической совокупности. Среди значений Математическая статистика , могут быть одинаковые. Пусть значение наблюдалось раз, наблюдалось раз, …, наблюдалось раз. Тогда общий объем выборки равен

Число Математическая статистика , показывающее, сколько раз встречается варианта (значение) называется частотой , а число относительной частотой варианты

Имеем

Последовательность Математическая статистика записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом, который может быть представлен в виде таблицы (варианты вариационного ряда различны):

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины X, — ломаная с вершинами Математическая статистика

Вариационный ряд обозрим при небольших значениях Математическая статистика В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.

3°. Все варианты принадлежат отрезку (см. п. 2°). Пусть к некоторое (не больше 20) натуральное число. Отрезок [а; b] разобьем на к равных частей длины h =(b — a)/k. Обозначим эти промежутки следующим образом:

Через Математическая статистика обозначим число вариант Х, попавших в интервал Если некоторые значения совпадают с то половину их количества отнесем к левому интервалу, а половину — к правому (в случае нечетного числа таких значений одно из них можно отнести к тому или иному интервалу произвольно). Положим еще Математическая статистика Числа можно отнести также к середине интервала, Полученные данные занесем в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.

Три последние строки этой таблицы составляют вариационный ряд, которым можно заменить вариационный ряд предыдущего пункта (в случае, если число его вариант велико). В качестве новых вариант можно принять середины интервалов.

Геометрическим изображением интервальной обработки служит гистограмма. Гистограммой частот называется множество прямоугольников с основаниями Математическая статистика и высотами Площадь гистограммы равна объему выборки n.

Нормированной гистограммой называется множество прямоугольников с основаниями Математическая статистика и высотами Площадь этой гистограммы (ступенчатой фигуры) равна 1. По гистограмме легко построить эмпирический полигон, и наоборот.

4°. Эмпирической функцией распределения выборки объема n называется функция F(x), определяющая для каждого х относительную частоту события X < х:

Математическая статистика — число вариант меньших чем х.

Функция F(x) обладает свойствами (здесь Математическая статистика )

1) Математическая статистика

2) F(x) = 0 при x < a, F(x) = 1 при x > b.

3) F(x) — монотонно неубывающая, непрерывная слева функция.

Пример обработки статистического материала.

Признак X — объем товарооборота (в млн. руб.) группы обследованных магазинов в течение месяца. Результаты обследования 50 магазинов следующие: 32, 17, 22, 15, 22, 17, 20, 26, 27, 32, 17, 32, 17, 22, 15, 26, 17, 22, 15, 20, 26, 32, 22, 32, 37, 22, 15, 20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22; 32.

1) Вариационный ряд имеет вид:

2) Полигон распределения (рис. 8.1):

3) Для удобства интервальной обработки расширим интервал, на котором расположены варианты х. Положим а = 14, b = 38 и разобьем интервал (14,38) на к = 4 равных интервала. Часть совпадающих значений Математическая статистика отнесем к левым, а часть их — к правым интервалам.

Гистограмма частот (рис. 8.2) — набор внешних прямоугольников. Нормированная гистограмма — нижняя, внутренняя.

4) Эмпирическая функция распределения и ее график (рис. 8.3):

Числовые характеристики законов распределения эмпирических величин

1°. Одна из задач математической статистики состоит в установлении закона распределения случайной величины X (генеральной совокупности) и оценке параметров этого закона.

Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из имеющейся выборки.

Например, для нормального закона нужно определить математическое ожидание а и среднее квадратическое отклонение Математическая статистика а для распределения Пуассона достаточно одного параметра

2°. Обозначим через Математическая статистика параметр, подлежащий определению, а через его оценку. Оценки параметров должны удовлетворять следующим условиям:

1) несмещенности — математическое ожидание оценки параметра должно совпадать с самим параметром;

2) эффективности — при данном объеме выборки оценка должна иметь наименьшую дисперсию;

3) состоятельности — предел по вероятности при Математическая статистика последовательности таких оценок равен искомому параметру, т.е. вероятность того, что стремится к нулю при .

3°. Оценка называется точечной, если она определяется лишь одним числом, и интервальной, если она определяется двумя числами — концами интервала.

Число Математическая статистика называется точностью оценки, если имеет место неравенство — Если это неравенство имеет место с некоторой вероятностью , то число называется надежностью оценки, или уровнем надежности. Наиболее употребительными уровнями надежности являются

Интервал Математическая статистика в котором (с заданным уровнем надежности) находится параметр называется доверительным интервалом оценки.

4°. Выборочной средней Математическая статистика называется арифметическое среднее СВ X по выборочной совокупности объема n:

Выборочная средняя служит несмещенной оценкой математического ожидания признака X или генеральной совокупности.

5°. Выборочная дисперсия — среднее арифметическое квадратов отклонений наблюденных значений Математическая статистика от выборочной средней:

Математическая статистика — смещенная дисперсия СВ X, а в качестве несмещенной оценки дисперсии генеральной совокупности X принимают величину

S — несмещенная дисперсия.

6°. Мода выборки — варианта Математическая статистика с наибольшей частотой, медиана Me — варианта, делящая ряд на две равные части: если n = 2k + 1, то а если n = 2к, то

7°. Начальные эмпирические моменты Мk (к = 1,2,3,4) и центральные эмпирические моменты Математическая статистика определяются формулами:

8°. Варианты Математическая статистика , составляющие арифметическую прогрессию, называются равноотстоящими.

Для упрощения вычислений начальных моментов равноотстоящих вариант удобно переходить к так называемым условным, или центрированным вариантам: Математическая статистика где с — новое начало отсчета, а — разность (шаг) прогрессии.

Центральные моменты первых четырех порядков равноотстоящей выборки Математическая статистика выражаются через начальные моменты условных вариант по формулам:

Асимметрия выборки: Математическая статистика эксцесс:

В вычислениях можно указать индексом варианту, для которой вычисляются соответствующие моменты (например, Математическая статистика )

9°. Предположим, что признак X генеральной совокупности распределен нормально со средним квадратическим отклонением Математическая статистика Имеет место формула доверительной вероятности Тогда с надежностью можно утверждать, что математическое ожидание случайной величины X принадлежит доверительному интегралу

Значение t следует найти в табл. 1 приложения по значению функции Математическая статистика

Доверительный интервал с надежностью а для оценки среднего квадратического отклонения сто нормального распределения по несмещенной оценке S определяется из неравенства:

где Математическая статистика определяется из табл. 5 приложения, в которой приведены значения функции по доверительной вероятности и объему выборки n.

10°. Если признак X распределен по биномиальному закону с относительной частотой Математическая статистика то при больших n доверительным интервалом неизвестной вероятности р с надежностью будет интервал

Задачи с решениями

Задача:

Дан статистический ряд — число дней в году, пропущенных по болезни сотрудниками лаборатории.

Определить среднее число дней на одного человека, пропущенных по болезни, и разброс этого числа около среднего.

Решение:

Определим среднее выборки объема n = 30 (k = 7) по формуле (1):

Дисперсию и среднее квадратическое отклонение вычислим по формуле (2):

Имеем

Округляя до целых, получаем, что среднее число (математическое ожидание) пропусков в году на одного человека составляет 4 дня, разброс 3 дня.

Задача:

Выборка, приведенная в следующей таблице, соответствует времени обслуживания (в минутах) покупателя магазина:

Привести прогноз времени обслуживания магазином и среднее квадратическое отклонение этого времени. Найти моду вариационного ряда.

Решение:

От интервальной таблицы переходим к вариационному ряду, заменяя интервал времени центром этого интервала:

Мода — варианта с максимальной частотой; Математическая статистика

Числа вариационного ряда не удобны для вычислений, т.к. они большие, поэтому переходим к условным вариантам с новым центром с = 48 и шагом (разностью) h = 4. Положим

Вычислим выборочное среднее и дисперсию для новой варианты. Для удобства приводим таблицу с промежуточными вычислениями.

При помощи сумм в последней строке таблицы вычислим:

Обратный переход к вариантам х осуществляется по формулам, которые следуют из формул п. 8°:

Получаем:

Прогноз обслуживания: Математическая статистика мин, разброс мин.

Задача:

Случайная величина X — число семян сорняков в пробе зерна, распределена по закону Пуассона. В таблице

приведено распределение числа семян сорняков в n = 1000 пробах зерна. В первой строке — количество Математическая статистика сорняков в одной пробе, во второй — число проб, содержащих семян сорняков. Найти точечную оценку неизвестного параметра распределения Пуассона.

Решение:

Закон Пуассона имеет вид Математическая статистика где m — число испытаний, произведенных в одном опыте, — число наступлений события в i-м опыте. Для закона Пуассона математическое ожидание совпадает с параметром Математическая статистика С другой стороны, несмещенной оценкой М(Х) принимается среднее выборки

Вычисляем Математическая статистика по формуле п. 4°:

Ответ.

Задача:

Время работы элемента радиоустройства подчиняется закону Математическая статистика

В таблице

приведено эмпирическое распределение среднего времени работы
n = 200 элементов: Математическая статистика — среднее время работы элемента в часах, — количество элементов, проработавших ч. Найти

Решение:

Как известно, для показательного закона математическое ожидание М(Х) равно Математическая статистика Следовательно, точечной оценкой служит Вычислим

Следовательно, Математическая статистика

Ответ Математическая статистика

Задача:

Дан вариационный ряд признака X:

Найти начальные и центральные моменты первых четырех порядков признака X, а также определить асимметрию и эксцесс.

Решение:

Вычисления проводим по формулам п. 7° для Математическая статистика и п. 8° для h = 1.

Задача:

По данным выборочного обследования 7, 3, 0, 7, 2, 1, 2, 4, 5, 3 определить несмещенную выборочную дисперсию и среднее квадратическое отклонение.

Решение:

Составим сначала вариационный ряд:

Вычислим выборочное среднее Математическая статистика

Вычислим теперь выборочную дисперсию Математическая статистика

Несмещенная оценка дисперсии имеет вид Математическая статистика

Несмещенное среднее квадратическое отклонение: Математическая статистика

Задача:

Найти с надежностью 0,99 доверительный интервал для оценки неизвестного математического ожидания нормально распределенного признака X генеральной совокупности, если
Математическая статистика = 20,5; n = 36 и = 3.

Решение:

Согласно п. 9° доверительным интервалом неизвестного математического ожидания является интервал Математическая статистика , где

Определим сначала t из равенства 2Ф(t) = 0,99, т.е Ф(t) = 0,495. Из табл. 1 приложения находим Математическая статистика

Далее, Математическая статистика Наконец,

Ответ. 19,21 < а < 21,79.

Задача:

Найти доверительный интервал для оценки с надежностью 0,99 неизвестной вероятности р биномиального закона распределения, если в 400 испытаниях событие наступило 140 раз.

Решение:

Согласно п. 10° искомый доверительный интервал имеет вид:

Находим также

Наконец,

Ответ. Математическая статистика

Задача:

Из текущей продукции токарного автомата был произведен выбор 250 валов. Результаты измерений отклонения диаметра валов от номинала приведены в таблице:

Требуется:

1) найти оценки математического ожидания, дисперсии и среднего квадратического отклонения случайной величины X — отклонения диаметра вала от номинала;

2) определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения случайной величины X. Предполагается, что случайная величина X имеет нормальное распределение. Доверительную вероятность принять равной 0,95.

Решение:

1) Составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

В третьей строке таблицы записаны произведения Математическая статистика а в четвертой — произведения

Последний столбец содержит суммы чисел соответствующих строк. Таким образом,

2) Согласно п.9°

Из равенства Ф(t) = Математическая статистика и табл. 1 приложения находим
t = 1,96.

Далее,

3) Доверительный интервал для оценки Математическая статистика нормального распределения по несмещенной оценке 5 определяется из неравенства (см. п. 9°):

Имеем

При Математическая статистика и n = 250 в табл. 5 приложения находим
t(0,95; 250) = 0,089.

Следовательно,

Значит, Математическая статистика

Построение теоретического закона распределения и его согласование с эмпирическими данными

1°. Предположим, что выборка объема n из генеральной совокупности значений случайной величины X задана в виде вариационного ряда. Требуется определить вид теоретического закона распределения СВ X и установить, насколько этот закон согласуется с данной выборкой.

Вид теоретического закона выбирается интуитивно, исходя из вида эмпирического полигона, а его параметры вычисляются по методике, изложенной ранее, в предыдущих параграфах.

2°. Согласование теоретического закона с эмпирическими данными произведем на основании критерия Пирсона «хи квадрат», который заключается в оценке вероятности величины

где Математическая статистика — теоретическая частота варианты

Если вероятность Математическая статистика велика (больше 0,5), то расхождения между эмпирическими и теоретическими частотами считаются случайными и полученный закон принимается (не отвергается). Для вероятностей Математическая статистика имеются специальные таблицы.

Мы будем пользоваться табл. 3 приложения. В ней приводятся критические значения Математическая статистика соответствующие данному уровню значимости а и числу степеней свободы критерия r = k — m — 1, где k — число групп выборки, m — число параметров используемого теоретического закона.

Наиболее употребительными уровнями значимости являются:

Значение Математическая статистика в таблице находится на пересечении строки r и столбца .
Если то теоретический закон принимается, а если то закон отвергается.

Проверка гипотезы о нормальном распределении генеральной совокупности

Предположим, что выборка случайной величины X задана в виде вариационного ряда с равноотстоящими вариантами.

Правило. Для того, чтобы при данном уровне значимости проверить гипотезу о нормальном распределении генеральной совокупности, необходимо:

1) вычислить Математическая статистика
2) вычислить теоретические частоты где n — объем выборки, — шаг ряда, и,

(значения даны в табл. 2 приложения);

3) вычислить значение Математическая статистика

4) в табл. 3 приложения найти значение по уровню значимости а и числу степеней свободы r = k — 3 (k — число групп выборки);

5) сравнить Математическая статистика если полученный закон признается верным, а если полученный закон отвергается.

Примечание. Малочисленные интервалы Математическая статистика следует объединить, а соответствующие частоты, как эмпирические, так и теоретические — сложить.

Задачи с решениями

Задача:

Построить теоретический закон распределения генеральной совокупности СВ Х, заданной в виде выборки объема
n = 100 вариант при помощи вариационного ряда

Используя критерий Пирсона при уровне значимости Математическая статистика установить, согласуется ли полученный закон с данной выборкой. Найти также асимметрию и эксцесс эмпирического распределения и дать им надлежащее толкование.

Решение:

Первую рабочую таблицу (с. 349) используем для вычисления эмпирических начальных и центральных моментов данного вариационного ряда. Для этого переходим к центрированным вариантам Математическая статистика (с = 11, h = 3); в качестве центра с новых вариант можно брать моду (Мо) или медиану (Me) исходного вариационного ряда. В данном случае

При помощи таблицы находим последовательно:

При помощи Математическая статистика и находим и

Построим эмпирический полигон (рис. 8.4) и, исходя из его внешнего вида, выдвигаем гипотезу: генеральная совокупность распределена по нормальному закону с параметрами

Для проверки этой гипотезы воспользуемся новой рабочей таблицей (с. 350), в которой

Математическая статистика — целое число), — функция Лапласа.

Из таблицы находим Математическая статистика а при и числе степеней свободы k = 7 — 2 — 1 = 4 ( k7 — число групп выборки, m = 2 — число параметров задачи) из табл. 3 приложения имеем

Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается. График теоретической функции плотности изображен на рис. 8.4 пунктиром. Сравнивая теоретический и эмпирический графики, видим, что эмпирический полигон скошен вправо (что соответствует As = 0,13) и «слегка низковершинный» (что согласуется с Еk = — 0,71).

Задача:

Дан вариационный ряд случайной величины X с n = 150 вариантами:

Построить теоретический закон распределения СВ X. Используя критерий Пирсона при уровне значимости Математическая статистика установить, согласуется или нет построенный закон с эмпирическими данными.

Решение:

Сначала объединим малочисленные варианты, переходя к новому вариационому ряду с k = 10 различными вариантами и объемом выборки n = 150 Новый вариационный ряд имеет вид:

Построив полигон этого вариационного ряда (рис 8.5), замечаем, что он напоминает график нормального распределения, поэтому можно выдвинуть гипотезу о нормальном распределении данной СВ X. Параметры Математическая статистика и закона вычислим при помощи рабочей таблицы. В ней отражены варианты , их частоты, центрированные варианты где с = 5,5 — это варианта с наибольшей частотой (мода), a h = 0,5 есть шаг равноотстоящих вариант Математическая статистика

Из таблицы получаем выборочное средние и среднее квадратическое отклонение СВ и

Соответствующие параметры для СВ X находим по формулам перехода

Тем самым теоретический закон имеет вид (принимаем Математическая статистика )

выпишем теоретические частоты, отклонения теоретических и эмпирических частот и определим

Положим Математическая статистика (принимаем )

В таблице критических точек распределения Математическая статистика (табл. 3 приложения) находим при уровне значимости значение (имеем r = 10 — 3 = 7 степеней свободы). Значение

Гипотеза о том, что данное распределение нормально, отвергается при уровне значимости Математическая статистика . Вместе с тем гипотеза о нормальном распределении СВ X не отвергается при уровнях значимости

Таким образом, уровень значимости представляет собой уровень точности (близости) полученного закона к стандартному, каноническому.

Анализ экспериментальных данных позволяет найти причину того, что полученный закон не является нормальным в каноническом смысле. Этому мешает частота Математическая статистика что приводит к островершинности распределения (предлагаем найти As и Ek и посмотреть, насколько они отличаются от стандартных As = 0 и Ek = 0)

Задача:

Используя критерий Пирсона при уровне значимости 0,05, проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200:

Решение:

Рекомендуем построить самостоятельно эмпирический полигон и сделать предположение о виде теоретического закона.

Непосредственные вычисления параметров нормального распределения дают следующие результаты:

Дальнейшие вычисления поместим в расчетную таблицу. Отметим только, что

(результаты для Математическая статистика округляем, ибо — целые числа).

Последнее число 24,045 и есть Математическая статистика В табл. 3 приложения находим, что при r = k — 2 — 1 = 9 — 3 = 6.

Гипотеза о нормальном распределении генеральной совокупности признака X отвергается, т.к Математическая статистика

Проверка гипотезы о распределении генеральной совокупности по биномиальному закону

1°. Произведены п опытов. Каждый опыт состоит из N независимых испытаний, в каждом из которых вероятность события А равна
р = р(А). Регистрируется число наступлений события А в каждом опыте.

Для случайной величины X — числа появлений события А в одном опыте — получена таблица

Требуется, используя критерий Пирсона, проверить гипотезу о распределении X по биномиальному закону.

2°. Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что дискретная случайная величина X распределена по биномиальному закону, необходимо (q = 1 — р):

1) вычислить вероятности Математическая статистика по формуле Бернулли

2) вычислить теоретические частоты Математическая статистика

3) сравнить эмпирические и теоретические частоты по критерию Пирсона при уровне значимости Математическая статистика и степеней свободы
( — число групп выборки), если р = р(А) неизвестна, либо степеней свободы, если р = р(А) известна, т.е. дана в условиях задачи.

Задачи с решениями

Задача:

Произведены n = 100 опытов. Каждый опыт состоит из 10 испытаний. Вероятность появления события А в каждом испытании равна р = 0,3. В результате регистрации опытов получено эмпирическое распределение ( Математическая статистика — число наступлений А в одном опыте, — число опытов, в которых А произошло раз):

Требуется установить при уровне значимости 0,05, согласуется ли с этими данными гипотеза о том, что СВ X — число появлений А — распределена по биномиальному закону.

Решение:

Построим полигон распределения (рис. 8.6). Применим правило п. 2°.

2) Вычислим теперь теоретические

В табл. 3 приложения по уровню значимости Математическая статистика и r = 6 — 2 = = 4 (k = 6 — число групп в выборке) находим

Ответ. Гипотеза верна.

Задача:

Отдел технического контроля проверил n=100 партий по N = 10 изделий в каждой партии, и в результате этого получена таблица распределений случайной величины X — числа нестандартных изделий в одной партии:

Требуется при уровне значимости Математическая статистика проверить гипотезу о том, что X распределена по биномиальному закону.

Решение:

Вероятность р = р(А) вычисляем по выборке:
р = 0,4. В табл. 3 приложения находим Математическая статистика по и числу степеней свободы r = 8 — 2 = 6: Далее вычисляем теоретические частоты: 0,6; 4,0; 12,2; 25,1; 11,2; 4,4 и получаем

Ответ. Гипотеза верна.

Проверка гипотезы о распределении генеральной совокупности по закону Пуассона

Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что СВ X распределена по закону Пуассона, необходимо:

1) вычислить параметр Математическая статистика
2) вычислить по закону Пуассона или по таблицам;
3) вычислить теоретические частоты
4) применить критерий Пирсона при данном и числу r = k — 2 степеней свободы, где k — число групп выборки

Задача с решением

Задача:

Отдел технического контроля проверил n = 200 партий одинаковых изделий и получил следующее эмпирическое распределение количества нестандартных изделий:

Требуется при уровне значимости Математическая статистика проверить гипотезу о том, что число X нестандартных изделий распределено по закону Пуассона.

Решение:

Построим полигон распределения (рис. 8.7).

Закон Пуассона имеет вид:

Применим правило (см. выше).

1) Имеем

Принимаем Математическая статистика

2) Вычислим вероятности Математическая статистика

Находим: р(0) = 0,549; р(1) = 0,329; р(2) = 0,098; р(3) = 0,019; р(4) = 0,003.

3) Вычислим (округляя до целого числа) теоретические частоты Математическая статистика

4) Вычислим теперь Математическая статистика Частоты (ввиду их малости) объединим в одну:

В табл. 3 приложения при Математическая статистика и r = 4 — 2 = 2 находим Гипотеза подтверждается.

Проверка гипотезы о распределении генеральной совокупности по показательному закону

Правило. Для того, чтобы при уровне значимости Математическая статистика проверить гипотезу о том, что данное интервальное распределение подчиняется показательному закону, необходимо:

1) вычислить Математическая статистика и принять в качестве параметра показательного распределения число

2) найти вероятности попадания X в частичные интервалы:

3) вычислить теоретические частоты Математическая статистика

4) применить критерий Пирсона при данном Математическая статистика и r = k — 2 степеней свободы, где к — число первоначальных интервалов выборки.

Задача с решением

Задача:

Дано интервальное распределение:

Требуется при уровне значимости Математическая статистика , применяя критерий Пирсона подтвердить или опровергнуть гипотезу о том, что данное распределение подчиняется показательному закону.

Решение:

1) Эмпирическое выборочное среднее Математическая статистика вычислим по центрам интервалов:

Принимаем

Таким образом, плотность показательной функции распределения имеет вид: Математическая статистика

2) Вычислим

Получаем:

Аналогично,

3) Вычислим теоретические частоты Математическая статистика

4) Применим критерий Пирсона (частоты 4 + 2 + 1 объединим в одну; соответствующая теоретическая частота равна 6,3 + 2,3 + 0,8 = 9,4).

Получаем

После объединения трех интервалов число степеней свободы стало
r = 4 — 2 = 2. Из табл. 3 приложения берем Математическая статистика

Ответ. Гипотеза подтверждается.

Линейная корреляция случайных величин

1°. Корреляционная зависимость между случайными величинами (признаками) X и У обычно задается с помощью корреляционной таблицы:

Здесь

— середины интервалов или признаков X и Y, a Математическая статистика — соответствующие частоты, — частота, с которой встречается пара

2°. Заданная таблицей корреляционная зависимость между признаками X и У может быть заменена функциональной зависимостью, если каждому значению Математическая статистика признака X поставить в соответствие условное среднее признака У, т.е. величину

— среднее значение Y.

Если теперь точки Математическая статистика выровнять по методу наименьших квадратов вдоль кривой

то последняя называется линией регрессии У на X, а ее уравнение — уравнением регрессии Y на X. Аналогично определяется линия регрессии X на У.

Наиболее простыми и важными случаями линий регрессии являются прямые линии.

3°. Если обе линии регрессии У на X и X на У — прямые линии, то величины У и X называют линейно коррелированными.

4°. Выборочное уравнение прямой линии регрессии У на X имеет вид:

где Математическая статистика — групповое среднее,
— выборочные средние признаков У и X,
— выборочные средние квадратические отклонения,
— выборочный коэффициент корреляции.

5°. Аналогичный вид имеет выборочное уравнение прямой линии регрессии X на Y:

6°. Величину Математическая статистика называют остаточной дисперсией случайной величины У относительно случайной величины X; она характеризует величину ошибки, которая возникает при замене У линейной функцией. Аналогично величину Математическая статистика

г) называют остаточной дисперсией величины X относительно У. При Математическая статистика остаточная дисперсия равна нулю, т.е. при представлении У в виде линейной функции от X не возникает ошибки, а У и X связаны линейной функциональной зависимостью.

7°. При необходимости, для облегчения вычислений, целесообразно переходить к условным (центрированным) вариантам: Математическая статистика где — новые начала координат, — шаги вариант величин X и Y.

Величины Математическая статистика вычисляются по формулам

Наконец,

Задача с решением

Задача:

Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице, вычислить остаточную дисперсию:

Решение:

Берем

Построим корреляционную таблицу для U, V:

Вычисления:

Однофакторный дисперсионный анализ

Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак.

Например, если измерения некоторой величины производятся на к различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений, т.е. ответить на вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (проверяется гипотеза о равенстве средних). ‘

Предположим, что на количественный признак X, распределенный нормально, воздействует фактор F, который имеет р уровней Математическая статистика На каждом уровне произведено по q испытаний. Результаты испытаний определяются числовой матрицей

номер испытания, j = 1,2, …, р — номер уровня фактора Математическая статистика ). Данные заносим в таблицу (с. 365).

Требуется: при условии значимости а проверить гипотезу о равенстве групповых средних при условии, что групповые генеральные дисперсии одинаковы, хотя они и неизвестны.

Эта задача решается по следующей схеме.

1) Вычислить общую среднюю Математическая статистика

2) Вычислить сумму квадратов отклонений групповых средних от общей средней

Имеет место формула:

3) Вычислить факторную сумму квадратов отклонений групповых средних от общей средней (рассеяние между группами)

Имеет место формула:

4) Вычислить остаточную сумму квадратов отклонений значений группы от своей групповой средней (рассеяние внутри групп)

5) Вычислить факторную и остаточную дисперсии

и величину

6) Величина Математическая статистика распределена по закону Фишера-Снедекора. Поэтому следует сравнить

используя табл. 4 приложения:

если Математическая статистика то различие групповых средних незначимое; в этом таком случае можно сказать также, что фактор оказывает незначительное воздействие на результаты испытаний и его не следует учитывать;

если Математическая статистика то различие групповых средних значимое; в таком случае фактор оказывает существенное влияние на результаты испытаний и его следует учитывать.

Примечания. 1 Если Математическая статистика то гипотеза о равенстве групповых средних справедлива, и критерий Фишера-Снедекора можно не применять.

2.Если Математическая статистика — десятичные дроби с m знаками после запятой, то целесообразно перейти к нормированным и центрированным вариантам При этом факторная и остаточная дисперсии увеличатся в Математическая статистика раз каждая.

Задачи с решениями

Задача:

Произведено по 4 испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями:

Решение:

Поскольку данные варианты являются дробными числами, то для упрощения вычислений переходим к новым, целым и центрированным вариантам, полагая

(общее среднее арифметическое значений Математическая статистика равно 0,29). Новые варианты заносим в расчетную таблицу:

А теперь реализуем схему, описанную выше.

6) В табл.4 приложения находим

Неравенство Математическая статистика означает, что гипотезу о равенстве групповых средних данных совокупностей отвергаем.

Задача:

В трех филиалах одного банка были организованы три уровня различных услуг для клиентов. После этого в течение шести месяцев измерялись объемы вкладов X (тыс. руб.). Методом

дисперсионного анализа проверить нулевую гипотезу о существенном влиянии организации услуг на объем вкладов при уровне значимости 0,05. Данные измерений приведены в таблице
(с. 367).

Решение:

Имеем р = 3, q = 6, значения вариант — целые числа.

1) Находим групповые и общие средние:

2) Для расчета Математическая статистика составим таблицу квадратов.

Вычислим Математическая статистика по второй формуле п. 2) схемы:

3) Вычислим Математическая статистика по второй формуле п. 3) схемы:

4) Факторная, остаточная дисперсии и Математическая статистика равны:

5) В табл. 4 приложения находим Математическая статистика

Неравенство Математическая статистика можно трактовать так: нулевая гипотеза о существенном влиянии организации услуг на объем вкладов принимается.

Обработка результатов измерений (анализ данных)

Основные определения:

Научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, систематизации и обработки данных с целью их интерпретации и получения выводов, называется анализом данных.

Пусть проводится некоторый опыт (рассматривается некоторое явление). Все возможные результаты опыта образуют так называемую генеральную совокупность. Если в данной серии опытов получено несколько результатов, то эта совокупность данных называется выборкой. Количество объектов в генеральной совокупности или в выборке называется ее объемом. Свойства и характеристики генеральной совокупности обычно не известны. Необходимо, исследуя данные выборки, как можно точнее оценить свойства и характеристики генеральной совокупности. Решение такого рода задач — предмет рассмотрения дисциплины, называемой математической статистикой. Отметим, что она применима только к массовым явлениям, имеющим вероятностную природу.

При составлении выборки используют разные методы отбора. Прежде всего, отбор может быть повторным, при котором выбранный объект возвращается в генеральную совокупность, и бесповторным, при котором объект не возвращается. Кроме того, отбор может проводиться с расчленением генеральной совокупности на части и без такого расчленения,. При раз-

бивании генеральной совокупности на части используют:

■ типический отбор, при котором объекты выбираются из каждой типической части генеральной совокупности; •

■ механический отбор, при котором генеральная совокупность формально делится на столько групп, сколько элементов в выборке и из каждой группы берут один элемент;

■ серийный отбор, при котором объекты выбираются сериями.

Если генеральная совокупность не разбивается на части, то используют простой случайный бесповторный отбор и простой случайный повторный отбор, при которых элементы выбираются из всей совокупности.

При любых способах отбора необходимо, чтобы выборка правильно отражала пропорции генеральной совокупности, т. е. выборка должна быть репрезентативной. Выборка будет репрезентативной, если ее осуществлять случайно. Если объем выборки велик, то разность между повторной и бесповторной выборкой стираются.

Существует множество ситуаций, когда полученные данные, даже если их и много, характеризуют не все, а только некоторые объекты, т. е. нарушено требование репрезентативности. В таких случаях мы не вправе распространять результаты обработки данных на другие (не рассмотренные) объекты. Например, проведено обследование приморских городов страны. Полученные характеристики будут справедливы только для этих городов и не могут быть в полной мере распространены на города, расположенные в глубинных районах. Другой пример: проведено исследование населения городов с числом жителей более миллиона. Полученные данные нельзя использовать для прогнозирования ситуации в населенных пунктах с другой численностью населения. Или, в 12 часов дня проведен опрос населения по домашним телефонам, хотя в это время основная масса трудоспособного населения не находится дома. Данные опроса нельзя распространить на всех жителей города.

Другой пример: рассматриваются произведения поэтов «серебряного века». Цель рассмотрения — выявление групп поэтов,

близких по стилю построения стихов, их размеру, тематической направленности и т.д. Полученные при этом результаты будут справедливы только для рассматриваемой группы поэтов (только для данной выборки). Надо понимать, что данные такого типа имеют другую, не вероятностную природу. Отличительной особенностью таких данных является то, что они уникальны и многократное повторение анализа (опытов) не принесет существенно новой информации. Анализу данных, имеющих не вероятностную природу, посвящены методы кластерного анализа, распознавания образов и т.п. Но, тем не менее, и для анализа данных, имеющих не вероятностную природу, широко применяются методы статистической обработки наблюдений.

Элементы математической статистики

Основной целью применения аппарата математической статистики является определение ряда числовых характеристик случайной величины, например, математического ожидания и дисперсии или ее закона распределения в целом с тем, чтобы иметь возможность при решении прикладных задач применять аппарат теории вероятностей.

Поскольку рассматривается только выборка (а не генеральная совокупность), при решении задач математической статистики всегда присутствует элемент случайности, и результаты получаются лишь с некоторой степенью уверенности.

Существуют три основные задачи математической статистики:

• Определение вида закона распределения исследуемой случайной величины (задача сглаживания экспериментальных зависимостей).

• Определение неизвестных параметров распределения.

• Проверка правдоподобия гипотез.

Первичная обработка данных

Решение любой задачи математической статистики предваряет первичная обработка наблюдений. Пусть в результате проведения в одинаковых условиях независимых опытов получено n значения исследуемой случай-

ной величины X. Расположенные в виде таблицы полученные данные,

где Математическая статистика результат i-го опыта, называют простой статистической совокупностью, сами величины называют вариантами. Простая статистическая совокупность — первичная форма записи статистического материала. Если объем данных невелик, то их располагают в порядке возрастания. Последовательность вариант, записанная в возрастающем порядке, называют вариационным рядом. Для каждой варианты определяют частоту Математическая статистика число ее появлений в простой совокупности, и относительную частоту (здесь и далее знак * говорит о том, что это статистический аналог соответствующего понятия теории вероятностей).

Если получено большое число данных, а в статистике оперируют, как правило, сотнями и тысячами значений, то их преобразуют в так называемый статистический ряд. Для этого весь диапазон полученных значений случайной величины X разбивают на разряды (подинтервалы). Для удобства обычно вводят Математическая статистика разрядов (большее число разрядов сложно анализировать, а при малом их числе происходит излишнее огрубление исследуемых зависимостей). Для каждого разряда подсчитывается число попавших в него значений Математическая статистика из совокупности (4.36). Если каждое из этих значений разделить на общее количество имеемых данных n, то получим относительные частоты попадания в соответствующий разряд Математическая статистика Полученные таким образом данные образуют таблицу, называемую статистическим рядом

Графическое изображение статистического ряда называется гистограммой, (см. рис. 4.6 а). Данные статистического ряда можно использовать для построения статистической функции распределения

График этой функции, изображенной на рис. 4.6 б, всегда представляет собой характерную ступенчатую функцию. Полученные в результате первичной обработки данные используются для решения задач математической статистики.

Пример:

Изготавливается тираж книги, один из размеров которой должен быть равен 20 см. Выбрано и измерено 100 готовых экземпляров. Результаты измерений сведены в таблицу, где Математическая статистика отклонение от заданного размера в мм i-той книги

Построить статистический ряд, гистограмму и статистическую функцию распределения.

Решение:

Из анализа данных таблицы можно сделать вывод о том, что целесообразно разбить интервал наблюденных отклонений на семь разрядов и построить следующий статистический ряд

Гистограмма, построенная на основе этого статистического ряда, представлена на рис. 4.7.

Статистическая функция распределения данной выборки имеет следующий вид:

Определение неизвестных параметров закона распределения

Полученные характеристики являются лишь статистическими аналогами параметров исследуемой случайной величины, и им в большей или меньшей мере присущи черты случайности. Так, гистограмма дает наглядное представление о том, как часто случайная величина в проведенных опытах принимала значения из соответствующего разряда. Очевидно, что при увеличении числа опытов и увеличении числа разрядов, гистограмма для непрерывной случайной величины X будет приближаться к кривой плотности вероятности этой случайной величины. Аналогично, статистическая функция при увеличении числа проведенных опытов и разрядов приближается к универсальному закону — функции распределения.

Задача заключается в подборе математической модели — закона распределения исследуемой случайной величины X. При этом модель должна в некотором смысле слова наилучшим образом описывать свойства этой величины и отражать лишь существенные стороны ее распределения. Сложность задачи заключается в том, чтобы найти сглаживающую кривую только на основании имеющегося экспериментального материала. Формально эта задача является неопределенной, поскольку слова «наилучшим образом» могут пониматься по-разному. На

практике класс сглаживаемых функции получают на основании априорных сведений о характере исследуемой величины X. Так, если речь идет об измерениях, то сглаживающая кривая для гистограммы, как правило, есть кривая нормального закона распределения, если речь идет о времени телефонного разговора, то это кривая экспоненциального закона распределения и т.п. При большом объеме экспериментальных данных и значительном числе разрядов форма гистограммы и статистической функции распределения могут служить основанием для выбора типа сглаживающей функции.

Высказанная гипотеза о виде сглаживающей кривой еще не дает возможности применять количественные методы теории вероятностей. Так, например, если установлено, что X имеет нормальный закон распределения

то для нахождения вероятности попадания в интервал (а,b) необходимо знать математическое ожидание ш и среднеквадра-тическое отклонение Математическая статистика случайной величины X. Определение неизвестных параметров — следующая основная задача математической статистики. Решение этой задачи часто осуществляется при помощи метода моментов. Согласно этому методу, неизвестные параметры выбираются таким образом, чтобы числовые характеристики X были равны их статистическим аналогам.

Для математического ожидания статистическим аналогом является среднее арифметическое (среднее выборочное)

где Математическая статистика середины соответствующих интервалов, относительные частоты.

Для дисперсии — статистическая дисперсия (выборочная дисперсия)

Отсюда находится, статистическое среднеквадратическое отклонение

Для разобранного ранее примера можно выдвинуть гипотезу о том, что распределение размера книги подчинено нормальному закону. Параметры этого закона при помощи метода моментов можно определить, используя данные ряда распределения:

Теперь можно сказать, что средний размер выпускаемых книг равен приблизительно 20,72 см и разброс размеров в обе стороны (по правилу «три сигма») практически не превысит 0,27 см.

Проверка правдоподобия гипотез

Предположим, что сформулирована гипотеза Н о законе распределения исследуемой случайной величиной X (ее будем называть теоретическим распределением). Требуется проверить, не противоречит ли эта выдвинутая гипотеза имеющимся выборочным данным.

Чтобы иметь основания принять или опровергнуть гипотезу, необходимо выработать некоторый критерий, позволяющий делать корректные выводы. В математической статистике при проверке гипотез выбрать критерий — значит задать некоторое критическое значение вероятности ошибочного отклонения проверяемой гипотезы. Эта вероятность называется уровнем значимости и обозначается Математическая статистика Чем весомее для нас потери от ошибочного отклонения гипотезы Н, тем меньше Обычно эта величина имеет одно из стандартных значений: 0,1,0,05 или 0,01. Выбрав, например, Математическая статистика мы в среднем десять раз из ста будем отбрасывать верную гипотезу. Если же выбрать то

из ста случаев мы (в среднем) только один раз отбросим верную гипотезу.

Основная идея проверки гипотез заключается в следующем Выбирается уровень значимости Математическая статистика и задается некоторая мера расхождения U, характеризующая степень расхождения теоретического и статистического распределений. В предположении, что гипотеза верна, вычисляется вероятность того, что только за счет чисто случайных причин (связанных с ограниченностью числа проведенных опытов) мера расхождения U (критерий согласия) окажется не меньше, чем вычисленная по результатам наблюдений величина этой меры u, т.е. Математическая статистика Если эта вероятность не меньше , то говорят, что экспериментальные данные не противоречат выдвинутой гипотезе. По такой схеме проводится проверка практически любых статистических гипотез.

Для проверки гипотезы о законе распределения исследуемой случайной величины применяют различные критерии. Чаще других применяется критерий согласия Пирсона. Здесь в качестве меры рассогласования U выбирается величина (обозначаемая Математическая статистика которая вычисляется по формуле

где Математическая статистика теоретическая вероятность, т.е. вероятность попадания в i-ый разряд, вычисленная по гипотетическому закону; статистическая (вычисленная по выборке) частота попадания в i-ый разряд.

Вычисленная по такой формуле величина рассогласования (называемая «хи-квадрат») является хорошо изученной случайной величиной, для распределения которой построены таблицы.

Схема применения критерия согласия Математическая статистика следующая:

1.По формуле (4.36) вычисляется мера рассогласования Математическая статистика .

2.Вычисляется число степеней свободы Математическая статистика

где k — число разрядов, на которое разбит диапазон наблюденных значений величины X; s — число параметров теоретического закона распределения, которые определены по выбор-

ке. Например, для гипотезы о нормальном законе: если известно среднее значение х известно, то Математическая статистика (надо вычислять статистическую , если ни один параметр закона не известен заранее,

3.По таблице распределения «хи-квадрат» для найденных Математическая статистика и r определяется вероятность Р. Если эта вероятность не больше заранее выбранного уровня значимости , то гипотеза отбрасывается как неправдоподобная. Если же Математическая статистика то говорят, что гипотеза не противоречит экспериментальным данным.

Для примера проверим гипотезу о том, что размеры книги имеют нормальное распределение. Используя формулы приведенной функции Лапласа для интервалов, выбранных при формировании гистограммы, представленной на рис. 4.7, и найденных ранее Математическая статистика найдем теоретические вероятности Затем по формуле (4.3) определим значение величины , которая равна 2,7. Поскольку выбрано 7 разрядов и из выборки найдены оценки математического ожидания и среднеквадратического отклонения Математическая статистика Теперь по таблице распределения «хи-квадрат» находим вероятность что существенно больше, чем Следовательно, можно констатировать, что гипотеза о нормальном распределении ошибки размера книги не противоречит экспериментальным данным.

Методы анализа статистических зависимостей

Рассмотренные выше методы позволяют определять статистические характеристики результатов опыта: Однако важным является нахождение и анализ статистических зависимостей между наблюдаемыми результирующими величинами й факторами, их вызывающими.

Основные задачи анализа статистических зависимостей

Наблюдаемая результирующая величина y может зависеть от нескольких характеризующих ее величин (факторов)

Математическая статистика На практике можно встретить самые разнообразные формы причинно-следственных связей между результирующей величиной и величинами, ее вызывающими. Рассмотрим наиболее распространенные схемы зависимостей между факторами Математическая статистика и результатом у.

Схема А — зависимость между неслучайными параметрами. Здесь связь у с факторами детерминированная, и задача состоит в том, чтобы восстановить по значениям факторов значения результирующих величин, т.е. установить вид функции f:

Схема В — регрессионная зависимость. Зависимость случайного результирующего показателя Математическая статистика от неслучайных факторов ( — случайная реализация у)

Данная схема реализуется в том случае, если у связана со случайными обстоятельствами регистрации или с наличием неучтенных случайных факторов. Предполагается, что случайный компонент Математическая статистика обладает следующими свойствами

1.Его математическое ожидание равно нулю Математическая статистика

2.Его дисперсия конечна Математическая статистика

Схема С — корреляционная зависимость. Зависимость случайного результирующего показателя Математическая статистика от случайных факторов случайная реализация ):

Существует и целый ряд других зависимостей. Выбор схемы исследуемых зависимостей в первую очередь определяется сущностью решаемой задачи, ее смысловой направленности и глубиной рассмотрения вопроса. Приведем ряд примеров. Классический пример схемы А — установление зависимости между возрастом дерева (у) и числом колец х на срезе его ствола. Сейчас всем, наверное, известно, что в данном случае Математическая статистика

Если рассматривается вопрос о числе гласных букв (у) в словах с различным количеством букв Математическая статистика являющихся различны-

ми частями речи Математическая статистика то эта ситуация, скорее всего, подходит под схему В. Если искать связь между чистотой хлопка и качеством выпускаемой пряжи, целесообразно принять схему С. Таким образом, выбор схемы искомой зависимости определяется поставленной задачей и является прерогативой исследователя.

Методы исследования зависимостей функций вида

которые описывают поведение условных средних результирующего показателя Математическая статистика (вычисленного при зафиксированном уровне ) в зависимости от изменения X и называются функциями регрессии (см. главу 4.4).

Можно рассматривать качественные и количественные факторы. Если свойство объекта рассмотрения не выражается числовым показателем, то это качественный показатель. Например: квалификация наблюдателя, социальное положение опрашиваемого, материал, из которого изготовлено изделие — качественные факторы, но температура воздуха, скорость автомобиля, этажность зданий — количественные факторы.

Некоторые факторы в зависимости от точки зрения исследователя можно рассматривать и как качественные, и как количественные. Примером может явиться возраст людей. Если результат наблюдения рассматривается как функция от возраста людей, то возраст выступает как количественный фактор. Однако результаты наблюдения можно рассматривать для различных возрастных групп населения (дети, молодежь, пенсионеры и т.д.). Здесь возраст — качественный фактор.

Анализ статистических зависимостей проводится в рамках тех или иных теорий. Так, если все факторы относятся к качественному виду, то анализ зависимостей проводится в рамках дисперсионного и факторного анализа. Когда все факторы количественные, то приложимы методы регрессионного анализа. В рамках корреляционного анализ’а возможно исследование наборов факторов, относящихся к различным типам.

Сформулируем следующую задачу. По результатам опытов получена определенная информация. Исходя из сути рассмат-

риваемых процессов, выбрана схема зависимости. Необходимо проанализировать полученные данные и получить характеристики причинно-следственной связи. Такой анализ сводится, как минимум, к поиску ответов на следующие вопросы:

1.Действительно ли у зависит от факторов Математическая статистика

2.Если у зависит от Математическая статистика , то какова степень этой зависимости?

3.Каков вид имеет причинно-следственная зависимость между у и X, в частности, каков между ними вид аппроксимационной зависимости f?

Рассмотрим кратко наиболее простые и распространенные методы анализа статистической зависимости. .

Дисперсионный анализ

Установление зависимости у от качественного фактора х. Будем считать, что результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить наличие (или отсутствие) влияния х на у.

Предположим, что фактор х может принимать ряд значений, называемых уровнями Математическая статистика При каждом заданном уровне i проводится группа из опытов и в каждом j-м опыте измеряется значение величины у, обозначаемое Общее количество опытов N. Результаты этих опытов сведены в таблицу следующего вида

Из анализа данных обычно следует, что при одном и том же значении фактора имеются различные значения результата Математическая статистика Поскольку значения величин в одной и той же строке получены при одних и тех же уровнях фактора х, то различие

между Математическая статистика в одной строке обусловлено чисто случайными обстоятельствами. Но различия в значениях результатов, стоящих в различных строках могут быть обусловлены или той же причиной (тогда у их независимы), или они связаны также и с изменением значения фактора, т.е. имеется зависимость у от х. Предположение о независимости значений результатов от значений уровней фактора называется нулевой гипотезой Математическая статистика Если оказывается, что эта гипотеза не противоречит результатам проведенных опытов, то есть основания считать, что у не зависит от х.

Задача о проверке гипотезы Математическая статистика может быть решена в рамках так называемого дисперсионного анализа. Сущность дисперсионного анализа состоит в разложении по специальным правилам дисперсии результата наблюдения на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора на результат опыта. Рассмотрим модель однофакторного дисперсионного анализа. Отклонение случайной величины Математическая статистика от своего математического ожидания может быть

представлено следующим образом:

где Математическая статистика — отклонение, вызываемое фактором х; — отклонение, вызываемое другими неучтенными факторами.

В однофакторном дисперсионном анализе приняты следующие допущения: ошибка Математическая статистика распределена по нормальному закону с и для различных уровней факторов она имеет одинаковую дисперсию. Сравнение дисперсий, характеризующих вклад в рассеивание получаемых результатов, позволяет судить о зависимости или независимости у и х. Введем следующие виды дисперсий. Общая дисперсия Математическая статистика характеризует рассеивание результатов наблюдений относительно общего математического ожидания

Ее оценка имеет следующий вид:

где Математическая статистика — количество данных в i-той строке. Если все равны, т.е. для любого i, то

Групповая дисперсия Математическая статистика характеризует рассеивание результатов наблюдений относительно группового математического ожидания (оценка группового математического ожидания есть среднее по результатам серии опытов для фиксированного уровня i):

Оценка этой дисперсии вычисляется по формуле:

Межгрупповая дисперсия Математическая статистика характеризует рассеивание, обусловленное исключительно фактором и может быть оценена по формуле:

где Математическая статистика количество факторов

Если Математическая статистика для всех j,

Внутригрупповая дисперсия Математическая статистика характеризует различия в результатах наблюдения, обусловленных влиянием неучтенных факторов, определяется как средневзвешенная по объемам групп

и, если Математическая статистика для всех j, а для всех i, то может быть оценена по формуле:

Из сравнения введенных оценок дисперсии следует

Рассмотрим методику проверки существенности влияния фактора х на результаты наблюдения.

1.Выдвигается гипотеза о несущественности фактора х (гипотеза Математическая статистика ). Содержательно понятно, если эта гипотеза верна, то математические ожидания в различных группах (при различных значениях фактора, т.е. средние по строкам) должны совпадать

При этом условии оценка межгрупповой дисперсии должна быть значительно меньше, чем оценка внутригрупповой дисперсии. В этой связи величина

может выступать в качестве меры непротиворечивости выдвинутой гипотезы, характеристикой справедливости гипотезы Математическая статистика .

2.По формуле (4.42), исходя из полученных результатов опытов, вычисляется экспериментальное значение величины u.

Показано, что такая величина и распределена по закону распределения Фишера со степенями свободы Математическая статистика и Распределение Фишера табулировано и его таблицы приведены во многих учебниках. Заметим, что таблицы этого распределения составлены при условии, что числитель в отношениях типа (4.42) больше знаменателя. Если это не так, то за экспериментальное значение показателя рассогласованности выбирается обратная величина Математическая статистика

3.По таблицам распределения Фишера находится теоретическая величина показателя u Математическая статистика с выбранным уровнем значимости (обычно 0,1, 0,05 или 0,01) и указанными степенями свободы.

4.Гипотеза не противоречит экспериментальным данным, если выполняется условие

Выполнение этого неравенства свидетельствует о том, что влияние фактора несущественно и все наблюдаемые различия обусловлены не изменением значения фактора х, а какими то другими обстоятельствами. Следовательно, можно сказать, что гипотеза Математическая статистика не противоречит опытным данным. Невыполнение же условия (4.43) означает, что у скорее всего зависит от х и возможна постановка вопроса о нахождении уровня фактора, в наибольшей мере влияющего на рассматриваемый результат, что требует более подробного анализа.

Анализ существенности влияния (тесноты связи) количественных факторов на результаты наблюдений

Рассмотрим наиболее простой случай: результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить степень тесноты связи х и у. Решение этой задачи осуществляется в рамках корреляционного анализа (см. главу 4.4).

Пусть проведена первичная обработка результатов опытов и получены оценки необходимых математических ожиданий и дисперсий. Существенность влияний х на y может быть определена, если будет указано, какая доля степени изменчивости

интересующего нас результата обусловлена изменчивостью описывающей его функции f от контролируемого нами аргумента х. Количественной мерой этой доли может выступать отношение оценки межгрупповой дисперсии к оценке общей дисперсии

Величина Математическая статистика называется корреляционным отношением зависимой переменной у от независимой переменной х и является универсальной характеристикой тесноты их связи. Из (4.45) следует, что Математическая статистика Если то налицо однозначная функциональная (жесткая) связь между х и у, т.е. корреляционная зависимость отсутствует. Наоборот, при приходится констатировать, что усредненные по группе значения результирующего признака (оценки групповых математических ожиданий) не зависят от х и наблюдаемая зависимость — следствие других неконтролируемых факторов. Промежуточные значения Математическая статистика и есть количественная мера тесноты исследуемой связи.

В частном случае, когда связь между у и х является линейной, для оценивания степени зависимости используется оценка коэффициента корреляции Математическая статистика , которая находится следующим образом. Пусть в результате n опытов получены следующие значения, представленные таблицей

Оценка коэффициента корреляции определяется с помощью соотношения

Оценка Математическая статистика определена на основе выборки результатов наблюдения, поэтому является величиной случайной. Следовательно, неравенство полученной оценки нулю Математическая статистика еще не означает, что между х и у есть линейная зависимость, т.к. это может быть следствием чисто случайных обстоятельств, вызванных недостаточно большим числом опытов. В этой связи необходима проверка значимости оценки.

Решение этой задачи проводится по следующей методике.

1.Вычисляется мера согласованности гипотезы об отсутствии линейной зависимости у от х с наблюденными значениями

2.По таблицам распределения Стьюдента с Математическая статистика степенями свободы (такое распределение имеет величина u) при выбранном уровне значимости находится теоретически «допустимая» с уровнем а мера согласованности u Математическая статистика . (Таблицы распределения Стьюдента имеются практически в любом учебнике по математической статистике.)

3.Если окажется, что Математическая статистика то гипотеза об отсутствии линейной связи между у и х не противоречит опытным данным и на практике обычно принимается. В противном случае полученную оценку Математическая статистика можно считать значимой, и между х и у скорее всего существует линейная связь.

Определение причинно-следственной зависимости между результатом и влияющими на него факторами

Пусть рассматривается некоторая случайная результирующая переменная Математическая статистика (случайные реализации у), зависящая от неслучайных факторов Значения величины случайным образом распределяются около неизвестного уровня Математическая статистика . При этом отклонения значений от представляют собой значения некоторой случайной ошибки т.е.

Случайный характер величины Математическая статистика требует выбора подходящей характеристики. Такой характеристикой обычно выступает ее условное среднее, которое ввиду того, что имеет вид

Зависимость (4.47) называется регрессионной, что определило название методов определения причинно-следственных зависимостей: регрессионный анализ.

Для установления причинно-следственной связи f необходимо:

1.Выбрать класс функций, в рамках которого целесообразно искать общий вид функции

2.Подобрать подходящие параметры Математическая статистика определяющие конкретный вид функции f.

Первая из этих задач не решается формальными методами. Обычно класс функций определяется на основе знаний о предметной области и в каждом конкретном случае вид функции f конструируется индивидуально. Следует подчеркнуть, что неверный выбор класса функций приводит обычно к ошибкам, которые невозможно устранить подбором коэффициентов в (4.48).

В рамках регрессионного анализа для подбора неизвестных параметров обычно используется метод наименьших квадратов (МНК). Суть этого метода заключается в подборе параметров функции (4.48), обеспечивающих минимум суммы квадратов отклонений наблюденных значений Математическая статистика т.е. решении задачи:

Выбор в (4.49) функционала именно такого вида в большинстве случаев практики имеет серьезное теоретико-вероятностное обоснование (реализуется принцип максимального правдоподобия), чем и обусловлена распространенность МНК. Покажем схему реализации МНК на примере функции одной пере-

менной Математическая статистика Пусть имеется таблица опытных данных и выбран вид функции Задача состоит в выборе параметров так, чтобы выполнить условие типа (4.49). С точки зрения математики это стандартная задача на безусловный экстремум (см. следующий раздел). Функция, стоящая в левой части (4.49), может иметь минимум лишь в точках, в которых выполняются условия равенства нулю всех ее производных от варьируемых переменных (в данном случае Математическая статистика ):

Система уравнений (4.50) состоит из k уравнений. Решив эту систему относительно неизвестных Математическая статистика , в соответствии с (4.48) определим искомую функцию связи f.

Пример:

Результирующая величина у измерена при помощи четырех разнотипных приборов, причем каждым прибором было осуществлено по пять измерений. Результаты измерений сведены в таблицу

Требуется определить, существенно ли зависят измерения от типа прибора, если приборы имеют одинаковую погрешность измерения.

Решение:

Тип прибора относится к качественным факторам, поэтому решение этой задачи целесообразно вести в рамках дисперсионного анализа с числом уровней 4.

Для решения задачи дисперсионного анализа необходимо по данным таблицы определить оценки межгрупповой и внутригрупповой дисперсией. В соответствии с формулами (4.40а) и (4.41а)

Показатель согласованности, согласно (4.42), следующий

Поскольку Математическая статистика то перейдем к обратному показателю согласованности Число степеней свободы: Принимая уровень значимости по таблицам распределения Фишера, находим теоретический уровень рассогласованности Математическая статистика

Поскольку Математическая статистика то гипотеза о несущественности типа прибора может быть принята.

Пример:

Произведенные 20 измерений системы двух случайных величин х и у сведены в таблицу

Требуется определить тесноту связи между x и у.

Решение:

Вначале определим корреляционное отношение между измеряемыми величинами. Используя формулу (4.45), найдем

Следовательно, между х и у существует достаточно сильная статистическая связь.

Рассмотрим вопрос о степени линейной зависимости между х и y. Для этого вычислим величину u, связанную с оценкой коэффициента корреляции и распределенную по закону Стьюдента:

Для доверительной вероятности 0,95 и 18 степеней свободы по таблице распределения Стьюдента находим Математическая статистика Поскольку

мы не можем принять гипотезу о линейной связи х с у. Однако близость значений показателей согласованности позволяет в итоге сделать следующий вывод: между х и у, скорее всего, стохастическая нелинейная связь.

Пример:

Проведены измерения величины растворяемой в данном объеме воды некоторой соли при различных температурах.

Определить зависимость объема растворяемой соли как функцию температуры.

Решение:

Если нанести полученные значения на плоскость, то можно увидеть, что искомую зависимость можно считать линейной, т.е. Математическая статистика Найдем неизвестные параметры а и b методом наименьших квадратов.

Система уравнений в данном случае имеет вид

Решение этой системы дает такие результаты:

Следовательно, искомая зависимость имеет следующий вид

Математическая статистика и ее формулы и теоремы

Статистика как раздел науки об управлении государством, сборе,
классификации и обсуждении сведений о состоянии общества и
государства зародилась в XVII в. Однако статистический учет
существовал еще в глубокой древности. Так, за аять тысяч лет до нашей эры проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме и т.д.

В современном понимании статистика — это регистрация, описание и
анализ экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений.

В настоящее время статистические методы используются не
только для описания состояния общества и государства, но также в
технике, физике и т.д.

Наука, занимающаяся общими вопросами, связанными с собиранием и классификацией числовых данных и сведений, называется
математической статистикой.

Важнейшей задачей статистики является определение закона
распределения случайной величины (системы случайных величин)
по статистическим данным. Закономерности, наблюдаемые в
массовых случайных явлениях, проявляются тем точнее, чем больше
объем статистической информации. На практике, как правило, мы
имеем ограниченное количество экспериментальных данных,
поэтому при определении закона распределения возникает
необходимость расчета уровня доверия к нему. Отсюда следует задача проверки правдоподобия гипотез, предполагающая выявление в статистических закономерностях элементов случайности. В частности, может быть проверена гипотеза о том, что данная случайная величина подчиняется заданному закону распределения.

При обработке статистических данных часто возникает задача
определения параметров закона распределения, а не самого закона.

Генеральная совокупность и выборка

Генеральной совокупностью называются все возможные наблюдения интересующего нас показателя, все исходы испытания или вся совокупность реализаций случайной величины X .

В генеральной совокупности обычно интересуются признаком,
имеющем качественный или количественный характер. Примером
генеральной совокупности может быть все население страны. Такая
совокупность иногда изучается путем переписи населения. В этой
совокупности нас могут интересовать, например, доходы жителей —
количественный признак совокупности. Другим примером
генеральной совокупности являются все изготовленные на данном
станке детали. Эти детали могут быть бракованными и годными.
Данный признак деталей является качественным.

Выборкой называется выбор части объектов из генеральной совокупности, причем выбор отдельных объектов происходит независимо один от другого.

Примером выборки объема и может являться независимый
выбор из всех изготовленных на данном станке деталей в количестве
n штук. Результатом выборки объема n является совокупность Математическая статистика значений признака.

Обычно под целью математической статистики понимают
определение закона распределения или его характеристик по выборке.

Гистограмма. Статистическая функция распределения

Предположим, что изучается некоторая величина X. Пусть закон
распределения X нам неизвестен. Требуется определить данный
закон опытным путем. С этой целью над случайной величиной X
производится ряд независимых наблюдений. В результате получим
выборку Математическая статистика из генеральной совокупности с признаком X.

При большом числе наблюдений простая выборка становится
слишком громоздкой и неудобной для анализа. Для придания ей
большей наглядности строится статистический ряд. Для этого
разделим весь диапазон полученных в результате опыта значений на интервалы и подсчитаем количество значений Математическая статистика приходящихся на каждый j-й. интервал. Найдем частоту попадания случайной величины в j-й интервал по формуле

Математическая статистика

Эта величина называется также статистикой. Вообще говоря,
статистика — это любое число, вычисленное по выборке.

Занесем полученные данные в табл. 12.1, в которой интервалы
расположены в порядке их возрастания вдоль оси абсцисс.

Таблица 12.1

Математическая статистика

Здесь Математическая статистика — интервал вдоль оси абсцисс под номером j; k —
число интервалов; — границы интервалов под номерами j
и j +1; k +1 — число границ.

Статистический ряд, представленный в табл. 12.1, называется
интервальным. Если частота задана для дискретной случайной
величины, то ряд называется дискретным.

Очевидно, что

Математическая статистика

Пример:

Произведено 500 измерений диаметра детали,
изготовленной на данном станке. После предварительной обработки этой выборки отклонения диаметра от номинала (в микрометрах) сведены в табл. 12.2 (две первые строки). Определить частоты попадания ошибки в заданные интервалы.

Решение:

Результаты расчета по формуле (12.1) представлены в
последней строке табл. 12.2. ►

Таблица 12.2

Математическая статистика

Если экспериментальные значения случайной величины X
находятся в точности на границе двух интервалов, то чисто условно
можно рекомендовать одну половину этих значений прибавить к
предыдущему интервалу, а другую — к последующему. Можно
также граничные значения целиком отнести как к предыдущему, так и к последующему интервалу.

Статистический ряд можно представить в виде графика,
называемого гистограммой. При этом по оси абсцисс откладываются
интервалы и на каждом из них строится прямоугольник, площадь
которого равна частоте данного интервала. При увеличении числа
опытов можно выбирать все более и более мелкие интервалы. При
этом гистограмма приближается к некоторой кривой, являющейся
плотностью распределения величины X.

Пример:

Построить гистограмму для данных примера 12.1.

Решение:

Гистограмма представлена на рис. 12.1. ►

Математическая статистика

По статистическому ряду можно приближенно построить
статистическую (выборочную) функцию распределения случайной
величины X. Соотношения для расчета выборочной функции
распределения по статистическому ряду удобно представить в виде:

Математическая статистика

Пример:

Для условий примера 12.1 построить таблицу и
график статистической функции распределения.

Решение:

Статистическая функция распределения,
рассчитанная по формулам (12.2), представлена в табл. 12.3. График данной функции показан на рис. 12.2. ►

Таблица 12.3

Математическая статистика

При увеличении числа опытов и уменьшении интервала
статистическая функция распределения приближается к функции
распределения генеральной совокупности.

Числовые характеристики выборочного распределения

Каждой числовой характеристике случайной величины X
соответствует ее выборочная аналогия. Для математического ожидания случайной величины X в качестве аналогии используют среднее арифметическое полученных в результате опыта значений, вычисляемое по формуле

Математическая статистика

где Математическая статистика — значение случайной величины, зарегистрированное в i-м
опыте; n — число опытов.

При неограниченном увеличении числа опытов среднее
арифметическое сходится к математическому ожиданию.

Значение Математическая статистика от выборки к выборке будет изменяться. Поэтому
также является случайной величиной. Ее математическое
ожидание равно математическому ожиданию случайной величины X:

Математическая статистика

Оценка любой характеристики случайной величины X, проведенная по выборке, называется несмещенной, если ее математическое ожидание равно оцениваемому параметру.

Из определения несмещенной оценки и соотношения (12.4)
следует, что выборочное среднее является несмещенной оценкой
для генерального среднего Математическая статистика Если существует, то имеет асимптотически нормальное распределение с дисперсией
при

Выборочные дисперсии рассчитываются по одной из следующих
формул:

Математическая статистика

Величину s называют выборочным стандартным отклонением. Величины Математическая статистика и являются случайными и имеют математические ожидания

Математическая статистика

Поскольку Математическая статистика есть несмещенная оценка для генеральной дисперсии то она применяется чаще, чем .

Если выборка задана в виде статистического ряда, то формулы (12.3), (12.5), (12.6) удобно представить в виде:

Математическая статистика

где Математическая статистика среднее значение случайной величины X в j-м интервале; — частота попадания случайной величины в j-й интервал; k — число интервалов.

Для дискретного статистического ряда значения Математическая статистика и k относятся к соответствующему значению случайной величины, полученному в результате опыта.

Иногда используются и другие моменты выборки.

Пример:

Для условий примера 12.1 определить выборочные среднюю и дисперсию.

Решение:

В табл. 12.2 для частот попадания ошибки в заданные интервалы вместо интервалов Математическая статистика введем среднее значение случайной величины X j-м интервале. Результаты представим в табл. 12.4.

Таблица 12.4

Математическая статистика

Для расчета выборочных среднего и дисперсии используем формулы (12.3′) и (12.6′):

Математическая статистика

Основные статистические распределения

Статистические распределения, с одной стороны, играют роль
эталона при определении закона распределения случайной
величины, а с другой, используются для оценки правдоподобия
выдвигаемых гипотез. Среди известных распределений в статистике
используются закон равномерной плотности, закон Пуассона, нормальный закон распределения. Большое значение в статистике играют также Математическая статистика распределение и t-распределение Стьюдента.

Математическая статистика распределение. Пусть — выборка из генеральной
совокупности случайной величины X. Рассмотрим статистику

Математическая статистика

где Математическая статистика — дисперсия случайной величины X; а — ее математическое
ожидание.

Распределение Математическая статистика случайной величины называется -распределением с v = n степенями свободы.

Плотность распределения случайной величины X при х>0
определяется соотношением

Математическая статистика

Это распределение достигает максимума при Математическая статистика имеет
математическое ожидание и дисперсию

Графики Математическая статистика распределения представлены на рис. 12.3.

Математическая статистика

t-распределение Стьюдента. Пусть X — случайная нормально распределенная величина с параметрами а и Математическая статистика Имеем выборку наблюдений данной случайной величины. В качестве оценок математического ожидания а и дисперсии принимаем

Математическая статистика

Величина

Математическая статистика

называется отношением Стьюдента.

Выборочное распределение данной величины называется t-распределением Стьюдента с v = n-1 степенями свободы.

Функция плотности распределения отношения Стьюдента определяется соотношением

Математическая статистика

Математическое ожидание t-распределения Математическая статистика а дисперсия при v > 2 . Функция плотности распределения отношения Стьюдента симметрична относительно оси ординат. Она качественно напоминает функцию плотности нормального распределения (рис. 12.4), но отличается более «массивными» хвостами. Этот эффект сильнее выражен для меньших значений v, а для значений v, превышающих 40, данное распределение близко к нормальному.

Математическая статистика

Доверительные интервалы и доверительные пределы

Доверительным интервалом параметра Математическая статистика распределения случайной величины X с уровнем доверия р , порожденным выборкой называется интервал с границами и которые являются реализациями случайных величин Математическая статистика и таких, что Граничные точки доверительного интервала называются доверительными пределами.

Доверительный интервал для математического ожидания нормального распределения

Вначале рассмотрим доверительный интервал для математического ожидания нормального распределения при известном значении дисперсии.

Пусть Математическая статистика — реализация случайной величины X, распределенной нормально и имеющей параметры а и Дисперсия известна. По выборке нужно определить математическое ожидание а. В качестве математического ожидания обычно принимают среднее арифметическое Математическая статистика

Среднее арифметическое Математическая статистика , являющееся реализацией случайной
величины X, также является случайной величиной,
распределенной по нормальному закону с параметрами а и Математическая статистика

Математическая статистика

Отсюда можно построить доверительный интервал для заданного
уровня доверительной вероятности F, в котором находится
математическое ожидание а . Данный интервал определяется выражением

Математическая статистика

где t — коэффициент доверия, от которого зависит доверительная вероятность F.

Некоторые значения доверительной вероятности для нормального закона распределения, соответствующие тому или иному уровню доверия, приведены в табл. 12.5.

Таблица 12.5

Математическая статистика

Пример:

Для изучения размера крестьянских хозяйств проведена выборка, в результате которой получены следующие данные: обследовано 100 участков, Математическая статистика =10 га. Определить доверительный интервал, в котором с вероятностью 0,9545 находится среднее значение земельных участков при дисперсии = 16 .

Решение:

Для требуемой доверительной вероятности из таблиц находим t = 2. Тогда Математическая статистика Отсюда доверительный интервал, в котором с заданной вероятностью находится среднее значение земельных участков:

Математическая статистика

Если дисперсия неизвестна и выборка невелика (n < 40), то доверительный интервал вычисляют с помощью t-распределения Стьюдента по формуле

Математическая статистика

где Математическая статистика — коэффициент доверия, от которого зависит доверительная
вероятность. При расчете используются таблицы. Необходимо помнить, что в различных источниках таблицы представлены в разной форме.

Интеграл вероятности для t-распределения Стьюдента имеет вид

Математическая статистика

где Математическая статистика — функция плотности распределения вероятности Стьюдента с v степенями свободы. Графически значение интеграла вероятности представлено на рис. 12.5.

Математическая статистика

В рассматриваемом случае табулируются значения Математическая статистика для
различных значений и v. Графически доверительный интервал
можно представить так, как показано на рис. 12.6.

Математическая статистика

Заштрихованная на рис. 12.6 площадь является доверительной
вероятностью F.

Таким образом, расчет производится по следующему алгоритму:

1.Находят Математическая статистика и S по формулам

Математическая статистика

2.Задаются доверительной вероятностью F.

3.Рассчитывают Математическая статистика по формуле

Математическая статистика

4.При известном количестве степеней свободы v = n -1 по
таблицам находят Математическая статистика .

5.Определяют доверительные пределы по формуле

Математическая статистика

Иногда таблицы t-распределения Стьюдента представлены в
виде критических точек. В этих таблицах для различных значений
уровня значимости

Математическая статистика

и разных значений степеней свободы v = n -1 приведены данные
для Математическая статистика . В этом случае расчет проводится по следующей методике:

1.Находят Математическая статистика и S.

2.Задаются уровнем значимости Математическая статистика .

3.Рассчитывают F по формуле

F = — Математическая статистика .

4.По заданному уровню значимости а и известному
количеству степеней свободы v = n -1 по таблицам находят Математическая статистика .

5.Определяют доверительные пределы по формуле (12.11).

Пример:

Для условий примеров 12.1 и 12.4 определить
доверительный интервал математического ожидания для доверительных вероятностей Математическая статистика и

Решение:

В примере 12.4 были определены Математическая статистика = 0,168 и S = 1,448 .
Уровни значимости для поставленных условий:

Математическая статистика

Значения коэффициентов доверия находим из таблиц (см., например, [9], с. 626):

Математическая статистика и

По полученным данным определяем доверительные пределы и
интервалы:

1.При Математическая статистика

Математическая статистика

2. Математическая статистика

Доверительный интервал для дисперсии нормального распределения

Пусть Математическая статистика — выборка из нормальной генеральной
совокупности с математическим ожиданием а и дисперсией . Тогда при статистика является случайной величиной, распределенной по закону Математическая статистика с v = n -1 степенями свободы. Доверительная вероятность этого распределения определяется соотношением (рис. 11.7)

Математическая статистика

На рис. 12.7 доверительная вероятность равна заштрихованной
площади. Значения b и с определяются по таблицам из условия
симметричного вероятностного интервала:

Математическая статистика

Тогда с вероятностью F имеем

Математическая статистика

Это равносильно неравенствам

Математическая статистика

Для среднего квадратического отклонения

Математическая статистика

Расчет производится по следующему алгоритму:

1.Находят Математическая статистика и S по формулам

Математическая статистика

2.Задаются доверительной вероятностью F.

3.По таблицам при известных

Математическая статистика

находят b и с.

4.Определяют доверительный интервал для дисперсии и
среднего квадратического отклонения по формулам (12.12) и (12.13).

Пример:

Произведено 101 измерение диаметра детали,
изготовленной на данном станке. После обработки установлено, что среднее арифметическое этой выборки Математическая статистика =0,168, а выборочное квадратическое отклонение = 1,448. Определить доверительный интервал среднего квадратичного отклонения для доверительной вероятности F = 0,99 .

Решение:

Количество степеней свободы для рассматриваемого
случая v = n -1 = 100. Находим по формулам

Математическая статистика

Используя таблицу распределения Математическая статистика (см., например, [11, с. 440])
находим для v = 100 величины с = 140,169 и b = 67,3276.

Подставляя полученные значения в (12.13), найдем доверительный
интервал среднего квадратического отклонения:

Математическая статистика

Определение закона распределения случайной величины

Обычно закон распределения случайной величины неизвестен и имеется ограниченное число наблюдений (выборка). При его определении задаются некоторым известным законом распределения и затем проверяют эту гипотезу на значимость.

Простейшим методом проверки гипотезы о законе распределения является визуальный. Он заключается в построении гистограммы по выборке и анализу ее внешнего вида, однако данный метод неточен. Наиболее полная и точная проверка соответствия выбранного распределения реальному производится с помощью критерия Карла Пирсона.

Статистика Карла Пирсона имеет вид

Математическая статистика

где n — количество полученных в результате наблюдения значений
случайной величины X (объем выборки);

k — число интервалов;

Математическая статистика — теоретическая вероятность попадания случайной величины в
j-й интервал;

Математическая статистика — ожидаемое (теоретическое) количество попаданий случайной
величины в j-й интервал;

Математическая статистика — количество попаданий случайной величины в j-й интервал в
результате опыта.

Теоретическая вероятность попаданий случайной величины в
j -й интервал Математическая статистика для исследуемой плотности распределения f(x)
рассчитывается по формуле

Математическая статистика

Разделив числитель и знаменатель статистики Карла Пирсона
(12.14) на n и учитывая (12.1), получим

Математическая статистика

Рассчитывать значение Математическая статистика можно как по формуле (12.14), так и по формуле (12.15).

Выборочное распределение Математическая статистика является (приблизительно) -распределением с числом степеней свободы

v = k-b-1,

где k — число интервалов;

b — число параметров вероятностной модели, которые должны быть оценены по тем же данным.

Отклонение от проверяемой модели всегда будет приводить к увеличению значения Математическая статистика

Значимость выбранного закона распределения определяется сравнением рассчитанного и табличного (теоретического) значений Математическая статистика с v степенями свободы. Уровень значимости а определяется выражением

Математическая статистика

Геометрический смысл теоретического значения Математическая статистика поясняется на рис. 12.8, на котором по оси абсцисс отложены значения . Индекс v свидетельствует о том, что на рис. 12.8 приведен график плотности распределения для функции с v степенями свободы. Отмеченная на оси абсцисс точка Математическая статистика означает, что площадь под кривой плотности распределения на интервале

Математическая статистика

равна уровню значимости Математическая статистика

Математическая статистика

Таким образом, если Математическая статистика при том же числе степеней
свободы и заданном уровне значимости , то вероятность
соответствия закона распределения исследуемой случайной величины выбранному закону распределения будет больше или равно Математическая статистика .

Если ожидаемые частоты слишком малы для использования
Математическая статистика -распределения, то их надо объединить в один более крупный
интервал. Значений частот не должно быть меньше 5—10. При
объединении необходимо учитывать и то, что число интервалов не должно быть слишком малым.

Пример:

Для условий примеров 12.1 и 12.4 определить
значимость соответствия закона распределения исследуемой случайной величины нормальному.

Решение:

Используя результаты решения примера 12.4,
запишем функцию плотности распределения исследуемой случайной
величины в виде

Математическая статистика

Результаты обработки выборки табл. 12.2 (пример 12.1) представлены в первых трех строках табл. 12.6 Здесь же представлены результаты
остальных расчетов.

Таблица 12.6

Математическая статистика

Теоретические значения вероятности попадания случайной
величины в j-й интервал для заданной плотности распределения
рассчитывается по формуле

Математическая статистика

Интеграл вероятности

Математическая статистика

находим по таблицам. Его значения записаны в третьей и четвертой строках табл. 12.6. Теоретические значения вероятности попадания случайной величины в j-й интервал представлены в пятой строке данной таблицы. Расчет статистики Карла Пирсона проведем по формуле (12.14), слагаемые которой представлены в последней строке:

Математическая статистика

Уровень значимости определяется по формуле

Математическая статистика

при количестве степеней свободы v = k —b —1 = 8 — 2 —1 = 5. Уровни
значимости в зависимости от заданного значения Математическая статистика находим по таблицам (см., например, [9], с. 74). Имеем = 3 при = 0,7,
=4,35 при = 0,5.

Принимаем зависимость Математическая статистика от на интервале от 0,5 до 0,7
линейной (рис. 12.9).

Математическая статистика

Из подобия прямоугольных треугольников находим:

Математическая статистика

Отсюда определяем уровень значимости:

Математическая статистика

Таким образом, гипотеза о том, что случайная величина
распределена по нормальному закону с вероятностью 0,61 принимается. ►

Исследование случайных зависимостей

Любой закон природы или общественное явление могут быть
выражены в виде описания взаимосвязей, существующих между
показателями данного закона или явления. Статистика изучает
связи между показателями, часть из которых являются случайными.

Функционирование изучаемого объекта можно описать набором
переменных. Эти переменные подразделяют на:

■ независимые (экзогенные, предикаторные, объясняющие),
которые не обязательно являются случайными величинами;

■ зависимые (эндогенные, результирующие, объясняемые), которые обязательно являются случайными величинами.

Задача измерения связи между переменными решается на
эмпирическом материале, представляющем собой выборку объема n из (k+ 1)-мерной совокупности наблюдений или матрицы размером
(k + 1)хn (табл. 12.7).

Таблица 12.7

Математическая статистика

Если количество независимых переменных больше двух, то
исследуемая модель называется многофакторной. В табл. 12.7
представлена k-факторная модель.

Корреляционно-регрессионный анализ

В обычном смысле термин «регрессия» понимается как
«обратное движение, возврат к исходной точке или месту». Этот термин был введен в статистику в XIX в. в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека. При этом
обнаружили, что сыновья высоких отцов хотя и имеют больший рост по сравнению с сыновьями низких отцов, но разброс в росте сыновей
был меньше, чем разброс в росте отцов. Таким образом, была
замечена тенденция возврата сыновей к среднему росту, т.е. регресс.

Большинство исследуемых явлений зависит от действия
множества факторов. Обычно отбирают те факторы, которые наиболее существенно влияют на явление. В перечне отобранных факторов не исключено наличие таких, которые слабо влияют на изучаемый показатель. Их отсев осуществляется в ходе построения
многофакторной модели путем многошагового регрессионного анализа. Вначале строят уравнение регрессии по максимально возможному количеству факторов. Затем с помощью определенных критериев (например t-критерия Стьюдента) исключают те факторы, которые оказывают статистически несущественное влияние. Такой отсев по одному фактору на каждом шаге проводится до тех пор, пока в уравнении регрессии с точки зрения выбранного критерия не
останется незначимых факторов.

Важнейшим этапом построения многофакторной регрессионной
модели является выбор формы связи (функции регрессии). Форму
связи можно определить путем перебора функций разных типов,
что сопряжено со значительным количеством лишних расчетов.
Обычно для этих целей используются наиболее известные функции.
Широкое применение получила линейная функция. Это связано,
во-первых, с ее простотой. Во-вторых, путем замены переменных
или логарифмирования многие используемые для этих целей
функции можно свести к линейным.

Если форма связи случайной величины у (см. табл. 12.7)
является линейной, то функция регрессии имеет вид

Математическая статистика

После выбора формы связи определяют коэффициенты
функции регрессии так, чтобы она (с точки зрения заданного критерия) лежала ближе всех других к исследуемым точкам.

Функция регрессии Математическая статистика зависимой случайной величины у и
случайная переменная этой величины будут связаны
соотношением

Математическая статистика

Случайная переменная Математическая статистика называется возмущением. Ее значение
изменяется для каждого наблюдения

Для однофакторной модели линейная функция регрессии
приобретает вид

Математическая статистика

Проверка предпосылок регрессионного анализа

В регрессионном анализе делаются следующие основные
предположения:

1.Возмущающая переменная Математическая статистика является случайной величиной.
В силу этого также является случайной величиной с
распределением того же вида, что и .

2.Случайная величина Математическая статистика имеет математическое ожидание,
равное нулю. Значения случайных переменных
независимы между собой.

3.Случайная величина Математическая статистика имеет нормальное распределение с
постоянной дисперсией , не зависящей от

При нарушении нормальности возмущения при оценке по
методу наименьших квадратов остатки остаются наилучшими и
сохраняют свойство несмещенности и состоятельности, но становятся неустойчивыми (малоэффективными). Существуют методы получения устойчивых (робастных) оценок.

Постоянство дисперсии Математическая статистика называется гомоскедастичностью (или
условием однородности).

Если это условие не выполняется, то эти наблюдения
неоднородны (гетероскедастичны). Это может возникнуть, например, при исключении из модели переменной, коррелированной с любой из оставшихся переменных, влияние которой приписывается
случайному возмущению Математическая статистика . В этом случае можно исключить эффекты гетероскедастичности простой заменой переменных.

4.Наблюдения Математическая статистика должны быть независимыми при изменении
j от 1 до к .

5.На значения параметров Математическая статистика не накладывается никаких
ограничений, т.е. предварительно об их значениях ничего не известно.

6.Матрица значений независимых переменных Математическая статистика не содержит
линейно связанных столбцов.

7.Число наблюдений n должно превышать число параметров k.

Выполнение рассмотренных предпосылок обеспечивает
возможность проведения классического регрессионного анализа.
Однако часто эти предпосылки не полностью удовлетворяются. Для
устранения этого недостатка разработаны различные методы
обработки. Например, робастные (устойчивые) методы допускают
нарушение предпосылок, но требуют, чтобы эти нарушения
находились в определенных пределах.

Оценка качества регрессионной модели

Построенная регрессионная модель нуждается в проверке ее
соответствия реальным статистическим данным. В качестве
показателя степени согласованности расчетных значений Математическая статистика и фактических значений переменной у является коэффициент детерминации. При оценке качества функции регрессии проверяется также значимость коэффициентов уравнения, степень тесноты взаимосвязи исследуемых случайных величин, качество подбора формы кривой.

Для расчета коэффициента детерминации и проведения
дисперсионного анализа потребуются приведенные ниже статистики. Эти статистики могут быть использованы также при проведении многофакторного анализа.

1.Общая девиация, являющаяся суммой квадратов отклонений
признака от средней арифметической,

Математическая статистика

2.Общая выборочная дисперсия

Математическая статистика

3.Девиация регрессии, равная сумме квадратов отклонения
функции регрессии от средней арифметической,

Математическая статистика

4.Выборочная дисперсия функции регрессии

Математическая статистика

где m = k +1 — число коэффициентов в исследуемой функции
регрессии (см. табл. 12.7).

5.Остаточная девиация, равная сумме квадратов отклонений
зависимой переменной от функции регрессии,

Математическая статистика

6.Выборочная остаточная дисперсия

Математическая статистика

Сумма числа степеней свободы остаточной дисперсии и
дисперсии регрессии равна числу степеней свободы общей дисперсии:

(n-m) + (m-1) = n-1.

Справедливо также соотношение

Математическая статистика

Действительно, подставив сюда (12.24) и (12.23), получим
(12.20)

Математическая статистика

Чем больше второе слагаемое и меньше первое, тем меньше
разброс у относительно среднего, т.е. тем больше коэффициент
детерминации, вычисляемый по формуле

Математическая статистика

Так как Математическая статистика (см. (12.26)), то можно записать

Математическая статистика

Чем больше Математическая статистика тем лучше выбранная функция аппроксимирует фактические данные. При этом вид функции регрессии определен тем лучше, чем меньше величина Математическая статистика . Мерой неопределенности регрессии служит величина

Математическая статистика

Отсюда следует, что

Математическая статистика

Корень квадратный из коэффициента детерминации называется выборочным коэффициентом корреляции Математическая статистика .

Величина коэффициента корреляции используется как характеристика качества полученной модели любой формы связи (не обязательно линейной).

Значимость рассчитанного коэффициента корреляции Математическая статистика проверяется при помощи F-критерия Фишера. Рассчитывают

Математическая статистика

Значения Математическая статистика и при этом определяются по формулам (12.23) и (12.25). Если то коэффициент корреляции признается значимым с доверительной вероятностью F = 1 — Математическая статистика , где — уровень значимости.

Качество подбора функции регрессии можно оценить путем сравнения остаточной Математическая статистика и общей дисперсий. Если то говорят, что модель некорректна, или страдает неадекватностью. Если то регрессионная модель адекватна фактическим данным.

Значимость коэффициентов регрессии Математическая статистика модели может быть проверена по t-критерию Стьюдента:

Математическая статистика

где

Математическая статистика

a Математическая статистика — стандартное отклонение для коэффициента . Значение выбирается из таблицы t-критерия Стьюдента для доверительной вероятности F = 1 — и числа степеней свободы n — m. При выполнении неравенства (12.29) коэффициент считается значимым с вероятностью F. Здесь Математическая статистика — уровень значимости.

Доверительным интервалом коэффициента Математическая статистика называют интервал с границами

Математическая статистика

где Математическая статистика — коэффициент доверия распределения Стьюдента с v = n-m степенями свободы.

В указанном интервале с наперед заданной вероятностью F = 1 — Математическая статистика заключено истинное значение исследуемого коэффициента

Для линейной однофакторной модели

Математическая статистика

Остаточную дисперсию для линейной однофакторной модели находят из (12.24) при m = 2:

Математическая статистика

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Теснота взаимосвязи линейной однофакторной модели проверяется при помощи коэффициента корреляции

Математическая статистика

Используя обозначения

Математическая статистика

получим

Математическая статистика

Коэффициент корреляции лежит в пределах

Математическая статистика

При значении коэффициента корреляции, близком к 1 или — 1, связь сильная, при значении, близком к нулю, — слабая. Отрицательное значение коэффициента корреляции указывает на обратную связь, положительное — на прямую.

Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации Математическая статистика .

Факт совпадения Математическая статистика и говорит о наличии линейной
связи. При разности между и менее 0,1 гипотезу о линейной связи можно принять. Если данные величины не совпадают, то связь между ними не является линейной.

Чем больше Математическая статистика , тем лучше функция регрессии аппроксимирует
фактические данные.

Значимость коэффициента корреляции с доверительной
вероятностью Математическая статистика определяется с помощью t-критерия Стьюдента по формуле

Математическая статистика

где Математическая статистика Количество степеней свободы v = n — 2 .

Качество подбора формы кривой оценивается по критерию Дарбина—Уотсона. Для этого проводится анализ остатков (12.18)

Математическая статистика

Если модель функции регрессии адекватна форме подобранной
кривой, то соседние значения остатков независимы друг от друга. Эта
независимость проверяется с помощью критерия Дарбина—Уотсона

Математическая статистика

По таблице Дарбина—Уотсона для заданной доверительной
вероятности Математическая статистика определяют критические границы,
позволяющие вынести суждение о наличии автокорреляции (рис. 12.10). Задавшись уровнем значимости и зная количество комбинаций n, находят из таблицы значения Математическая статистика

Математическая статистика

При Математическая статистика и автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму выбранной кривой.

Однофакторный корреляционно-регрессионный анализ

Корреляционно-регрессионный анализ целесообразно начинать
с изучения однофакторной модели. Исходными данными для
построения модели является выборка n наблюдений зависимой переменной Математическая статистика и соответствующей ей независимой переменной , где i — номер наблюдения, изменяющийся от 1 до n. Полученную
выборку можно представить в виде

Математическая статистика

где Математическая статистика — детерминированная функция независимой переменной х
(функция регрессии);

Математическая статистика — возмущение, определяемое действием случайных факторов.

Так как каждое значение Математическая статистика является случайной величиной, то
значение в точке является математическим ожиданием
данной случайной величины.

Построить корреляционно-регрессионную модель явления — значит найти функцию регрессии и характеристики случайных отклонений от нее, позволяющие определить доверительный интервал, в границах которого с заданной доверительной вероятностью должна находиться исследуемая величина.

Модель явления строится по следующему алгоритму:

1.На основе качественного и количественного анализа
исходных данных выбирают вид функции регрессии, наилучшим образом описывающий данное явление.

2.Для выбранной функции подбирают параметры по какому-
либо критерию оптимизации.

3.Оценивают качество подобранной кривой по совокупности
критериев и делают вывод о ценности данной модели для
практического использования.

Явление может быть описано некоторой функцией или
комбинацией функций. На практике используются линейная функция, парабола, многочлен, гипербола, экспонента и др. Наиболее часто для этих целей используется линейная функция по причинам, описанным в § 12.11.

Для вычисления параметров уравнения регрессии будем использовать метод наименьших квадратов. При этом минимизируется cумма квадратов остатков

Математическая статистика

Рассмотрим метод наименьших квадратов на примере линейной
функции регрессии

Математическая статистика

В этом случае сумма квадратов остатков приобретает вид

Математическая статистика

Найдем частные производные по коэффициентам Математическая статистика и

Математическая статистика

Приравняв эти производные нулю и сгруппировав слагаемые,
получим систему из двух уравнений для искомых коэффициентов:

Математическая статистика

Решение этой системы имеет вид

Математическая статистика

где Математическая статистика

Используя полученную регрессионную модель, можно
прогнозировать появление зависимой случайной величины. Так как
процесс подвержен случайным воздействиям, то прогноз может быть
сделан лишь в виде доверительного интервала. Средним значением
прогноза является линия регрессии. Пусть нас интересует прогноз в
точке Математическая статистика (рис. 12.11). Тогда границы доверительного интервала для
прогнозируемой точки будут определяться по формуле

Математическая статистика

где Математическая статистика — коэффициент доверия распределения Стьюдента для
доверительной вероятности и числа степеней свободы v=n-2 .

Общая дисперсия фактического значения у в точке Математическая статистика
вычисляется по формуле

Математическая статистика

Доверительный интервал расширяется при удалении координаты х от ее среднего значения Математическая статистика и при увеличении доверительной вероятности

Математическая статистика

Пример:

Дана выборка производительности труда у рабочего в зависимости от стажа его работы х (два первых столбца табл. 12.8). Данные ранжированы по стажу.

Рассчитать линию регрессии, определить ее адекватность и значимость, сделать прогноз производительности труда для рабочих со стажем 5,5 и 12 лет.

Решение:

Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Значения, полученные в результате выборки, нанесены в виде точек в прямоугольной системе координат на рис. 12.12.

Таблица 12.8

Математическая статистика

Анализируя ломаную линию, можно предположить, что возрастание производительности труда идет равномерно, пропорционально стажу работы. Видимо, в основе этой зависимости лежит прямолинейная связь

Математическая статистика

Из табл. 12.8 следует, что

Математическая статистика

По формулам (12.20) находим

Математическая статистика

Таким образом, функция регрессии имеет вид

Математическая статистика

Для определения адекватности и значимости модели необходимо рассчитать ряд статистик. Результаты расчета сведены в табл. 12.9.

Таблица 12.9

Математическая статистика

Проверим точность построения модели производительности труда с помощью дисперсионного анализа:

Математическая статистика

Коэффициент детерминации

Математическая статистика

Отсюда заключаем, что 92,5% производительности труда обусловлено стажем работы.

Мера неопределенности

Математическая статистика

т.е. только 7,5% общей вариации производительности труда нельзя объяснить стажем работы.

Выборочный коэффициент корреляции Математическая статистика Это свидетельствует о том, что связь между изучаемыми признаками весьма тесная.

Рассмотрим существенность связи по критерию Фишера:

Математическая статистика

При уровне значимости Математическая статистика и числах степеней свободы и в таблице распределения Фишера находим Так как то коэффициент корреляции с вероятностью признается значимым.

Оценим качество подбора функции регрессии с помощью сравнения общей и остаточной дисперсий. Так как Математическая статистика то регрессионная модель адекватна фактическим данным.

Значимость коэффициентов регрессии проверим по t-критерию Стьюдента:

Математическая статистика

По таблице распределения Стьюдента для Математическая статистика находим при
числе степеней свободы n —2 = 8

Так как в обоих случаях Математическая статистика то и признаются
значимыми.

Доверительные интервалы коэффициентов Математическая статистика и определяем по
формуле

Математическая статистика

Предварительно находим

Математическая статистика

Отсюда

Математическая статистика

Найдем коэффициент корреляции по формуле (12.33). Для этого определим

Математическая статистика

Результат практически совпал с вычисленным ранее
коэффициентом корреляции Математическая статистика Это подтверждает факт наличия прямолинейной связи.

Проверим значимость линейного коэффициента корреляции на
основе t-критерия Стьюдента:

Математическая статистика

Табличное значение Математическая статистика Для числа степеней свободы n — 2 = 8

Так как Математическая статистика , то коэффициент корреляции значим, и связь
между производительностью труда и стажем работы существует с
вероятностью

По критерию Дарбина—Уотсона оценим качество подбора формы
кривой. Для этих целей найдем по формуле (12.35)

Математическая статистика

Ближайшие табличные значения критических границ в таблице
Дарбина—Уотсона для заданной доверительной вероятности
Математическая статистика определены для n = 15 (см., например, [12], с. 78). Эти критические границы, позволяющие вынести суждение о наличии автокорреляции, отмечены на рис. 12.13. Учитывая, что Математическая статистика медленно изменяется при уменьшении n, будем считать, что наличие автокорреляционных остатков не подтверждается.

Математическая статистика

Таким образом, построенная регрессионная модель в виде функции
связи

Математическая статистика

определена в целом, и выводы, полученные по результатам, хотя и
малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.

Средняя величина прогноза выработки рабочего со стажем 5,5 лет
составляет

Математическая статистика

а со стажем 12 лет —

Математическая статистика

Доверительный интервал выборки этих рабочих определяется
границами, рассчитанными по формуле

Математическая статистика

где

Математическая статистика

Для доверительной вероятности F = 0,99 имеем Математическая статистика Так
как то

Математическая статистика

Отсюда следует

Математическая статистика

Таким образом,

Математическая статистика

Для доверительной вероятности F = 0,95 имеем Математическая статистика Отсюда

Математическая статистика

Тогда

Математическая статистика

Многофакторный корреляционно-регрессионный анализ

Функция регрессии

В рассматриваемом случае зависимая переменная является случайной функцией нескольких независимых переменных Математическая статистика где j — номер переменной, изменяющейся от 1 до k. В каждом отдельном наблюдении i получают совокупность значений независимой переменной Математическая статистика и соответствующие им значения зависимой переменной . Все наблюдения могут быть представлены в таблиц це (см., например, табл. 12.7). В общем виде функция регрессии может быть представлена в виде

Математическая статистика

На практике часто сталкиваются с моделью линейной регрессий (12.17)

Математическая статистика

Для каждого наблюдения i можно записать

Математическая статистика

где возмущающая переменная Математическая статистика является случайной величиной.

Для линейной модели наблюдение i можно представить в виде

Математическая статистика

Отсюда

Математическая статистика

Для расчета параметров Математическая статистика уравнения (12.17) применим метод наименьших квадратов. При этом минимизируется сумма

Математическая статистика

Для этого находят частные производные по каждому коэффициенту Математическая статистика , приравнивают их нулю и решают k +1 уравнений относительно k+1 коэффициентов. Частные производные по коэффициентам имеют вид

Математическая статистика

Приравнивая данные производные нулю и проводя суммирование, получим искомую систему уравнений. Первое уравнение системы при дифференцировании по Математическая статистика т.е. при j = 0, имеет вид

Математическая статистика

При j = 1, 2, 3, …, k запишем уравнения системы в общем виде:

Математическая статистика

Перепишем эту систему уравнений в более привычном виде:

Математическая статистика

Подобную систему линейных уравнений можно решить,
например, методом Крамера или с помощью теории матриц.

Для математической модели линейной регрессии представим:

■ неизвестные параметры а — матрицей-вектором размера mх1 в
виде Математическая статистика где j = 0,1, 2,…, k, при условии m = 1 + k:

Математическая статистика

■ независимые переменные — матрицей размера nхm в виде Математическая статистика

Математическая статистика

■ зависимые переменные — матрицей-вектором размера nх1 в виде Математическая статистика где i = 0,1, 2,…, n:

Математическая статистика

Тогда систему линейных уравнений (12.39) в матричной форме
можно представить в виде

Математическая статистика

где Математическая статистика — транспонированная матрица матрицы X.

Чтобы показать соответствие формулы (12.40) системе (12.39),
найдем вначале произведение матриц

Математическая статистика

Затем найдем

Математическая статистика

Отсюда следует, что при перемножении трех матриц Математическая статистика получаем матрицу-столбец левых частей уравнений системы (12.39).

При перемножении двух матриц

Математическая статистика

получаем матрицу-столбец правых частей уравнений системы
(12.39).

Таким образом, система уравнений (12.39) соответствует
формуле (12.40).

Решение (12.40) можно записать в виде

Математическая статистика

Это выражение позволяет произвести расчет всех
коэффициентов линейного уравнения множественной регрессии.

Пример:

Оценить взаимосвязь зависимой переменной у
и двух независимых переменных Математическая статистика и на основе выборки,
приведенной в первых четырех столбцах табл. 12.10.

Таблица 12.10

Математическая статистика

Решение:

Матрицы X и Y имеют вид

Математическая статистика

Произведение двух матриц

Математическая статистика

Элементы матрицы произведения находятся по формуле

Математическая статистика

Отсюда следует, что

Математическая статистика

Произведение двух матриц

Математическая статистика

так как

Математическая статистика

Обратной матрицей Математическая статистика по отношению к матрице
называется матрица

Математическая статистика

где Математическая статистика — алгебраическое дополнение элемента в определителе матрицы транспонированной к матрице

Математическая статистика

Определитель матрицы

Математическая статистика

Обратная матрица равна

Математическая статистика

В результате находим

Математическая статистика

Таким образом, уравнение регрессии имеет вид

Математическая статистика

Значения Математическая статистика рассчитанные по этой формуле для приведенных в
выборке и представлены в пятом столбце табл. 12.10,
соответствующие возмущения — в шестом столбце табл. 12.10. ►

Коэффициент множественной корреляции

Как указывалось ранее, взаимосвязь зависимой переменной у с
рядом независимых переменных х измеряется с помощью
коэффициента множественной корреляции

Математическая статистика

Чем теснее экспериментальные данные прилегают к функции регрессии, тем больше эта величина.

Пример:

Для данных примера 12.10 определить коэффициент множественной корреляции.

Решение:

Данные для расчета коэффициента множественной корреляции приведены в табл. 12.11.

Таблица 12.11

Математическая статистика

Необходимые данные для расчета коэффициента множественной корреляции представлены в третьем и четвертом столбцах табл. 12.11:

Математическая статистика

Такое значение коэффициента множественной корреляции
свидетельствует о том, что связь между изучаемыми признаками весьма тесная. ►

Значимость коэффициента множественной корреляции

Существенность связи, или значимость рассчитанного
коэффициента множественной корреляции Математическая статистика , проверяется при помощи F-критерия Фишера. Рассчитывают

Математическая статистика

Значения выборочной дисперсии функции регрессии Математическая статистика и
выборочной остаточной дисперсии определяются по формулам (12.23) и (12.25). Если то коэффициент корреляции признается значимым с доверительной вероятностью F = 1 — Математическая статистика , где — уровень значимости. находят в таблице распределения Фишера при заданных уровне значимости , числе степеней свободы остаточной дисперсии Математическая статистика и дисперсии регрессии

Пример:

Для данных примера 12.10 определить значимость
коэффициента множественной корреляции, рассчитанного в примере 12.11.

Решение:

Данные для определения значимости коэффициента
множественной корреляции приведены в табл. 12.11. Найдем дисперсии:

Математическая статистика

Находим

Математическая статистика

При коэффициенте значимости Математическая статистика = 0,05, т.е. для доверительной
вероятности F -1 — = 0,95, и при степенях свободы и по таблице распределения Фишера находим

Так как Математическая статистика то связь существенна. ►

Матрица ковариаций

Рассмотрим k-факторную модель, в которой зависимая
переменная X определяется k независимыми переменными Математическая статистика , где
j = 1, 2,…, k. Наблюдению над объектом под номером i присвоены
некоторые скалярные численные значения В
качестве объектов могут выступать, например, люди, а в качестве
факторов — их вес, рост, возраст и т.д. Зависимую переменную X
и наблюдения над объектом под номером i можно представить как
матрицы-столбцы

Математическая статистика

Выборка объемом n из k-мерной совокупности содержит n
наблюдений (матриц-столбцов) по одному на каждый объект в
выборке:

Математическая статистика

Эти наблюдения удобно представить в виде выборочной матрицы

Математическая статистика

Среднее значение j-й компоненты, например среднее значение роста опрошенных людей, определяется по формуле

Математическая статистика

Среднее всей выборки можно представить в виде матрицы-
столбца

Математическая статистика

Подставив в (12.45) формулу (12.44), получим

Математическая статистика

Учитывая (12.42), это соотношение можно записать в виде

Математическая статистика

Таким образом, матрица-столбец среднего всей выборки равна сумме матриц-столбцов наблюдений, деленной на количество наблюдений.

Введем матрицу А с элементами

Математическая статистика

где j,s = 1,2,…,k.

По определению Математическая статистика Эту матрицу можно записать в виде

Математическая статистика

Она является симметричной матрицей размера kхk. Ее можно
представить также через матрицу S. Действительно,

Математическая статистика

(В этой и других формулах в транспонированных матрицах
номер столбца обозначен буквой s.)

Математическая статистика

Сопоставляя две последние формулы с (12.47) и с (12.48),
можно записать

Математическая статистика

Это соотношение часто записывают в виде

Математическая статистика

Действительно, используя (12.42) и (12.45), найдем

Математическая статистика

Тогда (12.50) приобретает вид

Математическая статистика

После проведения суммирования матриц получим

Математическая статистика

Сопоставляя это с (12.47) и (12.48), видим, что соотношение
(12.50) действительно имеет место.

Выборочные дисперсии и ковариации находятся по формулам

Математическая статистика

Таким образом, выборочная ковариационная (дисперсионно-
ковариационная) матрица является симметричной матрицей
размера kхk, определяемой как

Математическая статистика

Иногда формулу (12.51) записывают в виде

Математическая статистика

где М — оператор математического ожидания, х — матрица-столбец.

Математическая статистика

Значимость коэффициентов регрессии

Значимость коэффициентов регрессии определяется при
помощи t-критерия Стьюдента (12.30):

Математическая статистика

где Математическая статистика — стандартное отклонение для коэффициента .

Дисперсиями Математическая статистика параметров являются элементы главной
диагонали матрицы ковариации для матрицы а. В соответствии с
(12.52) имеем

Математическая статистика

Выше показано, что матрица а определяется соотношением
(12.41). При использовании для X и Y обозначений п. 12.15.1
формула для зависимой случайной величины (12.18) приобретает
следующий матричный вид:

Математическая статистика

где

Математическая статистика

Найдем произведение двух матриц:

Математическая статистика

Сложив две матрицы, найдем

Математическая статистика

Отсюда следует справедливость соотношения (12.54).

Подставив в (12.41) соотношение (12.54), найдем

Математическая статистика

Отсюда

Математическая статистика

Учитывая следующие свойства матриц:

Математическая статистика

найдем

Математическая статистика

Тогда перепишем (12.53) в виде

Математическая статистика

Отсюда найдем

Математическая статистика

Раскроем

Математическая статистика

Эта матрица является диагональной, так как все ее элементы, не лежащие на главной диагонали, равны нулю в силу того, что остатки не коррелированы между собой

Математическая статистика

Все остатки имеют одинаковую дисперсию, которую заменим на выборочную дисперсию (12.25):

Математическая статистика

С учетом сказанного можно записать:

Математическая статистика

Подставив это в (12.56), найдем

Математическая статистика

Из соотношения (12.57) следует, что дисперсия коэффициентов
регрессии Математическая статистика определяется по формуле

Математическая статистика

где Математическая статистика — диагональные элементы матрицы

Пример:

Для данных примера 12.10 определить значимость
коэффициентов регрессии.

Решение:

Уравнение регрессии, остаточная дисперсия и
обратная матрица Математическая статистика определены в примере 12.10:

Математическая статистика

Отсюда находим

Математическая статистика

Значимость коэффициентов регрессии найдем при помощи t-критерия Стьюдента (12.30):

Математическая статистика

Для числа степеней свободы 10 — 3 = 7 и вероятности Математическая статистика находим Поскольку то коэффициент принимается значимым с вероятностью 0,99. Для
коэффициента имеем при Поэтому принимается значимым с вероятностью 0,85. Для Математическая статистика имеем при

Таким образом, коэффициент Математическая статистика принимается несущественным. ►

Обычно, если проверка параметров приводит к тому, что один
или несколько из них оказываются несущественными, то они
исключаются из регрессии. Оценивание параметров повторяется уже для нового набора независимых переменных.

Оценка степени линейной независимости факторов друг от друга

В хорошей модели зависимость факторов друг от друга не
должна быть существенной. Для проверки степени линейной
зависимости факторов друг от друга рассчитывают попарно
коэффициенты корреляции

Математическая статистика

где Математическая статистика

Эти коэффициенты можно представить в виде таблицы (матрицы)

Математическая статистика

В идеальном случае все парные коэффициенты корреляции при Математическая статистика должны быть равны нулю. На практике они отличны от нуля.

Их значимость проверяется с помощью t-критерия Стьюдента

Математическая статистика

где m = k +1. Если Математическая статистика то коэффициент корреляции признается значимым.

Пример:

Для данных примера 12.10 определить степень линейной зависимости факторов друг от друга и значимость полученного коэффициента корреляции.

Решение:

Для определения коэффициента корреляции между первым и вторым фактором проведены расчеты, результаты которых сведены в табл. 12.12.

Подставив данные из табл. 12.12 в формулу (12.59), найдем:

Математическая статистика

Значение этого коэффициента велико, поэтому связь между факторами сильная.

По формуле (12.60) находим

Математическая статистика

Таблица 12.12

Математическая статистика

Для числа степеней свободы 10—3=7 и вероятности Математическая статистика
находим Поскольку то значение коэффициента корреляции, равное 0,965, принимается с вероятностью 0,99.

Так как связь между факторами очень сильная, то структура
уравнения регрессии должна быть пересмотрена. В данном случае должен быть исключен фактор Математическая статистика ►

Оценка степени линейной взаимосвязи между зависимой переменной и каждым из факторов

Зависимость у с каждым из факторов в модели регрессии
должна быть существенной. Эта зависимость проверяется при
помощи коэффициента корреляции

Математическая статистика

где Математическая статистика

Значимость коэффициентов корреляции может быть проверена
с помощью t-критерия Стьюдента:

Математическая статистика

где m = k +1. Если Математическая статистика то коэффициент корреляции признается значимым.

Пример:

Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.

Решение:

Для определения коэффициентов корреляции между
первым и вторым факторами воспользуемся данными табл. 12.11, 12.12. Подставив эти данные в формулу (12.61), найдем

Математическая статистика

Значение этих коэффициентов велико, поэтому связь между
зависимой переменной и факторами сильная.

По формуле (12.62) находим

Математическая статистика

Для числа степеней свободы 10 — 3 = 7 и вероятности Математическая статистика имеем Поскольку то значения коэффициентов корреляции принимаются с вероятностью 0,99. ►

Автокорреляция остатков

Отсутствие автокорреляции соседних значений остатков оценивается с помощью критерия Дарбина—Уотсона

Математическая статистика

По таблице Дарбина—Уотсона для заданной доверительной вероятности Математическая статистика определяют критические границы, позволяющие вынести суждение о наличии автокорреляции (рис. 12.14). Задавшись уровнем значимости и зная количество комбинаций n, находят из таблицы значения Математическая статистика и

Математическая статистика

При Математическая статистика автокорреляция остатков отсутствует. При и автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму функции регрессии.

Пример:

Для данных примера 12.10 провести исследование автокорреляции остатков.

Решение:

Воспользовавшись данными табл. 12.10 и 12.11, по формуле (12.63) найдем

Математическая статистика

Ближайшее табличное значение d определено при n = 15 и k = 2 Математическая статистика Поэтому прямое сопоставление с табличными данными невозможно. Однако, учитывая, что расчетное значение оказалось близким к 2, можно полагать, что наличие автокорреляции остатков не подтверждается. ►

Доверительные интервалы регрессии и ошибка прогноза

Пусть прогнозируемое значение у определяется по уравнению регрессии с полученными выше параметрами

Математическая статистика

Пусть

Математическая статистика

— матрица-столбец заданных значений независимых переменных, подстановкой которой в Математическая статистика определяется прогнозируемое значение у . Для определения доверительного интервала найдем дисперсию у в точке

Математическая статистика

Используя теорему о дисперсии суммы зависимых величин, получим

Математическая статистика

где Математическая статистика — ковариация случайных параметров и

В матричной записи выражение для дисперсии выглядит
следующим образом:

Математическая статистика

где Математическая статистика — матрица ковариаций параметров а уравнения регрессии (см. (12.57)). Тогда

Математическая статистика

Границы доверительного интервала для прогнозируемой точки
будут определяться по формуле

Математическая статистика

Вероятность попадания прогнозируемого значения в
доверительный интервал зависит от коэффициента доверия Математическая статистика . Значения и доверительная вероятность определяются по таблицам Стьюдента для степеней свободы n-m, где m = 1 + k .

Пример:

Для данных примера 12.10 найти доверительные
границы в точке Математическая статистика и при доверительной вероятности F = 0,95, т.е. при

Решение:

В примере 12.10 нашли

Математическая статистика

Подставив сюда Математическая статистика и , найдем прогнозируемое значение у:

Математическая статистика

Значения обратной матрицы Математическая статистика определено в примере 12.13:

Математическая статистика

Произведение матриц под корнем в (12.64) равно:

Математическая статистика

Умножение матриц является ассоциативной операцией, т.е.

Математическая статистика

Таким образом,

Математическая статистика

Отсюда следует, что границы доверительного интервала для
прогнозируемой точки согласно (12.64):

Математическая статистика

Значение остаточной дисперсии Математическая статистика получено в примере 12.12:

Математическая статистика = 1,1954.

Тогда

Математическая статистика

Вероятность попадания прогнозируемого значения в доверительный
интервал зависит от коэффициента доверия Математическая статистика . Значение при
доверительной вероятности F = 0,95 для степеней свободы n-m = 7
находим по таблице Стьюдента: = 2,364 .

Таким образом,

Математическая статистика

Введение в математическую статистику

Цель: Освоить понятие статистическая гипотеза. По знакомиться с методами статистической проверки гипотез.

В задачу математической статистики входит изучение массовых явлений в природе, обществе и технике и их научное обоснование. Везде, где приходится иметь дело с обработкой
экспериментальных результатов, необходимыми и незаменимыми вспомогательными средствами являются методы математической статистики.

Зарождение математической статистики было связано со сбором данных и графическим представлением полученных результатов измерений. Так возникли первые сводки рождаемости, бракосочетаний и смертности в демографической статистике.
В 20-е годы нашего столетия, главным образом в США и Англии, были разработаны математико-статистические методы научной обработки результатов измерений, основанные на закономерностях теории вероятностей (К. Пирсон, Р.А. Фишер, Дж. Нейман, А. Вальд).

Генеральная совокупность (популяция) W – полный набор объектов, с которыми связана данная проблема. Эти объекты могут быть людьми, животными, изделиями и так далее. С каждым объектом связана величина (или величины), называемая исследуемым признаком Математическая статистика

Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотрение каждого ее элемента. Однако в большинстве задач используются либо бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации необходимо отобрать из генеральной совокупности подмножество из n элементов, называемое выборкой объема n, исследовать его свойства, а затем обобщить эти результаты на всю генеральную совокупность. Это обобщение называется статистическим выводом.

Способы получения различных выборок и оценка их представительности будут рассмотрены в лабораторном практикуме.
Различные значения признака, наблюдающиеся у членов генеральной совокупности (или выборки), называются вариантами, а
числа, показывающие сколько раз встречается каждый вариант, частотами.

В данном определении предполагается дискретное изменения признака. Однако, если измерять непрерывную величину, то точность измерения и количество измерений в единицу времени
тоже дадут некий дискретный набор.

Мы предполагаем, что измеряемый или исследуемый признак изменяется некоторым случайным образом. Произведя серию измерений, получим набор данных, которые, скорее всего,
будут случайной выборкой из генеральной совокупности. Чтобы
провести первичную обработку этой выборки, необходимо построить экспериментальное распределение данных по частотам
или (если данные имеют явно непрерывный характер) по интервалам частот.

Выборочные функции

Для любой случайной величины Х существует (теоретическая) функция распределения F(x), или по-другому “Генеральная совокупность имеет теоретическое распределение F(x)”.
Вероятностный закон генеральной совокупности на практике почти всегда неизвестен. Единственным источником информации о нем служит взятая из этой совокупности выборка объема n, элементы которой Математическая статистика являются реализациями Х; по ней рассчитывается эмпирическое распределение и статистические параметры (еще говорят – статистики числовых характеристик): среднее арифметическое, дисперсия, моменты высших порядков и др.

Эмпирическое распределение выборки рассматривается в
качестве оценки теоретической функции распределения F(x) генеральной совокупности.

Пусть дана выборка значений случайной величины Математическая статистика из неизвестного совместного распределения
F(x). Тогда любое утверждение, касающееся природы F(x), называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:

Статистическая гипотеза, однозначно определяющая распределение F(x), то есть Математическая статистика где какой-то конкретный закон, называется простой.

Статистическая гипотеза, утверждающая принадлежность
распределения F(x) к некоторому семейству распределений, то
есть вида Математическая статистика , где F – семейство распределений, называется сложной.

Например, для экспоненциального распределения гипотеза
Математическая статистика – простая, – сложная, состоящая из
бесконечного числа простых гипотез вида λ = с, где с – любое число, большее 3.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу . Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза , называемая конкурирующей или альтернативной.

Различают две группы математико-статистических методов:

статистическая проверка гипотез (статистические тесты);
статистическая оценка параметров распределения.

Статистическая проверка гипотез предполагает выдвижение
определенных допущений (гипотез) относительно неизвестных
параметров F(x). Правильность этих гипотез проверяется затем по числовым значениям, полученным из выборки, и, в зависимости от результата проверки, гипотезы принимаются или отвергаются.

Примеры непараметрических гипотез

Математическая статистика где F0(x) может быть функцией нормального распределения с определенными установленными параметрами и то есть Закон распределения выборочной совокупности является нормальным

Математическая статистика закон распределения выборочной совокупности не является нормальным.
связь между ущербом в случае аварии и размером страхуемой машины отсутствует;
Математическая статистика связь между ущербом в случае аварии и размером машины существует.

Статистическая оценка параметров распределения предусматривает получение оценок (для отдельных значений или интервалов) неизвестных параметров вероятностного закона генеральной совокупности по параметрам выборки.

При статистической оценке параметров распределения и проверке гипотез используются числовые характеристики, рассчитанные по n наблюдениям выборки.

Пример параметрической гипотезы

Пусть дана независимая выборка из нормального распределения, где Математическая статистика – неизвестный параметр. Тогда , где – фиксированная константа, является простой параметрической гипотезой, а конкурирующая с ней — сложная параметрическая гипотеза.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
Статистической гипотезой называется любое предположение о
виде неизвестного распределения или о параметрах известного
распределения.

Статистическая проверка гипотез

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).
Располагая выборочными данными и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной или нулевой, и гипотезу Математическая статистика конкурирующую с гипотезой

Термин «конкурирующая» означает, что являются противоположными следующие два события:

по выборке будет принято решение о справедливости
для генеральной совокупности гипотезы
по выборке будет принято решение о справедливости
для генеральной совокупности гипотезы

Гипотезу Математическая статистика называют также альтернативной. Например, если нулевая гипотеза такова: математическое ожидание равно 5, то альтернативная гипотеза может быть следующей: математическое ожидание меньше 5, что записывается следующим образом:

Основная гипотеза: Математическая статистика

Конкурирующая гипотеза: Математическая статистика

Статистическая проверка гипотез применяется для того, чтобы использовать полученную по выборке информацию для суждения о законе распределения генеральной совокупности. При этом имеется определенное представление о неизвестном вероятностном законе F(x) и его параметрах, которое формулируется в виде статистической гипотезы, обозначаемой символом Н или Математическая статистика (нулевая, или основная, гипотеза).

Целесообразным оказался следующий способ записи: Математическая статистика это означает допущение (“гипотезу”) о том, что
есть функция распределения генеральной совокупности. Например, может быть функцией нормального распределения с определенными установленными параметрами Математическая статистика то есть

С помощью статистических методов или критериев для проверки гипотезы устанавливается, соответствуют ли взятые из выборки данные выдвинутой гипотезе или нет, то есть нужно ли принять или отвергнуть гипотезу.

Если вид функции распределения F(x) задан отдельными параметрами и, если гипотеза строится именно по этим неизвестным параметрам, то говорят о параметрических гипотезах.

Например, допущение о неизвестном параметре Математическая статистика нормального
распределения является такой параметрической гипотезой.

Математическая статистика – математическое ожидание случайной величины или “средняя
арифметическая величина” по выборке.

В противоположность этому статистические гипотезы общего порядка Математическая статистика называются непараметрическими, а методы их проверки – непараметрическими тестами. Они, естественно, являются более общими, чем параметрические гипотезы и методы их проверки, так как не требуют дополнительных предположений о виде функции F(x). С другой стороны, они менее эффективны, чем соответствующие критерии параметрических гипотез.

Этапы проверки статистических гипотез

1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.

2. Задание вероятности , называемой уровнем значимости и
отвечающей ошибкам первого рода, на котором в дальнейшем и
будет сделан вывод о правдивости гипотезы.

3. Расчёт статистики критерия такой, что:

её величина зависит от исходной выборки

по её значению можно делать выводы об истинности
гипотезы ;
сама статистика должна подчиняться какому-то известному закону распределения, т.к. сама является случайной в силу случайности .

4. Построение критической области. Из области значений
выделяется подмножество таких значений, по которым можно
судить о существенных расхождениях с предположением. Его
размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.

5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы Математическая статистика

Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

Критерий Стьюдента (t-критерий)

Критерий позволяет найти вероятность того, что оба средних
значения в выборке относятся к одной и той же совокупности.
Данный критерий наиболее часто используется для проверки
гипотезы: «Средние двух выборок относятся к одной и той же
совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

Случай независимых выборок

Статистика критерия для случая несвязанных, независимых
выборок равна:

где Математическая статистика – средние арифметические в экспериментальной и
контрольной группах; – стандартная ошибка разности
средних арифметических, которая находится из формулы:

где Математическая статистика и соответственно величины первой и второй выборки.
Если то стандартная ошибка разности средних арифметических будет считаться по формуле:

где n величина выборки.

Подсчет числа степеней свободы осуществляется по формуле:

При численном равенстве выборок k = 2n – 2.

Далее необходимо сравнить полученное значение Математическая статистика с теоретическим значением t–распределения Стьюдента (см. приложение к учебникам статистики). Если то гипотеза принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза. Рассмотрим пример использования t-критерия Стьюдента для несвязных и неравных по численности выборок.

Пример:

В двух группах учащихся – экспериментальной и
контрольной – получены следующие результаты по учебному
предмету (см. табл. 13).

Общее количество членов выборки: Математическая статистика
Расчет средних арифметических:
Стандартное отклонение:

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два.

Табличное значение Математическая статистика равняется 2,1 при допущении
возможности риска сделать ошибочное суждение в пяти случаях
из ста (уровень значимости или 0,05).

Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу Математическая статистика о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В
эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.

Здесь могут возникнуть такие вопросы:

Что если полученное в опыте значение t окажется меньше
табличного? Тогда надо принять нулевую гипотезу.
Доказано ли преимущество экспериментального метода?
Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.
Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами,
сделав средней арифметической экспериментальной группы а — контрольной:

Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза Математическая статистика о преимуществе традиционного
метода.

Случай связанных выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента. Вычисление значения t осуществляется по формуле:

где Математическая статистика – разности между соответствующими значениями переменной X и переменной У, а — среднее этих разностей, а Sd вычисляется по следующей формуле;

Число степеней свободы k определяется по формуле k=n-1.
Рассмотрим пример использования t-критерия Стьюдента для
связных и, очевидно, равных по численности выборок.
Если Математическая статистика то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример:

Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы
посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос:
какова эффективность проведенной работы? С целью проверки
эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в табл. 14 приводятся результаты небольшого числа испытуемых.

Таблица 14

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k=10-1=9 и по таблице находим Математическая статистика экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы о достоверных различиях средних арифметических, т.е. делается вывод об эффективности экспериментального воздействия.
В терминах статистических гипотез полученный результат
будет звучать так: на 5%-м уровне гипотеза Математическая статистика отклоняется и
принимается гипотеза .

Критерий Фишера

F – критерий Фишера используют для сравнения дисперсий
двух вариационных рядов. Он вычисляется по формуле:

где Математическая статистика – большая выборочная дисперсия, – меньшая выборочная дисперсия. По двум выборкам объемами n1 и n2 строят
выборочные функции:

Если предположить, что соответствующие генеральные совокупности распределены нормально с параметрами Математическая статистика и и что, кроме того, выполняется соотношение то существует теорема: выборочная функция имеет непрерывную функцию распределения и ее плотность вероятности:

Данное распределение названо в честь Р.А. Фишера F -распределением с Математическая статистика степенями свободы. Если вычисленное значение критерия F больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными.
Число степеней свободы числителя определяется по формуле: Математическая статистика где – число вариант для большей дисперсии.
Число степеней свободы знаменателя определяется по формуле: где – число вариант для меньшей дисперсии.

Рассмотрим пример расчета критерия Фишера

Известны результаты женской эстафеты 5-го этапа Кубка мира 2010 г. по биатлону, прошедшей в Рупольдинге (в Германии).

Математическая статистика – дисперсии времени прохождения дистанции спортсменками команд России и Швеции (двух генеральных
совокупностей равны).
– дисперсии времени прохождения дистанции спортсменками команд России и Швеции существенно различаются.

По таблице критических точек распределения Фишера-Снедекора можно найти критическую точку для F-критерия при известных степенях свободы, равных: k= 4 – 1 = 3. Получаем Математическая статистика

Поскольку, Математическая статистика следовательно, можно утверждать, что нулевая гипотеза принимается на 5%-м уровне значимости, а конкурирующая гипотеза в этом случае отвергается. Исследователь может сделать вывод, что по степени однородности показателя времени прохождения дистанции различие между двумя командами незначительные.

Непараметрические тесты

Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы.
1) В пределах осей можно нарисовать полигон частоты
(эмпирическую функцию распределения) и кривую нормального
распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой.
2) Вычисляется среднее, медиана и мода и на основе этого
определяется отклонение от нормального распределения. Если
мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.
3) Эксцесс кривой распределения должен быть равен 0.
Кривые с положительным эксцессом значительно круче кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения.
4) Правило трех сигм. После определения среднего значения распределения частоты и стандартного отклонения находят следующие четыре интервала распределения сравнивают их
с действительными данными ряда:

а) Математическая статистика – к интервалу должно относиться около 25%
частоты совокупности,
б) – к интервалу должно относиться около 50%
частоты совокупности,
в) Математическая статистика – к интервалу должно относиться около 75%
частоты совокупности,
г) – к интервалу должно относиться около 100%
частоты совокупности.

Проверка гипотез о законе распределения по критерию (хи-квадрат)

Проверка гипотез о законе распределения по критерию Математическая статистика
(хи-квадрат)

Численным методом оценки того, принадлежит ли данная
выборка генеральной совокупности с нормальным распределением, является критерий Математическая статистика разработанный К. Пирсоном. Согласно этому методу, наблюдаемое эмпирическое распределение выборки, выраженное абсолютными, относительными или относительными накопленными частотами сгруппированного ряда измерений, сравнивается с гипотетическим теоретическим распределением соответствующей генеральной совокупности. Для этого выдвигается гипотеза о неизвестной функции распределения F(x) генеральной совокупности, которая сопоставляется с подходящей выборочной функцией и, в зависимости от величины отклонения эмпирического распределения от теоретического, выдвинутая гипотеза принимается или отвергается. Так как статистическая гипотеза относится к неизвестной функции распределения F(x), а не к отдельным ее параметрам, мы говорим о непараметрическом методе проверки, или о критерии подобия.

Критерий Математическая статистика и представляет собой один из таких критериев подобия.

Критерий часто используют также для сравнения между собой двух выборок из некоторой генеральной совокупности.

Пусть в результате n наблюдений получен вариационный
ряд с опытными частотами Математическая статистика Тогда их сумма равна.

Анализируя опытные данные, выбираем некоторый закон теоретического распределения для рассматриваемого признака. По
опытным данным найдем параметры этого закона (гипотеза). С помощью теоретического закона вычислим теоретические частоты Математическая статистика соответствующие эмпирическим частотам.
Сумма теоретических частот также должна быть равна объему
выборки – n (соглашение).
В качестве меры расхождения теоретического и эмпирического рядов частот возьмем величину:

– критерий согласия Пирсона.

Из выражения видно, что Математическая статистика лишь при совпадении всех
соответствующих эмпирических и теоретических частот:
В противном случае отлично от нуля и тем больше, чем
больше расхождение между указанными частотами.
Величина Математическая статистика является случайной и имеет распределение —
распределение. Параметр k назван числом степеней свободы.
Число k определяется:
k = m – s,
где m – число групп эмпирического распределения (или
число интервалов);

s – число параметров теоретического закона, найденного с помощью этого распределения или число связей теоретического и эмпирического распределений. Например, если мы нашли –
среднее арифметическое и Математическая статистика – дисперсию, используя данные
опытного распределения и установили, сумма частот опытного
распределения равна сумме частот теоретического распределения, то число связей s = 3.

Если же эмпирическое распределение не использовалось для
нахождения параметров теоретического закона и теоретических
частот, а эмпирические частоты не связаны никакими дополнительными соотношениями, то k равно числу групп эмпирического распределения. Количество частот в группе должно быть больше 5. Если количество меньше, то соседние группы следует
объединить.

Выборочная совокупность. Вариационный ряд

Цель: изучение типов выборок, методов анализа выборочной совокупности. Получение представлений о статистической
оценке параметров и интервалов вариационного ряда.

Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотреть каждый ее элемент.
Однако чаще всего на практике приходится ограничиваться
выборочными значениями из генеральной совокупности. Основное требование к выборке – хорошо представлять (быть репрезентативной, представительной) генеральную совокупность.

Обычно считается, что чтобы иметь право судить о генеральной совокупности по выборке, выборка должна быть образована случайно. Это можно достичь различными способами (наиболее распространенными):

собственно-случайная выборка;
механическая;
типическая;
серийная.

Собственно-случайная выборка

Существует два подхода к решению данной задачи:
Простая случайная выборка с возвращением – объект извлекается из генеральной совокупности случайным образом, и перед извлечением следующего, возвращается обратно. Например, после отбора деталей на анализ соответствия стандарту из большой партии, их снова возвращают назад и партию перемешивают.

Выборка без возвращения – извлеченный объект не возвращается в генеральную совокупность, а значит, может появиться в выборке только один раз. Например, отбор деталей производится с конвейера и после деструктивного анализа (разрушающего), возврат уже не возможен.

Если генеральная совокупность бесконечна, то процедуры
выборки как с возвращением, так и без него, дают простую случайную выборку. Если генеральная совокупность конечна и велика по сравнению с размером выборки, то процедура извлечения без возвращения дает приблизительно простую случайную выборку. Если генеральная совокупность конечна и объем выборки составляет заметную долю от размера генеральной совокупности, то различие между этими двумя методами становится заметным.

Механическая выборка

Механической называется выборка, в которую объекты из
генеральной совокупности отбираются через определенный интервал (рис. 24).

Например, если объем выборки должен составлять 5 % объема генеральной совокупности, то отбирается каждый двадцатый объект генеральной совокупности. Опасность, которая подстерегает исследователя при использовании этого метода – попасть в период циклически изменяющейся случайной величины.

Типическая выборка

Если генеральную совокупность предварительно разбить на непересекающиеся группы, а затем образовать собственнослучайные выборки элементов (с возвратом или без) изкаждой группы и все отобранные объекты считать попавшими в выборку, то получим выборочную совокупность, называемую типической выборкой. Считается, что типическая выборка с большей
достоверностью воспроизводит однородную генеральную совокупность.

Серийная выборка

Если генеральную совокупность предварительно разбить на
непересекающиеся серии, а затем, рассматривая серии как элементы некой мегасовокупности, выбрать случайным образом несколько серий и все объекты отобранных серий поместить в выборку, то получим выборочную совокупность, которая называется серийной.

Всякая случайная выборка возникает из генеральной совокупности в результате случайного отбора, ее можно описать с
помощью n-мерного случайного вектора Математическая статистика составляющая которого дает случайную величину Х в i-м наблюдении

Можно говорить о выборке объема n из распределенной согласно F(x) генеральной совокупности, когда случайные компоненты Математическая статистика независимы друг от друга и имеют ту же функцию распределения, что и X, а именно F(x).
Закон распределения случайного вектора
в этом случае полностью определяется формулой: Эта формула получается из условий: F(x) – вероятность, Математическая статистика – независимые события. Здесь мы вторгаемся в область многомерных случайных величин и функций.

Отсюда следует, что каждая из рассчитанных по наблюдениям Математическая статистика данной выборки числовая характеристика, например среднее арифметическое , есть реализация случайной величины, которая от выборки к выборке может принимать различные значения.

Такая случайная величина называется выборочной функцией и в общем случае обозначается как

Такая запись означает зависимость выборочной функции от случайных компонент Математическая статистика вектора

Так как выборочная функция Т является случайной величиной, то она имеет закон распределения, зависящий от закона распределения случайной величины X в генеральной совокупности. Для построения математико-статистических методов
оценки параметров и проверки гипотез необходимо знание закона распределения, поэтому его расчет по распределению Х для различных выборочных функций образует основную техническую проблему математической статистики.

Распределение среднего арифметического значения используется достаточно часто. Если из генеральной совокупности, распределение которой имеет математическое ожидание Математическая статистика и
дисперсию (при этом закон распределения генеральной совокупности не обязательно должен быть нормальным) последовательно отбирать ряд выборок объема n, то каждая выборка даст реализацию величины . В итоге получается ряд средних арифметических для которых можно установить эмпирическое распределение и вычислить числовые характеристики. Тогда распределение частот с увеличением объема выборки n все более
приближается по форме к нормальной кривой. Можно математически строго доказать, что имеет (для больших n) асимптотически нормальное распределение с математическим ожидание Математическая статистика и дисперсией

Некоторые важные распределения выборочных функций
Все приведенные ниже теоремы предполагают, что n компонент Математическая статистика случайного вектора независимы и имеют
нормальное распределение с математическим ожиданием и
дисперсией , то есть имеем выборку объема n из нормально
распределенной генеральной совокупности.

Теорема:

Выборочная функция

распределена нормально согласно Математическая статистика

Величина также приближенно распределена нормально согласно Математическая статистика если соответствующая генеральная совокупность удовлетворяет произвольному распределению с математическим ожиданием и дисперсией Математическая статистика . Приближение тем лучше, чем больше n.

Теорема:

Выборочная функция (нормированная) удовлетворяет нормированному (стандартному) нормальному распределению с параметрами N(0; 1).

Теорема:

Образованная с помощью эмпирической дисперсии (деление на n-1 дает несмещенную оценку) выборочная функция удовлетворяет непрерывной функции распределения с плотностью для х>0 при m = n-1.

Значение Математическая статистика зависит только от m, но не от x, и его следует выбирать так, чтобы выполнялось условие нормирования для плотности распределения (). Определенная здесь плотность распределения называется распределением Математическая статистика (хи-квадрат) с m = n-1 степенями свободы. При этом n и m являются параметрами.

Плотность распределения хи-квадрат асимметрична, но при Математическая статистика приближается к плотности нормального распределения с математическим ожиданием m=n-1 и дисперсией 2m = 2(n- 1).

Теорема:

Если из выборочных функций Математическая статистика и образовать новую функцию

то для нее доказано, что эта выборочная функция непрерывна, а ее плотность равна:

константа, зависимая только от m.
Эта плотность вероятности получена У. С. Гассетом и названа по его псевдониму – Student. Распределение Стьюдента или t-распределение с m=n-1 степенями свободы.
Кривая плотности вероятности тем более полога, чем меньше m, и при Математическая статистика переходит в плотность вероятности нормированного (стандартного) распределения.

Статистические оценки параметров распределения

Цель: получение представлений о статистической оценке
параметров и интервалов выборочного распределения.
Точечные оценки параметров распределения
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.
M(Q*) = Q.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.
Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (n велико!) к
статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при Математическая статистика стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при
стремится к нулю, то такая оценка оказывается и состоя-
тельной.
Рассмотрим точечные оценки параметров распределения,
т.е. оценки, которые определяются одним числом Математическая статистика где — выборка.

Генеральная средняя

Пусть изучается генеральная совокупность относительно
количественного признака Х.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.
Если все значения признака различны, то

Если значения признака распределены по частотам:

Выборочная средняя

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.
Выборочной средней называют среднее арифметическое
значение признака выборочной совокупности.
Если все значения признака выборки различны, то

а если же все значения имеют частоты Математическая статистика то

Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней. Замечание: Если выборка
представлена интервальным вариационным рядом, то за Математическая статистика принимают середины частичных интервалов.

Генеральная дисперсия

Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг
своего среднего значения, вводят сводную характеристику – генеральную дисперсию.

Генеральной дисперсией Математическая статистика называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения. Если все значения признака генеральной совокупности объема N различны, то

Если же значения признака имеют соответственно частоты

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии.

Выборочная дисперсия

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения признака выборки различны, то

если же все значения имеют частоты Математическая статистика то

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.

Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии:

Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:

Вычисление дисперсии – выборочной или генеральной, можно упростить, используя формулу: Математическая статистика

Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.

Исправленная дисперсия

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Для исправления выборочной дисперсии достаточно умножить ее на дробь

получим исправленную дисперсию Математическая статистика Исправленная дисперсия является несмещенной оценкой. В качестве оценки генеральной
дисперсии принимают исправленную дисперсию.
Для оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение

Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30.

Вычислим выборочные характеристики по выборкам, рассмотренным в табл. 16.

Пример:

Для дискретного вариационного ряда:
Среднее выборочное

Выборочная дисперсия

Выборочное среднее квадратическое отклонение

Исправленная дисперсия

Рассмотрим пример расчета точечных оценок параметров
интервального вариационного ряда (табл. 17).

За Математическая статистика примем середины частичных интервалов:

Для вычисления выборочной дисперсии воспользуемся формулой

Тогда выборочная дисперсия равна

Выборочное среднее квадратическое отклонение:

Интервальные оценки параметров распределения

Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q.
Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если Математическая статистика и , то чем меньше , тем оценка точнее.

Таким образом, положительное число Математическая статистика характеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству Математическая статистика ; можно лишь говорить о вероятности с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки называют вероятность Математическая статистика , с которой осуществляется неравенство
.
Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что, |Q- Q*| <d равна Математическая статистика

Заменив неравенство, равносильным ему двойным неравенством получим:

Это соотношение следует понимать так: вероятность того, что интервал Q* – d < Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна Математическая статистика .
Интервал называется доверительным интервалом, который покрывает неизвестный параметр с надежностью .

Интервальные оценки параметров нормального распределения

Доверительный интервал для оценки математического ожидания при известном среднем квадратичном отклонении

Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения Математическая статистика Требуется оценить математическое ожидание a по выборочной средней. Найдем доверительный интервал, покрывающий математическое ожидание a с надежностью Математическая статистика . Выборочную среднюю будем рассматривать как случайную величину (она изменяется от выборки к выборке), выборочные значения признака – как одинаково распределенные независимые случайные величины с математическим ожиданием a и средним квадратическим отклонением Математическая статистика Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами

Потребуем, чтобы выполнялось равенство

Заменив Х и Математическая статистика , получим

Задача решена. Число t находят по таблице функции Лапласа Ф(х).

Пример:

Случайная величина Х распределена нормально и Математическая статистика

Найти доверительный интервал для оценки математического ожидания по выборочным средним, если n = 36 и задана надежность Математическая статистика
Из соотношения 2Ф(t)= 0,95 , откуда Ф(t) = 0,475 по таблице найдем
t =1,96. Точность оценки

Доверительный интервал

Пример:

Найти минимальный объем выборки, который обеспечивает заданную точность Математическая статистика и надежность если СВХ распределена нормально и

Из равенства

подставим значения и получим минимальный объем выборки
n=80.

Доверительный интервал для оценки математического ожидания при неизвестном среднем квадратичном отклонении

Поскольку мы не знакомы с законами распределения случайной величины, которые используются при выводе формулы, то примем ее без доказательства.
В качестве неизвестного параметра Математическая статистика используют исправленную дисперсию . Заменяя на s, t на величину

Значение этой величины зависит от надежности Математическая статистика и объема выборки n и определяется по таблице значений Итак:

и доверительный интервал имеет вид

Пример:

Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8.
По таблице приложения найдем Математическая статистика по заданной надежности и n= 16: Подставим в формулу s =0,8 и , вычислим границы доверительного интервала:

откуда получим доверительный интервал (19,774; 20,626).
Смысл полученного результата: если взять 100 различных
выборок, то в 95 из них математическое ожидание будет находиться в пределах данного интервала, а в 5 из них – нет.

Пример:

Измеряют диаметры 25 корпусов электродвигателей. Получены выборочные характеристики

Необходимо найти вероятность (надежность) того, что интервал: Математическая статистика является доверительным интервалом оценки математического ожидания при нормальном распределении.
Из условия задачи найдем точность d, составив и решив систему:

Откуда d =10. Из равенства

откуда Математическая статистика По таблице для найденного и n= 25 находим

Доверительный интервал для оценки дисперсии и среднего квадратического отклонения

Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и Математическая статистика с заданной надежностью .

Потребуем выполнения соотношения

Раскроем модуль и получим двойное неравенство:

Преобразуем:

Обозначим d/s = q (величина q находится по «Таблице значений q» и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:

Замечание:

Так как s >0, то если q >1 , левая граница
интервала равна 0:

0< s < s ( 1 + q ).

Пример:

По выборке объема n = 25 найдено «исправленное» среднее квадратическое отклонение s = 0,8. Найти до- верительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95. По таблице приложения по данным Математическая статистика n =25 , находим q = 0,32.

Искомый доверительный интервал 0,8(1- 0,32)< s < 0,8(1+ 0,32) или 0,544 < s <0,056.

Пример:

По выборке объема n = 10 найдено s = 0,16.
Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.

Искомый доверительный интервал 0< s <0,16(1+1,8) или 0< s <0,448.
Так как дисперсия есть квадрат среднего квадратического
отклонения, то доверительный интервал, покрывающий генеральную дисперсию с заданной надежностью Математическая статистика , имеет вид:

Линейный корреляционный анализ

Цель: изучение связей между величинами, носящими случайный характер. Проверка гипотез о линейной и нелинейной корреляции величин.

Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы.

Корреляционный анализ (термин “корреляция” происходит
от лат. correlatio – соотношение, связь) измеряет степень взаимосвязи между двумя переменными – например, ценой товара
на рынке и объемом спроса на этот товар. Величина, характеризующая наличие связи – коэффициент корреляции показывает, приведут ли изменения одной переменной, например, цены к изменениям другой – спроса.

При корреляционном анализе двух переменных одна из них называется «зависимая», а другая – «независимая». Цель анализа
– определить, приведут ли изменения независимой переменной
к изменениям зависимой.

Из математики нам известно понятие функции, которая описывает зависимость значения величины Y от значения независимой переменной Х, называемой аргументом. Однозначная зависимость между переменными величинами Y и X называется функциональной, т.е. Y = f(X) (“игрек есть функция от икс”).

Например, в функции Y = -3X+5 каждому значению X соответствует значение Y. В функции Математическая статистика каждому значению X соответствует Y , равный кубу X. Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты –карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди людей встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических, и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер, когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной.

Если функциональные связи одинаково легко обнаружить и на
единичных, и на групповых объектах, то этого нельзя сказать о
связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.

Задача корреляционного анализа сводится к установлению
направления и формы связи между признаками, измерению ее
тесноты и к оценке достоверности выборочных показателей корреляции.

Для двух случайных величин х и y коэффициент корреляции определяется по формуле:

где Математическая статистика — ковариация х и у, определяемая по формуле, а и –
средние квадратичные отклонения по выборкам.

Коэффициент корреляции Браве–Пирсона по выборочным
данным можно оценить по формуле:

Выборочный коэффициент корреляции лежит между -1 и +1
и принимает одно из граничных значений только при наличии
идеальной линейной связи между наблюдениями. Нелинейная
связь и (или) разброс данных, вызванный ошибками измерения
или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного значения Математическая статистика

Данный коэффициент впервые использовал Карл Пирсон
(1857–1936), английский математик, разработавший статистический аппарат для проверки теории Ч.Дарвина. Статистические
методики Пирсона широко используются в психологии и педагогике.
Расчет коэффициента корреляции правомерно проводить в том случае, когда случайные величины могут быть измерены в числовой шкале, при этом возможно вычисление средних значений. Приведём пример, когда нахождение коэффициента корреляции некорректно именно по причине измерения случайных величин в качественной шкале. Любые измеряемые величины соотносят с одной из измерительных шкал. Обычно выделяют две качественные шкалы: номинальную и порядковую. Номинальная позволяет только качественно отличить один объект от другого, например черное – белое, Марина – Пётр – Саша. Порядковая или ранговая шкала позволяет установить порядок увеличения или уменьшения какого-либо качества: низкий – средний – высокий, плохо – удовлетворительно – хорошо – отлично и т.д.

Количественные шкалы – интервалов и отношений, позволяют сравнивать величины между собой и выражать различие числом. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами Математическая статистика и графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем (рис. 25).

Данная модель двумерного нормального распределения
(корреляционное поле) позволяет дать наглядную графическую
интерпретацию коэффициента корреляции, т.к. распределение в
совокупности зависит от пяти параметров: Математическая статистика – средние значения (математические ожидания); – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, Математическая статистика полученные из двумерной
нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью. В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Пример:

Определить достоверность взаимосвязи между по-
казателями веса и количеством подтягиваний на перекладине у
11 исследуемых с помощью расчета нормированного коэффициента корреляции, если данные выборок таковы:

Решение:
1.Расчет коэффициента корреляции Пирсона:

2.Для расчетов создать вспомогательную таблицу

3.Рассчитать число степеней свободы по формуле:

4.Сравнить рассчитанное значение нормированного
коэффициента корреляции Математическая статистика с табличным значением
для К =9 при a = 5 % и сделать вывод.

Вывод

1) так как Математическая статистика то между данными выборок наблюдается обратная отрицательная взаимосвязь, то есть с увеличением показателей веса у исследуемых снижается их результат в количестве подтягиваний на перекладине;
2) поскольку Математическая статистика для K = 10 при то с
уверенностью можно говорить о том, что выявленная
зависимость недостоверна.

Основы дисперсионного анализа

Цель: познакомиться с теорией дисперсионного анализа.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия средних арифметических на основе сравнения
дисперсий нескольких групп. Дисперсию измеряемого признака
разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Например, проводя опросы по поводу потребления какого-
либо товара в различных регионах страны, необходимо сделать
выводы на: сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация
признака. За меру вариации принимается дисперсия. На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей.

Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Дисперсионный анализ включает в себя проверку гипотез, связанных с оценкой выборочной дисперсии. Можно выделить три основных вида гипотез:
1) значимо ли различие между двумя дисперсиями?
2) одна дисперсия значимо больше другой?
3) значимо ли различие между несколькими дисперсиями?

Гипотезой для дисперсионного анализа может служить и
такая гипотеза: выборки, по которым определены оценки дисперсии, получены из генеральных совокупностей, обладающих
одинаковыми дисперсиями.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. Дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны. Однородные же совокупности можно объединить в одну и тем самым
получить о ней более полную информацию, следовательно, и
более надежные выводы.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия Математическая статистика Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:

где p – число групп; n – число уровней фактора; – общая средняя.
Вариацию, характеризующую рассеяние между группами, описывает межгрупповая дисперсия:

Остаточная сумма квадратов отклонений наблюдаемых
значений группы от своего группового среднего, характеризует
рассеяние внутри групп:

Между общей дисперсией Математическая статистика межгрупповой дисперсией и внутригрупповой дисперсией существует соотношение:

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе. Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии:

Если справедлива гипотеза Математическая статистика , то все эти дисперсии являются несмещенными оценками генеральной дисперсии. Покажем, что проверка нулевой гипотезы сводится к сравнению факторной и остаточной дисперсии по критерию Фишера-Снедекора.

1.Пусть гипотеза Математическая статистика правильна. Тогда факторная и остаточная дисперсии являются несмещенными оценками неизвестной генеральной дисперсии и, следовательно, различаются незначимо. Поэтому результат оценки по критерию Фишера-Снедекора F покажет, что нулевая гипотеза принимается. Таким образом, если верна гипотеза о равенстве математических ожиданий генеральных совокупностей, то верна и гипотеза о равенстве факторной и остаточной дисперсий.

2. Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение

Поэтому в результате Математическая статистика окажется больше и гипотеза о равенстве дисперсий будет отвергнута. Следовательно, если гипотеза о равенстве математических ожиданий генеральных совокупностей ложна, то ложна и гипотеза о равенстве факторной и остаточной дисперсий.

Итак, метод дисперсионного анализа состоит в проверке по критерию F нулевой гипотезы о равенстве факторной и остаточной дисперсий.
Если факторная дисперсия окажется меньше остаточной, то гипотеза о равенстве математических ожиданий генеральных
совокупностей верна. При этом нет необходимости использовать критерий F.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является «робастной». Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но, несмотря на это, технику можно использовать. При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

Пример использования однофакторного дисперсионного анализа

В четырех группах испытуемых, по 17 человек в каждой, проводилось изучение времени реакции на звуковой стимул.
Интенсивность стимула составила 40, 60, 80 и 100 дБ, причем в
каждой группе предъявлялись стимулы только одной интенсивности.

Математическая статистика Среднее время реакции уменьшается по мере увеличения громкости звука. В этой задаче регулируемым фактором
является сила звука, а её уровни рассматриваются как градации
фактора. Таким образом, фактор «сила звука» выступает как независимая переменная, а время реакции как результативный
признак, или как зависимая переменная. Проверяется гипотеза
Математическая статистика , согласно которой средние и дисперсии в группах обусловлены случайными влияниями и не зависят от действия регулируемого фактора.
Среднее время реакции увеличивается по мере увеличения громкости звука.

Представим исходные данные для работы с однофакторным дисперсионным анализом в виде табл. 20, в которую внесены некоторые дополнительные расчетные данные.

Сравнивая F экс и F таб, можно сделать вывод, что F экс больше критического табличного значения, а это значит, что нулевую гипотезу Математическая статистика об отсутствии различий следует отвергнуть, а
принять гипотезу . Психолог может быть уверенным, что при
увеличении силы звука скорость реакции значительно увеличивается. Или регулируемый фактор – сила звука оказывает существенное влияние на независимую переменную – скорость реакции.

Факторный анализ

Цель: освоить методику применения факторного анализа для исследования экспериментальных данных.

Множество явлений и процессов в окружающем нас мире связаны между собой. Изучение взаимных зависимостей между составляющими явлений и процессов порождает множество вопросов: о силе связей, об их закономерностях, о причинах, породивших определенную структуру связей. Сложные зависимости системы факторов, влияющих на процесс, сложно интерпретировать, поскольку в большинстве ситуаций существуют скрытые параметры, влияющие на коррелированные признаки.

Часто изменения взаимосвязанных признаков происходит
согласованно, т.е. признаки дублируются. Стремление объяснить совокупность признаков через введение более глубинных
характеристик явления, определяющих его структуру, приводит
к модели факторного анализа.
Факторный анализ – многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.

Реализация факторного анализа представляет собой постепенный переход от исходной факторной системы к конечной факторной системе, изучение влияния полного набора прямых, количественно измеряемых факторов, оказывающих влияние на изменение результативного показателя.

Условия выполнения факторного анализа:

факторный анализ выполняется над взаимосвязанными
переменными;
изучаемые признаки должны быть количественными;
число признаков должно быть в два раза больше числа переменных;
выборка должна быть однородна.

По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа.

Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер.
Основные свойства детерминированного подхода к анализу:

построение детерминированной модели путем логического
анализа;
наличие полной (жесткой) связи между показателями;
невозможность разделения результатов влияния одновременно действующих факторов, которые не поддаются объединению в одной модели;
изучение взаимосвязей в краткосрочном периоде.

Различают четыре типа детерминированных моделей:
Аддитивные модели представляют собой алгебраическую сумму показателей и имеют вид

К таким моделям, например, относятся показатели себестоимости во взаимосвязи с элементами затрат на производство и со статьями затрат; показатель объема производства продукции в его взаимосвязи с объемом выпуска отдельных изделий или объема выпуска в отдельных подразделениях.

Мультипликативные модели в обобщенном виде могут быть представлены формулой

Примером мультипликативной модели является двухфакторная модель объема реализации

где X – среднесписочная численность работников;
Pr – средняя выработка на одного работника.

Кратные модели:

Примером кратной модели служит показатель срока оборачиваемости товаров (в днях) . Т ОБ.Т:

где ЗТ – средний запас товаров; ОР – однодневный объем реализации.

Смешанные модели представляют собой комбинацию перечисленных выше моделей и могут быть описаны с помощью
специальных выражений:

Примерами таких моделей служат показатели затрат на 1 руб. товарной продукции, показатели рентабельности и др.

Алгоритмы применения детерминированного факторного анализа для различных моделей

Модель вида

2. Модель вида Математическая статистика

3. Модель вида Математическая статистика

4. Модель вида Математическая статистика

Построение факторной модели – первый этап детерминированного анализа. Далее определяют способ оценки влияния факторов.

Способы оценки влияния факторов

Способ цепных подстановок
Способ относительных разниц
Способ абсолютных разниц

Способ цепных подстановок заключается в определении ряда промежуточных значений обобщающего показателя путем
последовательной замены базисных значений факторов на отчетные. Данный способ основан на исключении воздействия
всех факторов на величину результативного показателя, кроме
одного. При этом исходя из того, что все факторы изменяются
независимо друг от друга, т.е. сначала изменяется один фактор, а все остальные остаются без изменения, потом изменяются два при неизменности остальных и т.д.

В общем виде применение способа цепных постановок можно описать следующим образом:

где Математическая статистика – базисные значения факторов, оказывающих влияние на обобщающий показатель у; – фактические значения факторов; – промежуточные изменения результирующего показателя, связанного с изменением факторов а, b,соответственно.
Общее изменение Математическая статистика складывается из суммы изменений результирующего показателя за счет изменения каждого фактора при фиксированных значениях остальных факторов:

Проведем факторный анализ влияния на объем товарной продукции количества работников и их выработки описанным выше способом на основе данных табл.21.
Зависимость объема товарной продукции от данных факторов можно описать с помощью мультипликативной модели:

Тогда влияние изменения величины количества работников на обобщающий показатель можно рассчитать по формуле:

Далее определим влияние изменения выработки работников на обобщающий показатель

Суммарное влияние двух факторов:

Таким образом, на изменение объема товарной продукции
отрицательное влияние оказало изменение на 32 человека чис-
ленности работников, что вызвало снижение объема продукции
на 2720 тыс. руб. и отрицательное влияние оказало снижение
выработки на 13 тыс. руб., что вызвало снижение объема на
1274 тыс. руб. Суммарное влияние двух факторов привело к
снижению объема продукции на 3994 тыс. руб.

Способ абсолютных разниц является модификацией способа цепной подстановки. Изменение результативного показателя за счет каждого фактора способом разниц определяется как произведение отклонения изучаемого фактора на базисное или отчетное значение другого фактора в зависимости от выбранной последовательности подстановки:

Способ относительных разниц применяется для измерения влияния факторов на прирост результативного показателя в мультипликативных и смешанных моделях вида у = (а – b) * с.
Он используется в случаях, когда исходные данные содержат определенные ранее относительные отклонения факторных показателей в процентах.

Для мультипликативных моделей типа у = abc методика анализа следующая: находят относительное отклонение каждого факторного показателя:

затем определяют отклонение результативного показателя у за счет каждого фактора

Пример:

Воспользовавшись данными табл. 21, проведем анализ способом относительных разниц. Относительные отклонения рассматриваемых факторов составят:

Рассчитаем влияние на объем товарной продукции каждого фактора.

Количества работников:

Выработки продукции каждым работником:

Линейный регрессионный анализ

Цель: Используя методы регрессионного анализа, научиться строить прямые регрессии и оценивать полученные данные (прогноз) в заданном доверительном интервале.

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с
этим желательно иметь модель этой связи, которая дала бы возможность предсказывать значения одной случайной величины
по конкретным значениям другой. Методы решения подобных
задач носят наименование регрессионный анализ.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

Предполагается, что Х – независимые переменные (факторы, объясняющие переменные) влияют на значения Y – зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным Математическая статистика требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X

Рассмотрим простой случай двух коррелированных случайных величин х и у. Линейная связь между двумя случайными величинами означает, что прогноз значения величины у по данному значению х имеет вид

где А и В – это соответственно отрезок оси ординат, отсекаемой прямой, и ее наклон. Если данные связаны идеальной линейной
зависимостью (функциональная или сильная связь – в других
терминах) Математическая статистика то предсказанное значение будет в точности равняться наблюденному значению при любом данном Однако на практике обычно отсутствует идеальная линейная зависимость между данными. Как правило, внешние случайные воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов. Тем не менее, если все же предположить существование линейной связи и наличие неограниченной выборки, то можно подобрать такие значения А и В, которые дадут возможность предсказать ожидаемое значение для любого данного Математическая статистика . Это означает, что не обязательно совпадает с наблюдаемым значением , соответствующим данному однако оно будет равно среднему значению всех таких наблюдаемых значений.

Метод наименьших квадратов

Общепринятая процедура определения коэффициентов уравнения состоит в выборе таких значений А и В, которые минимизируют сумму квадратов отклонений наблюдаемых значений от предсказанного значения у. Эта процедура называется методом наименьших квадратов. Поскольку отклонения наблюдаемых значений от предсказанных равны

то сумма квадратов отклонений имеет вид

Следовательно, наилучшее согласие в смысле наименьших квадратов обеспечивают значения А и В, для которых частные
производные равны нулю:

Частные производные по коэффициентам А и В, так как они являются не константами в общем смысле, а некоторыми переменными величинами.
На практике обычно имеется ограниченная выборка из N пар наблюдений значений х и у. Это означает, что уравнение Математическая статистика даст всего лишь оценки А и В; обозначим их через
а и b соответственно. Для отыскания минимума приравняем к
нулю частные производные:

Решая систему уравнений относительно оценок величин А и В, получим:

Оценки А и В можно также подсчитать по формулам:

или в обозначениях коэффициента корреляции и выборочных
дисперсий:

Эти значения можно использовать для построения регрессионной модели, позволяющей предсказывать неизвестное у по заданному х:

Прямая линия, задаваемая указанным уравнением называется прямой линейной регрессии у на х. Ясно, что коэффициенты а и b, определенные формулами, приведенными выше, являются случайными функциями, имеющими свои распределения. Следовательно, необходимо оценить, насколько точно (или по другому – какой разброс) значения а и b мы получим.

Доверительные интервалы

Для анализа экспериментальных данных часто рассчитываются значения числовых характеристик случайных величин.
Это способ служит для оценки параметров и дает их точечные
оценки. Числовые характеристики выборки не позволяют судить о степени близости к соответствующим параметрам генеральной совокупности, поскольку каждый вариант выборки дает свои значения параметров. Более содержательны процедуры оценивания параметров, связанные не с получением точечного
значения, а с построением интервала, который накрывает оцениваемый параметр с известной степенью достоверности.
Пусть, например, выборочное среднее арифметическое, вычисленное по n независимым наблюдениям случайной величины х, используется в качестве оценки среднего Математическая статистика

Обычно представляет интерес оценить Математическая статистика в терминах некоторого интервала , в который попадает с заданной степенью достоверности. Такие интервалы можно построить, если известны выборочные распределения рассматриваемой оценки.

Относительно значения выборочного среднего можно сделать следующее вероятностное утверждение:

где Ф(х) – стандартная функция распределения; где Математическая статистика – называется вероятностью ошибки, или уровнем значимости.

Обычно вероятность ошибки измеряется в пределах от 0,10 до 0,0001 или в процентах от 1 %, 5 % или 10 % .

Значение Математическая статистика – статистическая достоверность. S измеряют часто в процентах и говорят, например, о 95%-м доверительном интервале

По мере уменьшения Математическая статистика (увеличения интервала, заключенного между разумно считать, что вероятность Р скорее равна единице, чем нулю. Иначе говоря, если производится много выборок, и для каждой из них вычисляется , то можно ожидать, что она будет попадать в указанный интервал с относительной частотой, примерно равной Математическая статистика При таком подходе можно утверждать, что существует интервал, в который величина попадает с большой степенью достоверности. Такие утверждения называют доверительными. Интервал, относительно которого делается доверительное утверждение, называется доверительным интервалом. Степень доверия, сопоставляемая доверительному утверждению, называется уровнем доверия.

При оценивании среднего значения доверительный интервал для среднего Математическая статистика можно построить по выборочному значению x :

Если Математическая статистика — неизвестна, то доверительный интервал для
можно построить по выборочным значениям и s (среднеквадратичное отклонение для выборки). В этом случае
используется t-распределение Стьюдента:

где n = N-1 — степени свободы для распределения Стьюдента, N — выборка. Интервалам соответствует уровень доверия Математическая статистика

Точность оценки параметров линии регрессии

Точность оценок параметров а, b и значения предсказанной
функции Математическая статистика мы определим в предположении о нормальности
распределения y при данном значении х (рис. 26).

Выборочные распределения указанных параметров связаны с
t-распределением соотношениями:

Распределение Математическая статистика при конкретном значении представляет особый интерес ( — значение, вычисленное по уравнению регрессии, — оценочное интервальное значение):

Значение будет определять границы интервала для заданного
значения Математическая статистика В формулах величина — выборочное стандартное
отклонение наблюдаемого значения от предсказанного равное:

Множественный регрессионный анализ

Цель: используя множественную регрессионную модель, научиться строить регрессионную зависимость.

Общее назначение множественной регрессии (этот термин был впервые использован в работе К. Пирсона – Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан.

Например, могло бы оказаться, что число спальных комнат
является лучшим предсказывающим фактором (предиктором)
для цены продажи дома в некотором специфическом районе,
чем «привлекательность» дома (субъективная оценка). Могли бы
также обнаружиться и «выбросы», т.е. дома, которые могли бы
быть проданы дороже, учитывая их расположение и
характеристики.

Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в
исследованиях. В общем, множественная регрессия позволяет
исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшей посылкой для…». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими условиями успешной учебы в средней школе. А психолога мог бы заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.

Заметим, что термин «множественная» указывает на наличие
нескольких предикторов или регрессоров, которые используются в модели.

Множественная корреляция имеет второе название —множественное предсказание. Цель множественного
предсказания — оценивание зависимой переменной Y по
линейной (или нелинейной) комбинации m независимых
переменных Математическая статистика

Термин »множественная регрессия» объясняется тем, что
анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков.

Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1). Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и
необходимо учитывать влияние нескольких факторов.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Различие линейных и нелинейных регрессий

Линейная регрессия описывается уравнением:

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но линейных по оцениваемым параметрам:

полиномы разных степеней

равносторонняя гипербола

Примеры нелинейных регрессий, по оцениваемым параметрам:

степенная
показательная
экспоненциальная

Наиболее часто применяются следующие модели регрессий:

прямой
гиперболы
параболы
показательной функции
степенной функции

Чаще всего исследователи ограничиваются линейной
регрессией, т.е. зависимостью вида:

где Y – результирующий признак; Математическая статистика – факторные
признаки; – коэффициенты регрессии; а – свободный
член уравнения; – »ошибка» модели.

Это уравнение представляет собой многомерное предсказание переменной Y по аналогии с одномерным случаем.
Уравнение (1) называется линейным, поскольку b-коэффициенты входят туда в первой степени. Уравнение (1) само по себе не представляет особой ценности; должна быть установлена процедура, посредством которой для Математическая статистика выбирают “хорошие” (близкие к достоверным, наиболее вероятные) значения.

Как и в случае парной регрессии, построение уравнения
множественной регрессии осуществляется в два этапа:

определение модели;
оценка параметров выбранной модели.

Определение модели включает в себя решение двух задач:
1) отбор p факторов Математическая статистика наиболее влияющих на величину y;
2) выбор вида уравнения регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

1) Факторы, включаемые во множественную регрессию,
должны отвечать следующим требованиям.
2) Факторы должны быть количественными. Добавление
в модель качественного фактора, требует присвоения ему количественного значения (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости недвижимости районам присваиваются ранги).

3) Число включаемых факторов должно быть в 6–7 раз меньше объема совокупности, по которой строится регрессия. Факторы не должны быть взаимозависимы. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат, и параметры уравнения регрессии не будут адекватно интерпретироваться.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором из р факторов, то для нее рассчитывается показатель детерминации Математическая статистика , который фиксирует долю
объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как Математическая статистика с соответствующей остаточной дисперсией

При дополнительном включении в регрессию (р + 1) – фактора Математическая статистика коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться, т. е.

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хp+1 не улучшает модель и является лишним. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.

Отбор факторов производится на основе качественного анализа и обычно осуществляется в две стадии:

на первой подбираются факторы исходя из сущности проблемы;
на второй – на основе матрицы показателей корреляции оп-
ределяют t-статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными позволяют исключать из модели дублирующие факторы. Считается, что две переменные находятся между собой в линейной зависимости, если Математическая статистика

Если факторы явно коллинеарны, то они дублируют друг друга и один из них нужно исключить из регрессии. Предпочтение отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пусть, например, при изучении зависимости y = f (х, z, v)
матрица парных коэффициентов корреляции оказалась следую-
щей:

Очевидно, что факторы q и z дублируют друг друга, поскольку связь между ними Математическая статистика В анализ целесообразно включить фактор z, а не q, поскольку корреляция z с результатом у сильнее, чем корреляция фактора q и у, и слабее межфакторная корреляция между z и Математическая статистика Поэтому в данном случае в уравнение множественной регрессии включаются факторы z и x.

Выбор формы уравнения регрессии

Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.
В уравнении линейной множественной регрессии

параметры при хi называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

Предположим, например, что зависимость расходов на
продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц, тыс. руб.;
Математическая статистика – месячный доход на одного члена семьи, тыс. руб.;
– размер семьи, человек;
– коммунальные платежи на одного члена семьи, тыс. руб.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 330 руб. при том же среднем размере семьи. Иными словами, 33 % дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на 420 руб. Увеличение коммунальных платежей при тех же ее доходах предполагает дополнительный рост расходов на 250 руб.

Оценка параметров уравнения множественной регрессии
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений регрессии (и нелинейных уравнений, приводимых к линейным) строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии. В случае линейной множественной регрессии

система нормальных уравнений имеет следующий вид:

Для определения значимости факторов и повышения точности результата используется уравнение множественной регрессии в стандартизованном масштабе:

где Математическая статистика – стандартизованные переменные, рассчитываемые по формулам:

для которых среднее значение равно нулю Математическая статистика а среднее
квадратическое отклонение равно единице

Величины βi называются стандартизованными коэффициентами регрессии. К уравнению множественной регрессии в
стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии (β-коэффициенты) определяются
из следующей системы уравнений:

либо из системы уравнений

Стандартизованные коэффициенты регрессии показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии βi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

В парной зависимости стандартизованный коэффициент
регрессии β есть не что иное, как линейный коэффициент корреляции ryx.

Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами βi описывается соотношением

Параметр а определяется из соотношения:

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле

и показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов.

Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар относительно
отечественного его производства Математическая статистика , изменения запасов и потребления на внутреннем рынке оказалась следующей

При этом средние значения для рассматриваемых признаков составили:

На основе данной информации могут быть найдены средние по совокупности показатели эластичности. Для данного примера они окажутся равными:

1) С ростом величины отечественного производства на 1 % размер импорта в среднем по совокупности регионов возрастет на 1,06 % при неизменных запасах и потреблении семей; 2) с ростом изменения запасов на 1 % при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на
0,056 %; 3) при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1 % импорт товара возрастает в среднем по совокупности регионов на 1,987 %.

Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара Математическая статистика , а наименьшее – изменение запасов

Дополнительные лекции:

Математическая статистика

Статистический материал и его обработка

Числовые характеристики законов распределения эмпирических величии

Статистическая проверка гипотез

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона

Элементы теории регрессионного и корреляционного анализа

Задачи с решением

Задача № 1

Задача № 2

Задача № 3

Задача № 4

Задача № 5

Задача № 6

Задача № 7

Задача № 8

Задача № 9

Задача № 10

Задача № 11

Задача № 12

Примеры решения задач по всем темам математической статистики

Основные понятия и задачи математической статистики

Выборочные распределения

Генеральной совокупностью случайной величины

Группирование данных, гистограмма, полигон

Пример № 1

Статистическая (эмпирическая) функция распределения

Пример № 2

Пример № 3

Выборочные значения и оценка параметров

Требования «хороших оценок»

Интервальное оценивание

Интервальная оценка математического ожидания при известной дисперсии

Интервальная оценка математического ожидания при неизвестной дисперсии

Интервальная оценка выборочной дисперсии

Пример № 4

Статистические критерии

Проверка гипотез

Ошибки проверки гипотез

Пример № 5

Математическая статистика основные определения и вычисления

Основные понятия математической статистики

Выборочные ряды распределения

Группировка статистических данных. Определение статистических (выборочных) распределений

Геометрическая интерпретация статистических распределений выборки

Теоретико-вероятностные аналоги статистических распределений

Сводные числовые характеристики выборки

Понятие об аппроксимации распределений

Совместные распределения случайных величин

Понятие о корреляции и регрессии

Нахождение уравнений выборочной регрессии методом наименьших квадратов

Математическая статистика — решение заданий и задач по всем темам с вычислением

Статистический материал и его обработка

Числовые характеристики законов распределения эмпирических величин

Построение теоретического закона распределения и его согласование с эмпирическими данными

Проверка гипотезы о нормальном распределении генеральной совокупности

Проверка гипотезы о распределении генеральной совокупности по биномиальному закону

Проверка гипотезы о распределении генеральной совокупности по закону Пуассона

Проверка гипотезы о распределении генеральной совокупности по показательному закону

Линейная корреляция случайных величин

Однофакторный дисперсионный анализ

Обработка результатов измерений (анализ данных)

Элементы математической статистики

Первичная обработка данных

Определение неизвестных параметров закона распределения

Проверка правдоподобия гипотез

Методы анализа статистических зависимостей

Основные задачи анализа статистических зависимостей

Дисперсионный анализ

Анализ существенности влияния (тесноты связи) количественных факторов на результаты наблюдений

Определение причинно-следственной зависимости между результатом и влияющими на него факторами

Математическая статистика и ее формулы и теоремы

Генеральная совокупность и выборка

Гистограмма. Статистическая функция распределения

Числовые характеристики выборочного распределения

Основные статистические распределения

Доверительные интервалы и доверительные пределы

Доверительный интервал для математического ожидания нормального распределения

Доверительный интервал для дисперсии нормального распределения

Определение закона распределения случайной величины

Исследование случайных зависимостей

Группировка статистических данных. Определение
статистических (выборочных) распределений