Для связи в whatsapp +905441085890

Статистические оценки с примерами решения и образцами выполнения

Статистическая оценка — это статистика, которая используется для оценивания неизвестных параметров распределений случайной величины.

Выборки и выборочные характеристики


Рассмотрим эксперимент Статистическая оценка, описание которого строится при помощи случайной величины Статистическая оценка, или, что то же самое, рассмотрим случайную величину Статистическая оценка, которую мы можем наблюдать в эксперименте Статистическая оценка. Это означает, что однократный эксперимент Статистическая оценка дает нам возможность определить одно из возможных значений случайной величины Статистическая оценка.

Пусть в результате n экспериментов П получен набор значений случайной величины Статистическая оценка

Статистическая оценка

Если случайная величина Статистическая оценка в процессе экспериментирования не менялась, если не менялись условия проведения эксперимента Статистическая оценка и все измерения значений случайной величины Статистическая оценка проводились независимо друг от друга, то говорят, что набор (1) образует выборку объема n из распределения случайной величины Статистическая оценка.

Заметим, что если сказано: некоторая совокупность из n чисел образует выборку, то при этом предполагается следующее:
а) эксперимент Статистическая оценка может быть проведен при неизменных условиях сколько угодно раз;
б) имеет место устойчивость частот, т. е. имеет смысл говорить о вероятности попадания вектора Статистическая оценка в некоторое наперед заданное множество А из множества всех возможных совокупностей (1) (обычно Статистическая оценка).

Предположение а) означает, что, говоря о выборке объема n, мы говорим не о n конкретных числах, а о целой матрице чисел

Статистическая оценка

где элемент Статистическая оценка — это значение случайной величины Статистическая оценка, полученное в i-м эксперименте Статистическая оценка, который проводился в j-й серии, Статистическая оценка. Таким образом, можно дать следующее (уточняющее) определение выборки: выборкой объема n из закона распределения случайной величины Статистическая оценка называется совокупность n штук независимых одинаково распределенных случайных величин, совпадающих с Статистическая оценка.

Пример:

Измеряется n однотипных деталей, изготовленных на одном станке. В результате получена совокупность чисел Статистическая оценка, которые образуют выборку из распределения случайной величины Статистическая оценка — размер изготовляемой на данном станке детали.

Пример:

Измеряется п однотипных деталей, изготовленных на различных станках. Получается совокупность чисел Статистическая оценка. Эти числа, вообще говоря, выборку не образуют, так как может, например, оказаться, что точность изготовления детали на различных станках различна и, следовательно, числа Статистическая оценка являются реализациями различных случайных величин.

Отметим некоторую неоднозначность термина «выборка». Иногда под выборкой объема n понимают и конкретный набор n чисел, полученных в результате серии из n экспериментов. Но обычно бывает ясно, в каком смысле говорится о выборке. Скажем, если найдено среднее арифметическое по выборке и оно равно 5,

Статистическая оценка

то здесь под выборкой понимается конкретный набор чисел. Если же обсуждаются свойства величины

Статистическая оценка

то под выборкой понимается любой возможный набор значений случайной величины Статистическая оценка, т. е. совокупность n штук независимых случайных величин.

Первой статистической задачей, которую мы рассмотрим, будет задача нахождения функции распределения и числовых характеристик случайной величины Статистическая оценка по выборке, полученной в результате эксперимента.

Пусть дана выборка (1) из закона распределения Статистическая оценка случайной величины Статистическая оценка. Требуется определить функцию распределения Статистическая оценка случайной величины Статистическая оценка и ее моменты.

Рассмотрим дискретную случайную величину Статистическая оценка, принимающую значения Статистическая оценкаСтатистическая оценка, каждое с вероятностью 1/n.

Эмпирической функцией распределения случайной величины Статистическая оценка называется функция распределения случайной величины Статистическая оценка

Статистическая оценка

Эмпирическая (или выборочная) функция распределения является случайной величиной, так как она определяется по выборке (1) и зависит от того, какой конкретно набор чисел получен в данной серии из n экспериментов Статистическая оценка. Оказывается, что если последовательность Статистическая оценка достаточно длинная, то эмпирическая функция распределения будет очень похожей на теоретическую функцию Статистическая оценка для большинства из возможных наборов чисел Статистическая оценка. Точнее, имеет место

Теорема Гливенко—Кантелли:

Пусть Статистическая оценка — теоретическая функция распределения случайной величины Статистическая оценка — эмпирическая. Тогда для произвольного значения Статистическая оценка

Статистическая оценка

◄ Фиксируем некоторое число х и рассмотрим случайные величины

Статистическая оценка

Заметим, что ряд распределения случайных величин Статистическая оценка имеет вид

Статистическая оценка

Все Статистическая оценка — одинаково распределенные случайные величины с указанным рядом распределения и конечным математическим ожиданием

Статистическая оценка

Применяя к последовательности случайных величин £(х) закон больших чисел в форме Хинчина, получаем

Статистическая оценка

откуда следует утверждение теоремы. ►

Теорема позволяет сделать вывод: эмпирическая функция распределения, построенная по выборке объема n, тем более похожа на Статистическая оценка, чем больше n — объем выборки.

Этот вывод не является достоверным, а, как утверждает теорема, носит вероятностный характер — вероятность отклонений Статистическая оценка при Статистическая оценка очень мала — как бы ни была велика выборка, всегда существует возможность получить Статистическая оценка, значительно отличающуюся от Статистическая оценка. Однако при достаточно больших п этой возможностью можно пренебречь. Обратимся к поясняющему примеру.

Пример:

Рассмотрим массовое производство некоторых однотипных изделий, изготавливаемых в неизменных условиях. Пусть случайная величина Статистическая оценка принимает значение 1, если изготовленное изделий доброкачественно, и 0 в противном случае. Отобрано n изделий и среди них оказалось Статистическая оценка дефектных. Оценить функцию распределения случайной величины Статистическая оценка.

◄ Случайная величина Статистическая оценка дискретна и задача оценки ее функции распределения есть попросту задача оценки вероятности Статистическая оценка, т. е. вероятности получить дефектное изделие. Теорема Гливенко— Кантелли в этом случае говорит, что оценкой вероятности Статистическая оценка может служить частота появления дефектных изделий в рассматриваемой выборке

Статистическая оценка

Совершенно ясно, что если нам попалась «хорошая» выборка (которая содержит такой же процент брака, как и вся контролируемая партия), то заменяя неизвестную вероятность Статистическая оценка частотой Статистическая оценка мы ошибемся мало. Если получена «плохая» выборка, то при подобной замене можно допустить ошибку. Однако «плохие» выборки будут попадаться тем реже, чем больше объем рассматриваемой выборки и, следовательно, ошибаться мы также будем редко. Пусть n — 10, Статистическая оценка = 2 и истинная вероятность Статистическая оценкаМы же, изучая нашу выборку, положим Статистическая оценка. Вероятность встретить выборку, давшую основание для подобной оценки, будет

Статистическая оценка

т. е. примерно 12 выборок из 100 в данной ситуации будут плохими Если же заключение о том, что Р = 0,2, мы сделали по выборке n = 25, Статистическая оценка = 5, то вероятность встретить плохую выборку

Статистическая оценка

Для выборки n = 100, Статистическая оценка = 20 эта вероятность

Статистическая оценка

т. е. лишь в двух случаях из 100 000 мы получаем в эксперименте выборку, дающую основание для ложной оценки искомой вероятности. ►

Поскольку вся информация о случайной величине Статистическая оценка может быть получена при изучении ее функции распределения, а функции распределения случайных величин Статистическая оценка и Статистическая оценка оказались похожи, то следует ожидать, что аналогичная картина будет иметь место и для прочих характеристик случайной величины Статистическая оценка. Таким образом, наблюдаемая в эксперименте случайная величинаСтатистическая оценка служит своего рода «тенью» изучаемой случайной величины Статистическая оценка. В дальнейшем мы будем называть ее эмпирическим, или выборочным, аналогом случайной величины Статистическая оценка, а все характеристики величины Статистическая оценкабудем именовать эмпирическими, или выборочными, характеристиками случайной величины Статистическая оценка. Так функция распределения случайной величины Статистическая оценка называется эмпирической (выборочной) функцией распределения случайной величины Статистическая оценка, математическое ожидание Статистическая оценка — эмпирическим математическим ожиданием Статистическая оценка, дисперсия Статистическая оценка — эмпирической дисперсией Статистическая оценка и вообще: эмпирическими (выборочными) моментами случайной величины Статистическая оценка будем называть соответственно моменты случайной величины Статистическая оценка.

Эмпирические моменты будем обозначать той же буквой, что и соответствующие теоретические с добавлением вверху звездочки. Тогда эмпирические начальные моменты случайной величины Статистическая оценка определяются формулой

Статистическая оценка

а эмпирические центральные моменты —

Статистическая оценка

Для первого эмпирического начального момента (среднего значения) обычно используется обозначение

Статистическая оценка

а для второго эмпирического центрального момента и среднеквадратичного отклонения обычно используют обозначения

Статистическая оценка

Ими мы и будем пользоваться в дальнейшем.

Имеют место следующие утверждения.

Теорема:

Если n достаточно велико, то начальные эмпирические моменты мало отличаются от соответствующих теоретических, точнее

Статистическая оценка

◄ Пусть k — фиксировано. Рассмотрим последовательность случайных величин

Статистическая оценка

Поскольку все Статистическая оценка — одинаковые независимые случайные величины, совпадающие со случайной величиной Статистическая оценка, то

Статистическая оценка

Отсюда и из соотношения (3) следует равенство

Статистическая оценка

Применяя к последовательности случайных величин Статистическая оценка закон больших чисел в форме Хинчина, получаем, что

Статистическая оценка

что и требовалось. ►

В теореме, конечно, предполагается, что соответствующие теоретические моменты существуют.

Столь же легко может быть доказана и теорема о близости эмпирических центральных моментов к соответствующим теоретическим.

Теорема:

Если n достаточно велико, то центральные эмпирические моменты мало отличаются от соответствующих теоретических, точнее

Статистическая оценка

Пусть теперь в эксперименте наблюдается несколько случайных величин (случайный вектор) , Статистическая оценка

Выборкой объема n из закона распределения случайного вектора Статистическая оценка будем называть n реализаций (измерений) случайной величины Статистическая оценка

Статистическая оценка

полученных в n независимых экспериментах.

Как и для случая одномерной случайной величины, выборка — это n штук независимых одинаково распределенных векторов. Отметим, что реализацией случайного вектора будет упорядоченный набор l чисел

Статистическая оценка

Известно, что важной характеристикой векторной случайной величины является ее ковариационная матрица

Статистическая оценка

элементы которой — ковариации компонент Статистическая оценка. Ее эмпирический аналог (т. е. ковариационная матрица выборочного вектора Статистическая оценка, принимающего значение Статистическая оценка с вероятностью 1/n) называется эмпирической ковариационной матрицей вектора Статистическая оценка

Как следует из вышеизложенного, ее компоненты могут быть найдены по формулам

Статистическая оценка

В частности, из соотношения (8) с учетом выражения для эмпирического среднеквадратичного отклонения (7) получаем соотношение для расчета эмпирического коэффициента корреляции пары случайных величинСтатистическая оценка

Статистическая оценка

здесь Статистическая оценка — выборка из двумерного распределения случайных величин Статистическая оценка — эмпирические средние случайных величин Статистическая оценка соответственно. Соотношение (9) может быть переписано в эквивалентной форме

Статистическая оценка

Как и выше, можно доказать теоремы о близости в подавляющем большинстве случаев эмпирических характеристик многомерной случайной величины к соответствующим характеристикам вектора Статистическая оценка Эти теоремы позволяют высказать более или менее правдоподобное суждение о числовых характеристиках случайной величины Статистическая оценка по выборке (1). Конечно, заменяя истинные числовых характеристики эмпирическими, можно ошибиться. Однако, как и в случае с функцией распределения, мы хотим надеяться, что «плохие» выборки будут встречаться редко и что в подавляющем большинстве случаев эмпирические моменты будут мало отличаться от теоретических. Хотелось бы научиться оценивать достоверность наших суждений о рассмотренных выше характеристиках случайной величины Статистическая оценка поточнее. Этим мы займемся позднее, а сейчас попробуем несколько расширить наши представления о случайной величине Статистическая оценка, составленные по выборке.

Параметры распределений. Точечное оценивание

Пусть в эксперименте Статистическая оценка изучается случайная величина Статистическая оценка с законом распределения Статистическая оценка, зависящим от некоторых параметров Статистическая оценка

Например, если случайная величина Статистическая оценка — нормальная, то ее закон распределения зависит от двух параметров — Статистическая оценка, если Статистическая оценка — равномерная на промежутке [а, b], то параметрами закона распределения являются концы а и b, и т. д.

Пусть Статистическая оценка — один из подобных параметров. Попробуем по выборке, полученной в результате эксперимента, высказать некоторое суждение о возможных значениях параметра Статистическая оценка.

Для этого сначала следует указать способ вычисления величины Статистическая оценка по выборке

Статистическая оценка

т. е. функцию b от n векторных переменных такую, что

Статистическая оценка

а потом пояснить, как в соотношении (12) понимать знак приближенного равенства.

Пусть, к примеру, Статистическая оценка — это математическое ожидание случайной величины Статистическая оценка. Тогда, как показано в предыдущем параграфе, в качестве функции b можно взять среднее арифметическое наблюденных значений и при этом понимать равенство в соотношении (12) как «равенство в большинстве случаев», т. е. вероятность больших отличий левой части от правой мала.

Формализуя вышеизложенное, скажем, что оценкой неизвестного параметра Статистическая оценка будем называть функцию Статистическая оценка от наблюденных значений такую, чтоСтатистическая оценка.

Ясно, что нас будут интересовать не любые оценки параметра Статистическая оценка, а только те, которые в некотором смысле на него похожи. Критериев «похожести», т. е. интерпретаций приближенного равенства в соотношении (12), существует много. Мы рассмотрим здесь наиболее употребительные.

Оценка Статистическая оценка называется состоятельной оценкой неизвестного параметра Статистическая оценка, если вероятность отклонений Статистическая оценка от Статистическая оценка становится малой с ростом n

Статистическая оценка

В соответствии с этим определением (как следует из теорем 1 и 2) эмпирические моменты являются состоятельными оценками соответствующих теоретических моментов. Состоятельность — это «похожесть в большинстве случаев».

Оценка Статистическая оценка называется несмещенной оценкой параметра Статистическая оценка, если

Статистическая оценка

Несмещенность оценки есть ее похожесть на оцениваемый параметр «в среднем», т. е., если мы обладаем несколькими выборками

Статистическая оценка

и по каждой из них найдем оценку Статистическая оценка, то эти числа будут одинаково часто как превышать истинное значение оцениваемого параметра Статистическая оценка, так и не превосходить его, т. е. отклонение оценки от оцениваемого параметра в случае несмещенности оценки носит несистематический характер.

Пример:

Эмпирическая оценка математического ожидания является несмещенной оценкой

Статистическая оценкаМы хотим доказать, что

Статистическая оценка

Рассмотрим

Статистическая оценка

Так как Статистическая оценка — независимые в совокупности случайные величины, каждая из которых совпадает с Статистическая оценка, то Статистическая оценка и мы получаем

Статистическая оценка

Пример:

Эмпирическая оценка дисперсии

Статистическая оценка

не обладает свойством несмещенности.

Статистическая оценка Действительно

Статистическая оценка

Поэтому

Статистическая оценка

Несмещенную оценку дисперсии можно легко построить. Как показано выше,

Статистическая оценка

Поэтому

Статистическая оценка

и, следовательно, исправленная величина Статистическая оценка, определяемая соотношением

Статистическая оценка

есть несмещенная оценка дисперсии.

С практической точки зрения свойство состоятельности очень важно — его наличие позволяет надеяться, что с увеличением объема выборки точность оценивания будет расти (конечно, только в подавляющем большинстве случаев). Несмещенность же играет менее важную роль. Если оценка является несмещенной, то это свидетельствует об отсутствии систематической ошибки в оценивании неизвестного параметра. Указанное обстоятельство становится важным в случае малых выборок, когда оценки могут быть далеки от оцениваемого параметра и наличие систематической погрешности оценивания только ухудшает точность оценивания. В случае больших выборок смещение оценки (при наличии состоятельности!) на точность оценивания существенного влияния не оказывает.

Важно также понимать, что вышеизложенное имеет смысл только если выполнены условия применимости законов больших чисел, на выводах из которых базируются наши заключения. Важнейшим из подобных условий является существование математического ожидания исследуемой случайной величины Статистическая оценка.

Рассмотрим некоторые методы нахождения оценок неизвестных параметров распределения, сделав дополнительное предположение, а именно: пусть вид функции распределения случайной величины Статистическая оценка известен

Статистическая оценка

Итак, в результате эксперимента получена выборка объема n. Требуется по выборке найти оценки неизвестных параметров Статистическая оценка

Метод моментов

Идея метода моментов состоит в приравнивании эмпирических моментов, найденных по выборке, соответствующим теоретическим, которые зависят от неизвестных параметров Статистическая оценка

Статистическая оценка

Система (15) позволяет выразить неизвестные параметры Статистическая оценка через выборочные значения Статистическая оценка

Статистическая оценка

Функции Статистическая оценка и считаются оценками параметров Статистическая оценка. Близость оценок, найденных по методу моментов, к истинным значениям оцениваемых параметров описывается следующей теоремой.

Теорема:

Пусть решение системы (15) существует, причем функции

Статистическая оценка

непрерывны в точке Статистическая оценка. Тогда оценки, полученные по методу моментов, состоятельны.

Оценки, полученные по методу моментов, необязательно являются несмещенными. Однако, если наложить на функции Статистическая оценка некоторые дополнительные ограничения, то можно получить утверждение, касающееся асимптотической несмещенности оценок, найденных методом моментов

Статистическая оценка

т. е. смещение оценки с ростом объема выборки убывает.

На практике метод моментов приводит к относительно простым вычислениям и, как следует из теоремы, позволяет находить состоятельные оценки параметров. Смещение этих оценок для больших выборок несущественно (16). Кроме того, во всех практически важных случаях это смещение легко устраняется с помощью простых поправок.

Пример:

Известно, что случайная величина Статистическая оценка равномерно распределена на отрезке Статистическая оценка. Получена выборка объема n из распределения случайной величины Статистическая оценка. Оценить величины Статистическая оценка

◄ Произведем оценку неизвестных параметров Статистическая оценка, пользуясь методом моментов. Имеем

Статистическая оценка

Система (15) в данном случае принимает вид

Статистическая оценка

Решая ее относительно Статистическая оценка, получаем

Статистическая оценка

Учитывая, что Статистическая оценка, заключаем, что наша система всегда имеет решение и притом единственное. Полученные оценки состоятельны, однако свойством несмещенности не обладают. ►

Пример:

Оценить по выборке параметр Статистическая оценка экспоненциально распределенной случайной величины Статистическая оценка.

◄ Функция распределения случайной величины Статистическая оценка имеет вид

Статистическая оценка

Следовательно,

Статистическая оценка

Система (15) сводится к одному уравнению

Статистическая оценка

откуда

Статистическая оценка

Полученная оценка состоятельна. Что касается несмещенности, то поскольку Статистическая оценка экспоненциально распределены, то Статистическая оценка имеет гамма-распределение с плотностью

Статистическая оценка

и поэтому

Статистическая оценка

Следовательно, оценка (17) свойством несмещенности не обладает, так как

Статистическая оценка

Однако, используя соотношение (18), легко можно получить несмещенную оценку параметра Статистическая оценка

Статистическая оценка

Метод максимального правдоподобия

Пусть Статистическая оценка — непрерывная случайная величина с плотностью

Статистическая оценка

Вид плотности известен, но неизвестны значения параметров Статистическая оценка

Функцией правдоподобия называется функция

Статистическая оценка

(здесь Статистическая оценка — выборка объема n из распределения случайной величины Статистическая оценка). Легко видеть, что функции правдоподобия можно придать вероятностный смысл, а именно: рассмотрим случайный вектор Статистическая оценка, компоненты которого независимые в совокупности одинаково распределенные случайные величины с законом Статистическая оценка. Тогда элемент вероятности вектора Статистическая оценка имеет вид

Статистическая оценка

т. е. функция правдоподобия связана с вероятностью получения фиксированной выборки в последовательности экспериментов Статистическая оценка.

Основная идея метода правдоподобия состоит в том, что в качестве оценок параметров Статистическая оценка предлагается взять такие значения Статистическая оценка, которые доставляют максимум функции правдоподобия при данной фиксированной выборке, т. е. предлагается считать выборку, полученную в эксперименте, наиболее вероятной. Нахождение оценок параметров Статистическая оценка сводится к решению системы k уравнений (k — число неизвестных параметров):

Статистическая оценка

Поскольку функция log L имеет максимум в той же точке, что и функция правдоподобия, то часто систему уравнений правдоподобия (19) записывают в виде

Статистическая оценка

В качестве оценок неизвестных параметров Статистическая оценка следует брать решения системы (19) или (20), действительно зависящие от выборки и не являющиеся постоянными.

В случае, когда Статистическая оценка дискретна с рядом распределения Статистическая оценкаСтатистическая оценка функцией правдоподобия называют функцию

Статистическая оценка

и оценки ищут как решения системы

Статистическая оценка

или эквивалентной ей

Статистическая оценка

Можно показать, что оценки максимального правдоподобия обладают свойством состоятельности. Следует отметить, что метод максимального правдоподобия приводит к более сложным вычислениям, нежели метод моментов, но теоретически он белее эффективен, так как оценки максимального правдоподобия меньше уклоняются от истинных значений оцениваемых параметров, чем оценки, полученные по методу моментов.

Для наиболее часто встречающихся в приложениях распределений оценки параметров, полученные по методу моментов и по методу максимального правдоподобия, в большинстве случаев совпадают.

Пример:

Отклонение Статистическая оценка размера детали от номинала является нормально распределенной случайной величиной. Требуется по выборке определить систематическую ошибку и дисперсию отклонения.

Статистическая оценкаПо условию Статистическая оценка — нормально распределенная случайная величина с математическим ожиданием (систематическая ошибка) и дисперсией, подлежащими оценке по выборке объема Статистическая оценка В этом случае

Статистическая оценка

Функция правдоподобия

Статистическая оценка

Система (19) имеет вид

Статистическая оценка

Отсюда, исключая решения, не зависящие от Статистическая оценка, получаем

Статистическая оценка

т е. оценки максимального правдоподобия в этом случае совпадают с уже известными нам эмпирическими средним и дисперсией ►

Пример:

Оценить по выборке параметр Статистическая оценка экспоненциально распределенной случайной величины.

Статистическая оценка Функция правдоподобия имеет вид

Статистическая оценка

Уравнение правдоподобия

Статистическая оценка

приводит нас к решению

Статистическая оценка

совпадающему с оценкой этого же параметра, полученной по методу моментов, см. (17). ►

Пример:

Пользуясь методом максимального правдоподобия, оценить вероятность появления герба, если при десяти бросаниях монеты герб появился 8 раз.

Статистическая оценка Пусть подлежащая оценке вероятность равна р. Рассмотрим случайную величину Статистическая оценка с рядом распределения

Статистическая оценка

Функция правдоподобия (21) имеет вид

Статистическая оценка

так как

Статистическая оценка

Уравнение правдоподобия

Статистическая оценка

дает в качестве оценки неизвестной вероятности р частоту появления герба в эксперименте

Статистическая оценка

Заканчивая обсуждение методов нахождения оценок, подчеркнем, что, даже имея очень большой объем экспериментальных данных, мы все равно не можем указать точного значения оцениваемого параметра, более того, как уже неоднократно отмечалось, получаемые нами оценки близки к истинным значениям оцениваемых параметров только «в среднем» или «в большинстве случаев». Поэтому важной статистической задачей, которую мы рассмотрим далее, является задача определения точности и Достоверности проводимого нами оценивания.

Интервальное оценивание

Результаты предыдущего параграфа позволяют по выборке определить оценку неизвестного параметра Статистическая оценка-распределения Статистическая оценка. Эти оценки носят точечный характер — они указывают число, в некотором смысле похожее на оцениваемый параметр, другими словами, они позволяют определить точку Статистическая оценка, находящуюся в большей или меньшей близости к истинному значению оцениваемого параметра (рис. 1).

Статистическая оценка

Пусть нам удалось построить две функции Статистическая оценка, удовлетворяющие условию

Статистическая оценка

для любых значений Статистическая оценка. Рассмотрим на числовой оси промежутокСтатистическая оценка. Его концы Статистическая оценка зависят от выборочных значений и, следовательно, являются случайными величинами. Вследствие этого промежуток Статистическая оценка также является случайным в том смысле, что его длина и положение на числовой прямой зависят от выборки Статистическая оценка. Истинное значение параметра Статистическая оценка — неслучайное число и его положение на числовой оси фиксировано. Поэтому для некоторых выборок случайный интервал Статистическая оценка будет накрывать числоСтатистическая оценка, а для некоторых не будет. Если нам удается подобрать функции Статистическая оценка так, что случайный интервал Статистическая оценка «часто» накрывает истинное значение неизвестного параметра Статистическая оценка, то мы можем в качестве оценки этого параметра взять любую точку интервала Статистическая оценка. При этом можно утверждать, что «довольно часто» наша оценка отличается от оцениваемого параметра не более чем на длину интервалаСтатистическая оценка.

Введем новое понятие, формализующее выше приведенные рассуждения.

Доверительным интервалом для параметра Статистическая оценка называется случайный интервал Статистическая оценка такой, что

Статистическая оценка

Число х при этом называется уровнем доверия или доверительной вероятностью.

Выбор числа х — уровня доверия — зависит от того, что мы понимаем под словами «довольно часто», и от того, какой точности в определении параметра /3 мы хотим достичь. Поскольку добиться абсолютной достоверности (чтобы ошибка не превышала длины интервала всегда) мы не можем, то поступимся достоверностью, чтобы получить нетривиальную информацию о точности. Выбирая х очень маленьким, мы, конечно, можем добиться того, чтобы длина интервала Статистическая оценка была сколь угодно малой, однако в этом случае (из-за малости х и неравенства (24)) мы крайне редко будем получать доверительный интервал, накрывающий истинное значение параметра Статистическая оценка, т. е. найденные нами по конкретным выборкам интервалы будут ненадежны. Выбор же х очень близкого к единице, неоправданно расширяет границы доверительного интервала и тем самым понижает точность определения параметра Статистическая оценка. Поскольку чаще всего нас интересует вопрос, как сильно мы можем ошибиться, заменяя истинное значение параметра Статистическая оценка его оценкой Статистическая оценка, то обычно доверительную вероятность х выбирают настолько близкой к единице, чтобы с событиями, вероятность которых меньше, чем 1-х, можно было практически не считаться. Соответствующий этой вероятности доверительный интервал дает надежную (с вероятностью х) оценку отличия приближенного значения Статистическая оценка от неизвестного точного Статистическая оценка. На практике в качестве х в зависимости от конкретной ситуации выбирают одно из чисел — 0,9; 0,95; 0,99; 0,999.

Возвращаясь к задаче определения точности и достоверности оценки Статистическая оценка неизвестного параметра Статистическая оценка, отметим, что определить точность оценки — значит указать, как велика может быть разница

Статистическая оценка

Но в силу того, что Статистическая оценка — случайная величина, разность (25) — также случайная величина и может принимать любые значения, причем одни чаще, другие реже. Поэтому тесно связанной с определением точности является задача определения достоверности оценки, т. е. указания той доли случаев, когда величина Статистическая оценка не превосходит некоторой величины Статистическая оценка. Суммируя, получаем, что определить точность и достоверность оценки Статистическая оценка — значит указать числа Статистическая оценка и х такие, что

Статистическая оценка

т. е. задача определения точности и достоверности оценки Статистическая оценка — это задача построения доверительного интервала для параметра Статистическая оценка.

Заметим, что при Статистическая оценка доверительный интервал оказывается симметричным относительно точечной оценки Статистическая оценка.

Точность и надежность оценивания математического ожидания нормальной случайной величины

Пусть Статистическая оценка — нормальная случайная величина с параметрами Статистическая оценка — эмпирическая оценка параметра Статистическая оценка. Существенным для дальнейшего является вопрос о том, известна или нет дисперсия.

1. Пусть Статистическая оценкаа известна.

В силу нормальности Статистическая оценка отклонение оценки Статистическая оценка также является нормальной случайной величиной с параметрами

Статистическая оценка

При Статистическая оценка соотношение (26) примет вид

Статистическая оценка

Здесь Статистическая оценка — функция Лапласа. Таким образом, задача свелась к решению уравнения

Статистическая оценка

относительно Статистическая оценка при заданном уровне доверия x. Обозначим решение уравнения

Статистическая оценка

через Статистическая оценка. Тогда

Статистическая оценка

— решение уравнения (28). Искомый доверительный интервал —

Статистическая оценка

так что в х•100 % случаев неизвестное значение Статистическая оценка накрывается интервалом (30), т. е. точность в определении Статистическая оценка не превышает по модулю величины Статистическая оценка случаев. Правда, в (1 — х) • 100 % случаев найденное нами среднее арифметическое Статистическая оценка

может отличаться от Статистическая оценка на сколь угодно большую величину, однако за счет того, что события с вероятностью 1 — х практически невозможны, этим можно пренебречь.

Отметим, что соотношение (30) — точное, т. е. справедливо для любых объемов экспериментальных данных, в том числе и для малых выборок.

2. Пусть теперь Статистическая оценка неизвестна.

В этом случае рассуждения предыдущего пункта мы применить не можем, так как в соотношении (27) значение параметра а нам неизвестно, и мы получим одно уравнение с двумя неизвестными Статистическая оценка.

Рассмотрим величину

Статистическая оценка

Здесь s — исправленная оценка среднеквадратичного отклонения

Статистическая оценка

Отметим следующее, важное для дальнейшего, обстоятельство: случайные величины Статистическая оценка — статистически независимы.

◄ Действительно, случайный вектор

Статистическая оценка

имеет нррмальное распределение, при этом

Статистическая оценка

Откуда и следует искомое, так как независимость случайного вектора Статистическая оценка и разности Статистическая оценка влечет независимость случайных величин, являющихся их непрерывными функциями. ►

Для величины t, задаваемой соотношением (31), докажем теперь следующую теорему.

Теорема:

Случайная величина

Статистическая оценка

подчиняется распределению Стьюдента с n- 1 степенью свободы.

◄ Заметим, что

Статистическая оценка

Поэтому

Статистическая оценка

В соотношении (33) через Статистическая оценка обозначены независимые нормально распределенные случайные величины с параметрами Статистическая оценка

Статистическая оценка

Рассмотрим в n-мерном координатном пространстве Статистическая оценка гиперплоскость Статистическая оценка, задаваемую уравнением

Статистическая оценка

Сделаем поворот осей в Статистическая оценка таким образом, чтобы одна из новых координатных осей (для определенности последняя) была бы ортогональна плоскости Статистическая оценка. При этом Координаты Статистическая оценка, перейдут в Статистическая оценка и

Статистическая оценка

Поскольку Статистическая оценка — независимые нормально распределенные случайные величины с параметрами 0 и 1, то и Статистическая оценка также будут независимыми нормально распределенными случайными величинами с параметрами 0 и 1. Из условия ортогональности одной из новых осей плоскости Статистическая оценка вытекает, что соответствующая ей новая координата Статистическая оценка будет иметь вид

Статистическая оценка

и

Статистическая оценка

так как

Статистическая оценка

Учитывая независимость Статистическая оценка, заключаем, что t имеет распределение Стьюдента с n — 1 степенью свободы. ►

Возвратимся к определению доверительного интервала дляСтатистическая оценка ,

Статистическая оценка

Здесь Статистическая оценка — функция распределения Стьюдента. Последнее уравнение, используя свойство функции Статистическая оценка

Статистическая оценка

перепишем в виде

Статистическая оценка

Задавая уровень доверия х и обозначая решение уравнения

Статистическая оценка

через Статистическая оценка, получаем доверительные границы

Статистическая оценка

Заметим, что доверительные границы для математического ожидания в случае известной дисперсии Статистическая оценка имеют такой же вид. В соотношении (38) вместо среднеквадратического отклонения Статистическая оценка стоит оценка (32) среднеквадратического отклонения s, вместо Статистическая оценка — решения уравнения Статистическая оценка — стоит Статистическая оценка — решение уравнения Статистическая оценка Доверительные границы (38), вообще говоря, шире доверительных границ (30), что объясняется большей долей неопределенности при нахождении Статистическая оценка по выборке в случае, когда дисперсия неизвестна, по сравнению со случаем, когда дисперсия известна.

Как и в случае известной Статистическая оценка, интервал (38) — точный и может быть использован для оценивания математического ожидания по выборкам любого объема, в том числе и по малым выборкам.

Точность и надежность оценивания дисперсии
нормальной случайной величины

Пусть Статистическая оценка — нормальная случайная величина с параметрами Статистическая оценка, которые оцениваются по выборке объема n

Статистическая оценка

Величина Статистическая оценка нормальна с параметрами (0,1). Действительно, Статистическая оценка является линейной комбинацией нормальных величин Статистическая оценка

Статистическая оценка

с параметрами Статистическая оценка, а потому Статистическая оценка — нормальна. Далее, очевидно,Статистическая оценкаи

Статистическая оценка

Исправленная оценка дисперсии Статистическая оценка представляется в виде

Статистическая оценка

Можно установить, что величина Статистическая оценка имеет распределение Статистическая оценкас n — 1 степенью свободы, т. е. распределена как сумма квадратов n — 1 независимых нормальных (0,1) случайных величин, что дает возможность вычислять вероятности

Статистическая оценка
Статистическая оценка

Зададим некоторую вероятность Статистическая оценка, близкую к единице, и найдем числа Статистическая оценка такие, что

Статистическая оценка

(рис. 2). При этом для неизвестной дисперсии Статистическая оценка получим

Статистическая оценка

Числа Статистическая оценка легко определяются как решения уравнений

Статистическая оценка

Теперь в качестве точечной оценки неизвестной дисперсии можно взять любое число Статистическая оценка из промежутка (41) и с надежностью х точность такого оценивания будет не хуже, чем

Статистическая оценка

Для симметричной оценки,

Статистическая оценка

точность Статистическая оценка

Отметим, что если в качестве точечной оценки взять исправленную оценку дисперсии Статистическая оценка, то интервал (41) относительно этой оценки симметричным не будет.

Точность и надежность оценивания для негауссовских распределений

Результаты предыдущего параграфа позволяют найти точные доверительные интервалы для математического ожидания и дисперсии нормальной случайной величины, при условии ее нормальности. Если же случайная величина Статистическая оценка имеет произвольную функцию распределения, то это удается уже не всегда. Однако, если объем выборки достаточно велик, то можно указать приближенные доверительные интервалы границы для моментов случайной величины Статистическая оценка, используя следующее утверждение.

Теорема:

Пусть

Статистическая оценка

— эмпирическая оценка момента 8-го порядка случайной величины существование которого предполагается. Тогда случайная величина

Статистическая оценка

распределена асимптотически нормально с параметрами 0 и 1,

Статистическая оценка

Отсюда следует, что

Статистическая оценка

Задавая уровень доверия и и решая уравнение

Статистическая оценка

получаем значение Статистическая оценка такое, что

Статистическая оценка

с вероятностью Статистическая оценка. И, если известна Статистическая оценка, то соотношение (44) дает искомый доверительный интервал.

Замечание:

Нормальное распределение дает плохое приближение к истинному распределению суммы Статистическая оценка в области вероятностей очень малых или очень близких к единице. Поэтому доверительные интервалы (44) очень грубы уже при р > 0,999. В некоторых случаях удается оценить относительную ошибку, которая получается при замене истинного распределения суммы большого числа случайных величин нормальным распределением, и построить более точные интервалы.

Если же Статистическая оценка неизвестна, то обычно ее заменяют оценкой

Статистическая оценка

еще более снижая точность доверительного интервала (44).

Пример:

Построить доверительный интервал для математического ожидания нормальной случайной величины, если по выборке объема n = 21 построены оценки Статистическая оценка Уровень доверия х = 0,999.

Статистическая оценкаТочный доверительный интервал имеет вид

Статистическая оценка

где Статистическая оценка — решение уравнения

Статистическая оценка

В нашем случае n — 1 = 20, x = 0,999. По таблице распределения Стьюдента (см. ниже) определяем Статистическая оценка Искомый доверительный интервал имеет границы

Статистическая оценка
Статистическая оценка

Приближенный доверительный интервал с тем же уровнем доверия выглядит так:

Статистическая оценка

где Статистическая оценка — решение уравнения

Статистическая оценка

По таблице нормального распределения (см. с. 69) определяем Статистическая оценка = 3,3 и искомый доверительный интервал

Статистическая оценка

► Заметим, что точный доверительный интервал оказался более осторожным, чем приближенный. Этого и следовало ожидать.

С увеличением же объема выборки приближенный доверительный интервал становится более близок к точному. Действительно, пусть данные нашей задачи получены по выборке объема n = 50. Тогда Статистическая оценка В то же время, Статистическая оценка и разница между точным и приближенным доверительными интервалами уменьшилась.

Эффективность оценивания. Неравенство Рао—Крамера

При оценивании естественно считать дисперсию оценок мерилом того, насколько хороша или плоха принятая процедура. Если Статистическая оценка — случайная величина с законом распределения Статистическая оценка и для оценивания параметра Статистическая оценка мы имеем две различные процедуры Статистическая оценка с дисперсиями Статистическая оценка соответственно, то при Статистическая оценка оценка Статистическая оценка считается лучше оценки Статистическая оценка. Для больших выборок этот показатель не очень существен, ибо, как следует из полученных выше соотношений (30), (38) и (44), при Статистическая оценка точность оценивания убывает как Статистическая оценка и стремится к нулю независимо от Статистическая оценка

Однако для малых выборок вопрос о выборе наилучшей в указанном смысле оценки приобретает важное значение. Мы получим ответ на него при дополнительном предположении о несмещенности рассматриваемых оценок.

Пусть Статистическая оценка — случайная величина, плотность распределения которой Статистическая оценка зависит от одного параметра Статистическая оценка. Пусть, далее, Статистическая оценка оценивается по выборке объема n несмещенным образом

Статистическая оценка

И (см. п. 1.2.2.) функция правдоподобия выборки Статистическая оценка определяется соотношением

Статистическая оценка

Тогда имеет место утверждение

Теорема Неравенство Рао—Крамера:

Статистическая оценка

◄ Для сокращения записи положим

Статистическая оценка

И с учетом этих обозначений получим

Статистическая оценка

Первое из соотношений следует из того, что функция правдоподобия есть плотность распределения вектора Статистическая оценка выборочных значений Статистическая оценка, второе — из несмещенности оценки Статистическая оценка. Дифференцируя эти соотношения по Статистическая оценка и вычитая результаты дифференцирования, получаем

Статистическая оценка

или

Статистическая оценка

Из неравенства Коши—Буняковского для математических ожиданий заключаем, что

Статистическая оценка

чем доказательство и завершается. ►

Неравенство (46) при помощи несложных выкладок может быть переписано в несколько более удобном для практического использования виде. А именно, поскольку

Статистическая оценка

Функции Статистическая оценка независимы в силу независимости выборочных значений Статистическая оценка

Поєтому Статистическая оценка С учетом этого замечания

Статистическая оценка

и неравенство (46) принимает вид

Статистическая оценка

Пример:

В важном для приложений случае оценивания математического ожидания нормальной случайной величины Статистическая оценка получаем

Статистическая оценка

и (48) записывается в виде

Статистическая оценка

где Статистическая оценка. Заметим, что для эмпирической оценки математического ожидания Статистическая оценка выполняется

Статистическая оценка

и, следовательно, с рассматриваемой точки зрения эта оценка наилучшая.

Такие оценки в статистике называются эффективными.

Аналогичная теорема может быть доказана и для случая совместного оценивания нескольких неизвестных параметров распределения. Здесь мы ограничимся только формулировкой указанной теоремы.

Пусть, как и выше, Статистическая оценка — непрерывная случайная величина с плотностью Статистическая оценкаСтатистическая оценка, зависящей от вектора параметровСтатистическая оценка, несмещенная оценка которого дается соотношениями

Статистическая оценка

и Статистическая оценка — функция правдоподобия выборки Статистическая оценка

Пусть далее

Статистическая оценка

и

Статистическая оценка

— корреляционные матрицы вектора оценок Статистическая оценка и градиента логарифма функции правдоподобия, соответственно:

Статистическая оценка

Тогда, в предположении, что матрица I обратима, имеет место неравенство

Статистическая оценка

которое следует понимать как неотрицательную определенность матрицы Статистическая оценка, т. е. Статистическая оценка, выполняется неравенство

Статистическая оценка

Решение заданий и задач по предметам:

Дополнительные лекции по теории вероятностей:

  1. Случайные события и их вероятности
  2. Случайные величины
  3. Функции случайных величин
  4. Числовые характеристики случайных величин
  5. Законы больших чисел
  6. Статистическая проверка гипотез
  7. Статистическое исследование зависимостей
  8. Теории игр
  9. Вероятность события
  10. Теорема умножения вероятностей
  11. Формула полной вероятности
  12. Теорема о повторении опытов
  13. Нормальный закон распределения
  14. Определение законов распределения случайных величин на основе опытных данных
  15. Системы случайных величин
  16. Нормальный закон распределения для системы случайных величин
  17. Вероятностное пространство
  18. Классическое определение вероятности
  19. Геометрическая вероятность
  20. Условная вероятность
  21. Схема Бернулли
  22. Многомерные случайные величины
  23. Предельные теоремы теории вероятностей
  24. Оценки неизвестных параметров
  25. Генеральная совокупность