М инистерство образования Республики Беларусь БЕЛО РУССКА Я ГОСУДАРСТВЕННАЯ П О ЛИТЕХНИЧЕСКАЯ АКАДЕМ ИЯ Кафедра «Высш ая м атем атика № 3» В.В.Веременюк В.В.Кожушко О. А. Мороз СТА ТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРКИ ЗНА ЧЕН ИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ М и н с к 2002 Министерство образования Республики Беларусь БЕЛОРУССКАЯ ГОСУДАРСТВЕННАЯ ПОЛИТЕХНИЧЕСКАЯ АКАДЕМИЯ Кафедра «Высшая математика № 3» В.В.Веременюк В.В.Кожушко О.А.Мороз СТАТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРКИ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Учебно-методическое пособие к лабораторной работе по высшей математике для студентов строительных специальностей М и н с к 2002 В31 Рецензент Г.Л.Бахмат Веременюк В.В. В31 Статистическая обработка выборки значений случайной величи­ ны: Учеб.-метод. пособие по высшей математике для студ. строит, спец. / В.В.Веременюк, В.В.Коясушко, О.А.Мороз. - Мн.: БГПА, 2002. - 102 с. ISBN 985-6529-57-3. Учебно-методическое пособие содержит теоретический материал, необходимый для выполнения лабораторной работы «Статистиче­ ская обработка выборки значений случайной величины». 3-й и 4-й разделы издания содержат дополнительный материал из курса тео­ рии вероятностей. УДК 519.216 (075.8) ББК 22.1 я 7 ISBN 985-6529-57-3 © Веременюк В.В., Кожушко В.В., Мороз О.А., 2002 В в е д е н и е В повседневной жизни, технике, научных исследованиях, бизне­ се, иной профессиональной деятельности мы постоянно сталкива­ емся с событиями и явлениями с неопределенным исходом. Напри­ мер, торговец не знает, сколько посетителей придет к нему в мага­ зин, бизнесмен - какой будет завтра или через месяц курс доллара, студент, проводя какой-то эксперимент, не может в силу самых раз­ личных причин точно предсказать показание прибора и т.д. При этом нам постоянно приходится в подобных неопределенных, свя­ занных со многими случайностями ситуациях принимать решения, иногда очень важные. В быту или в несложном бизнесе мы можем принимать такие решения на основе здравого смысла, интуиции, предыдущего опы­ та. Здесь мы можем создать некий “запас прочности” на действие случая: скажем, выходить из дома на десять минут раньше, чтобы уже почти наверняка не опаздывать на работу, и т.п. Однако в важных научных исследованиях, серьезном бизнесе решения должны приниматься на основе тщательного анализа имеющейся информации, быть обоснованными и доказуемыми. Для решения задач, связанных с анализом данных при наличии случай­ ных и непредсказуемых воздействий, математиками и другими ис­ следователями (биологами, инженерами, экономистами и т.д.) за последние двести лет был выработан мощный и гибкий арсенал ме­ тодов, называемых в совокупности математической статистикой (а также прикладной статистикой, или анализом данных). Эти методы позволяют выявлять закономерности на фоне слу­ чайностей, делать обоснованные выводы и прогнозы, давать оценки вероятностей их выполнения или невыполнения. Цель работы: 1. Изучить основные понятия математической статистики, при­ менить их к анализу полученных данных. Как правило, результаты эксперимента получаются в виде ряда значений интересующего нас признака (обозначенного черезX): xvx2,...,xn . 2. Провести первичную обработку данных, по возможности, пред­ ставив их в наглядном виде, используя при этом методы описатель­ 3 ной статистики - группировки данных, их графического представле­ ния, вычисления различных показателей, описывающих положение данных на числовой оси, степень их разброса, симметрии и т.п. 3. Изучить основы теории оценивания и проверки статистиче­ ских гипотез. 4. Научиться по результатам обработки данных делать законо­ мерные выводы о поведении и характеристиках изучаемого призна­ ка X, т.е. по выборке делать выводы о генеральной совокупности. Содержание работы При изучении теоретического материала по данной работе необ­ ходимо: 1. Освоить основные понятия описательной статистики, приме­ няемые для анализа экспериментальных данных: 1) генеральную совокупность (ГС) и выборку; 2) эмпирическую функцию распределения; 3) полигон и гистограмму; 4) выборочные характеристики ГС. 2. Получить представление о теории оценивания, в том числе: 1) статистической оценке, статистике; 2) основных свойствах статистических оценок; 3) методах построения статистических оценок; 4) оценках математического ожидания Л /[х] и дисперсиях £>[х]. 3. Научиться определять точность статистических оценок, уметь: 1) применять точечные и интервальные оценки статистических параметров, доверительные интервалы, доверительную вероят­ ность, уровень значимости; 2) построить доверительный интервал для оценки М [х ], если известна дисперсия D \X ], a D \x ] неизвестна. 4. Изучить основы проверки статистических гипотез, иметь представление о: 1) статистической гипотезе; 2) критериях согласия для проверки статистических гипотез; 3) критерии согласия хи-квадрат (%2) . 4 Порядок проведения работы 1. Изучить 1-й и 2-й разделы настоящего пособия. 2. Построить для своей задачи вариационный группированный статистический ряд. 3. Построить эмпирическую функцию распределения и гисто­ грамму. 4. Найти выборочные значения средней, дисперсии, асимметрии и эксцесса заданной выборочной совокупности. 5. Провести оценку математического ожидания и дисперсии иссле­ дуемого признака и найти доверительные интервалы для полученных оценок (доверительную вероятность принять равной у = 0,95). 6. На основании анализа выборочных характеристик, эмпириче­ ской функции распределения и гистограммы выдвинуть гипотезу о характере распределения исследуемого признака (случайной вели­ чины X). 7. Используя критерий согласия хи-квадрат (%2) , проверить вы­ двинутую гипотезу (уровень значимости принять равным а = 0,05), 8. Провести расчеты на ПЭВМ и сравнить результаты. 9. Составить отчет о работе. Отчет по работе должен состоять из следующих пунктов: 1. Постановка задачи. 2. Результаты построения вариационного группированного ста­ тистического ряда. 3. Графическая интерпретация данных. 4. Результаты вычисления и анализа выборочных характеристик. 5. Построение доверительных интервалов для оценок А /[х] и Содержание отчета по работе 6. Анализ проверки гипотезы о законе распределения X. 7. Результаты расчета на ПЭВМ. 8. Основные выводы. 5 1. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРКИ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 1.1. Теория вероятностей и математическая статистика Из основ теории вероятностей известно, что построение вероят­ ностной модели того или иного случайного эксперимента (явления) начинается с введения понятия пространства элементарных исхо­ дов: Q = {co1, co2, . . . ,co/v }. Каждому элементарному исходу СО, ставится в соответствие не­ которое число /?(<»,) е [0; 1 ], называемое вероятностью исхода, при­ чем для вероятностей элементарных исходов должна выполняться аксиома 2 > М = 1 -i=l Далее дается определение события А как подмножества множе­ ства Q , и вероятность любого события А можно вычислить по формуле р(А)= 2> W -<0,€/4 Весьма существенно, что вероятности элементарных событий считаются заданными. В частности, во многих задачах, рассматри­ ваемых теорией вероятностей, нахождение этих вероятностей осно­ вано на некоторых общих соображениях симметрии. Однако в повседневной жизни, в технике, науке, естествознании, экономике такой симметрией, как при игре в карты или “Орлянку” , элементарные события не обладают, и вычислить вероятность этих событий заранее ( a priori ) невозможно. Здесь остается, пожалуй, единственный путь - определить эти вероятности из опыта (a poste­ riori). Действительно, на основании теоремы Бернулли 6 l im /> — - p < s =1Л-ЮО У1\ n / для любого 8 > 0 . Следовательно, при многократном повторении интересующего нас события А практически наверняка совпадает с вероятностью р наступления этого события. Сама процедура проведения экспериментов и подсчета частот вы­ ходит за границы теории вероятностей и относится уже к другому разделу математики, называемому математической статистикой. Задачи математической статистики далеко не ограничиваются подсчетом частот и оценкой на основании этого вероятности наступ­ ления интересующего нас события. Это - частная задача. Основным объектом изучения в математической статистике будет случайная величина X, над которой проводится п наблюдений (экспериментов, обследований, испытаний) с целью получения данных для анализа и принятия на основании этого анализа некоторого решения - “стати­ стического вывода” о случайной величине X (например, о ее законе распределения, математическом ожидании, дисперсии и т.п.). Ясно, что раз мы приняли вероятностную природу происхожде­ ния наших экспериментальных данных (т.е. считаем, что они под­ вержены влиянию случайных факторов), то все дальнейшие сужде­ ния, основанные на этих данных, будут иметь вероятностный ха­ рактер. Это значит, что всякое утверждение в рамках математиче­ ской статистики будет верным лишь с некоторой вероятностью, а с некоторой вероятностью оно может оказаться неверным. Од­ на из центральных задач статистического анализа: важные выво­ ды должны содержать оценку степени их неопределенности. Естественно, встает вопрос: будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результа­ ты? Здесь следует руководствоваться следующими правилами: 1. Выводы математической статистики имеют значение только для массовых случайных явлений, а не для единичных. 2. Событие, вероятность которого близка к 1, считается практи­ чески достоверным, а событие, вероятность которого близка к О, считается практически невозможным. эксперимента (т.е. при п —> оо) частота наступления п 1 Конечно, такой подход не защищает нас полностью от ошибок, но эти ошибки будут проявляться редко. Нам остается выяснить, какую же вероятность считать малой. На этот вопрос нельзя дать точного количественного ответа, пригодно­ го во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто, - например, при проверке статистиче­ ских гипотез, - полагают малыми вероятности, начиная с 0,01...0,05. Другое дело - надежность технических устройств, на­ пример, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем 0,001, т.к. выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероят­ ность безотказной работы была бы порядка 10'6. Итак, под математической статистикой понимается раздел математики, посвященный методам систематизации, обработки и использования опытных данных для научных и практических выво­ дов, а именно: статистических выводов о значениях числовых ха­ рактеристик случайных величин (математического ожидания, дис­ персии и т.д.) и об истинности тех или иных гипотез (гипотезы о законе распределения случайной величины X, о характере связи двух случайных величин и т.п.). 1.2. Генеральная совокупность и выборка Значительная часть статистики связана с описанием больших со­ вокупностей данных. Если интересующая нас совокупность слиш­ ком многочисленна (может быть, бесконечна), либо ее элементы малодоступны, либо имеются другие причины, не позволяющие изучать сразу все элементы (например, исследование качества большой партии консервов), прибегают к изучению какой-то части этой совокупности. О п р е д е л е н и е . Множество всех изучаемых элементов назы­ вается генеральной совокупностью (ГС), а выбранная для исследо­ вания группа элементов называется выборкой, или выборочной со­ вокупностью. Статистикой называется та или иная числовая характеристика выборки, параметрами - числовые характеристики генеральной совокупности. 8 Эти понятия играют особо важную роль в теории статистических выводов. Из ГС случайным образом извлекается выборка и исходя из статистик, рассчитанных по этой выборке, делаются выводы о значении соответствующих параметров ГС. 1.3. Методы описательной статистики Пусть из некоторой ГС извлечена выборка объема п со значе­ ниями исследуемого признака X: х]ух2,...,хп Весьма полезную ин­ формацию о свойствах ГС можно получить уже на основе первич­ ного анализа, используя методы описательной статистики - методы описания выборок х1,х 2,...,хп с помощью различных показателей и графиков. Полезность методов описательной статистики состоит в том, что несколько простых и довольно информативных статисти­ ческих показателей способны избавить нас от просмотра сотен, а порой и тысяч значений выборки. Описывающие выборку показате­ ли можно разбить на несколько групп. 1. Показатели расположения описывают положения данных на числовой оси. Это, например, минимальный и максимальный эле­ менты выборки, выборочное среднее, медиана и др. 2. Показатели разброса описывают степень разброса данных от­ носительно центра. По сути дела, они показывают, насколько кучно основная масса данных группируется около центра. В первую оче­ редь, сюда относятся: дисперсия выборки, стандартные отклонения, размах выборки, коэффициент эксцесса и т.п. 3. Показатели асимметрии отвечают на вопрос о симметрии распределения данных около своего центра. К ним можно отнести: коэффициент асимметрии, положение выборочной медианы отно­ сительно выборочного среднего, гистограмму и т.д. 4. Показатели, описывающие закон распределения, дают пред­ ставление собственно о законе распределения данных. Сюда отно­ сятся таблицы частот, гистограммы и эмпирические функции рас­ пределения. Далее мы рассмотрим наиболее часто встречающиеся и наиболее информативные показатели описательной статистики. Начнем с по­ казателей четвертой группы. 9 1.3.1. Вариационный ряд. Эмпирическая функция распределения Для построения выборочной (эмпирической) функции распреде­ ления удобно от выборки хх,х 2,...,хп перейти к вариационному ря- ду . О п р е д е л е н и е . Вариационным рядом x(1),x(2),...,х(п) называ­ ют выборку, перенумерованную в порядке неубывания. Это следует понимать так: х(1) обозначает наименьшее из чисел х1,х 2,...,х„; х{2) - наименьшее из оставшихся после удаления х ^ и т.д. В частности, х(п) есть наибольшее из чисел х],х 2,...,хп. Вполне естественно, что среди чисел х(1),х(2),...,х(п) могут встре­ чаться одинаковые. Поэтому рассмотрим следующее определение. О п р е д е л е н и е . Частотой элемента х{1) будем называть чис­ ло /м,, которое показывает, сколько раз этот элемент встречается в данной выборке. Теперь выделяем в выборке различные элементы и располагаем их в порядке возрастания: *min = *1 < * 2 < - < Xl = * т а х ( * ^ П) > затем для каждого элемента х ' находим соответствующую частоту mi . Распределение частот записывают в виде статистического ряда: Элемент * » » * выборки Х\ х2 Х*-1 Хк Частота т\ т2 ... Щ -1 щ где тх + т2 +...+ тк = п - объем выборки. Иногда и этот ряд также называют вариационным рядом, а значения х* - вариантами. 10 О п р е д е л е н и е . Отношение w( = — частоты mi к рбъему вы- п борки п называется относительной частотой значения х * (/ = 1 , 2 , к). Очевидно, что * к т 1 к 1 (=1 (=1 п п 1=1 п О п р е д е л е н и е . Таблица, устанавливающая соответствие меж- * ду вариантами xt и их относительными частотами w„ называется статистическим распределением выборки случайной величины X. О п р е д е л е н и е . Выборочной (эмпирической) функцией распре­ деления случайной величины X, построенной по статистическому распределению I Варианта *х2 4 - i *1 I Относит, частота Щ w2 ... wk называется функция F, М= О при х < х ,; YjWi При х > X*. Другими словами, значение выборочной функции распределения Fn (х) есть сумма относительных частот вариант х*, попадающих в интервал (-<», х), т.е. доля в объеме выборки-тех элементов вы­ борки, которые попали в данный интервал. Например, если х2 < х < х3, то а при K ( X) = W1+W2> 11 X>Xl = * m a x F„(x) = 1. Таким образом, Fn(x) является кусочно-постоянной монотонно неубывающей функцией (ступенчатой функцией), имеющей в точках х\,х*2,...,х'к разрывы 1-го рода (разрывы типа скачка), причем вели­ чина скачка в точке х* равна относительной частоте wt = m j n . Рис. 1.1 Видно, что график эмпирической функции распределения (рис 1.1) напоминает график функции распределения дискретной случайной величины. Связь между эмпирической функцией распре­ деления Fn(x ) и функцией распределения F(x) исследуемой слу­ чайной величины X, которая определяется как F(x) = Р ( Х < х) (часто говорят - теоретической функцией распределения), основана на уже упомянутой теореме Бернулли. Она - такая же, как и связь между частотой события и его вероятностью. А именно, для любого числа х значение Fn (х) представляет собой частоту появления со­ бытия {Х < *} , которое состоит в том, что случайная величина примет значение из интервала (-со, х )) в ряду из п независимых испытаний, следовательно, с вероятностью, равной 1, F„{x) F{x) при и —» да для любого х. Или более точно: для 12 любого числа х и любого е > 0 выполняется W > ( | F ( x ) - F . ( x ) | < s ) = l . 1.3.2. Глазомерный метод обоснования гипотезы о законе распределения случайной величины Эмпирическую функцию распределения можно использовать для обоснования гипотезы о законе распределения исследуемой слу­ чайной величины. Пусть мы имеем основания считать, что выборка значений хр х2,...,хп сделана из ГС значений случайной величины X непре­ рывного типа. В этом случае можно использовать простой графиче­ ский прием представления данных (так называемый глазомерный метдд), который позволяет выдвинуть достаточно обоснованную гипотезу о виде закона распределения случайной величины X (нор­ мальный, логнормальный и т.д.). В его основе лежат следующие рассуждения. Пусть у = F(x) - функция распределения случайной величины X. Ранее мы отмечали, что для эмпирической функции распределе­ ния с вероятностью, равной 1, должно выполняться условие: F„ (х) -> F(x) при п —> оо для любого х (т.е. для любого х при больших объемах выборки событие Fn (х) « F(x) является прак­ тически достоверным). Следовательно, для вариант xt статистиче­ ского ряда с большой вероятностью должно выполняться прибли­ женное равенство где Fn[x* + О] - предел (справа) эмпирической функции распреде­ ления при х -» х* + 0 . Используя определение эмпирической функции распределения, легко получить: 13 <-l W. Я = 2 > * + - ^ » в частности. w, _ У\ = 2 ’ ■y2=Wl + — и т.д., где wk - относительные частоты вариант хк статистического ряда. Теперь рассмотрим конкретные случаи, используя то, что для истинной функции распределения F(x) с большой вероятностью должны выполняться приближенные равенства При этом для первых двух случаев приведем подробные рассуж­ дения, а для остальных - только выводы (обоснования сделать са­ мостоятельно). Прежде чем изучать дальнейший материал, следует ознакомиться с содержанием раздела 3. Далее Ф(х) обозначает большую функцию Лапласа, а Ф -*оо - обратную к ней функцию, значения которых можно найти, исполь­ зуя табл. 3.2,3.3. Кроме того, используем обозначения: 1. Случайная величина X имеет нормальное распределение N(a,cs) . Ее функция распределения равна х, - варианты статистического ряда; откуда получаем х = а ■ Ф 1 (>0 + а . 14 Следовательно, если на координатную плоскость Oxz нанести точки с координатами (х , z’ ), где z = Ф_1(у*), эти точки должны лежать на прямой, задаваемой уравнением x = a - z + a . Вывод: при условии нормальности распределения изучаемой случайной величины точки с координатами (x*,,zjJ, где z = Ф "'(>’,) , на координатной плоскости Oxz должны лежать близко к некоторой прямой с положительным угловым коэффици­ ентом. 2. Случайная величина X имеет логнормальное распределение. Ее функция распределения равна . ( 1пх-сЛ У = Ф --------- , \ а ) где й е й и а > 0 - параметры распределения, откуда имеем: 1пх = сг-Ф_1О0 + Л- Значит, если на координатную плоскость Ouv нанести точки с координатами где и*=1пх*, у * = Ф -1(у*), эти точки должны лежать на прямой, задаваемой уравнением и = a - v + a. Вывод: при условии логнормальности распределения изучаемой случайной величины точки с координатами (w*,v*), где и" = In х*, V* = ф - 1(р<), на координатной плоскости Ouv должны лежать близко к некоторой прямой с положительным угловым коэффици­ ентом. 15 3. Случайная величина X имеет усеченное слева нормальное рас­ пределение с заданной степенью усечения г е (0, l ) . Вывод: при условии, что изучаемая случайная величина имеет усеченное слева нормальное распределение со степенью усечения т, точки с коорди­ натами (x' ,z*j, где z = Ф-1 ((1 - z ) y . +т ) , на координатной плос­ кости Oxz должны лежать близко к некоторой прямой с положи­ тельным угловым коэффициентом. 4. Случайная величина X имеет усеченное справа нормальное распределение с заданной степенью усечения т е (0,1). Вывод: при условии, что изучаемая случайная величина имеет усеченное справа нормальное распределение со степенью усечения т, точки с коорди­ натами (х‘, z*), где z* = Ф”1 (г •>»,■), на координатной плоскости Oxz должны лежать близко к некоторой прямой с положительным угловым коэффициентом. 5. Случайная величина X имеет равномерное распределение. Вы­ вод: при условии, что изучаемая случайная величина имеет равно­ мерное распределение, точки с координатами (х*, y t) на коорди­ натной плоскости Oxz должны лежать близко к некоторой прямой с положительным угловым коэффициентом. 6. Случайная величина X имеет показательное распределение. Вывод: при условии, что изучаемая случайная величина имеет по­ казательное распределение, точки с координатами (x*,z*J, где - у , ) , на координатной плоскости Oxz должны лежать близко к некоторой прямой с положительным угловым коэффици­ ентом, проходящей через начало координат. 7. Случайная величина X имеет распределение Лапласа . Вывод: при условии, что изучаемая случайная величина имеет распределе­ ние Лапласа, точки с координатами (х*, z*), где z* = ln(2J7,-) при y t <0,5; z* = - ln(2 - 2y ,) при у, >0,5, на координатной плос­ кости Oxz должны лежать близко к некоторой прямой с положи­ тельным угловым коэффициентом. 8. Случайная величина X имеет распределение Вейбулла с задан­ ной степенью и е N . Вывод: при условии, что изучаемая случайная 16 величина имеет распределение Вейбулла с заданной степенью п, точки с координатами где z* = ( - ln(l - у, )У" , на коорди­ натной плоскости Oxz должны лежать близко к некоторой прямой с положительным угловым коэффициентом. 9. Случайная величина X имеет распределение Парето. Вывод: при условии, что изучаемая случайная величина имеет распределе­ ние Парето, точки с координатами (w*, V*), где и] = In х*; v* = - ln(l - у , ) , на координатной плоскости Ouv должны лежать близко к некоторой прямой с положительным угловым коэффици­ ентом. 1.3.3. Некоторые показатели расположения Пусть после первичной обработки п элементов х1,х2,..^хп вы­ борки мы получили вариационный ряд х^п = х(Ч < х(2) < ...< < х(и) = хтах, а затем, выбрав различные варианты xmm = х* < < х*г <... < х\ = хтах и подсчитав их частоты, получили статистиче­ ский ряд: Элемент выборки **1 * *2 ... *1-1 xl I Частота т2 mk | где т1 + т2 +...+ тк =п - объем выборки. Показателем расположения выборки является среднее значение выборки, указывающее на то, где находится ее “центр”. Но точно так же, как люди могут иметь различные мнения по поводу место­ нахождения центра города (в зависимости от того, что они собира­ ются там делать), есть и различные способы оценки среднего значе­ ния выборки. Рассмотрим следующие определения: 1. Полусумма крайних значений 17 •^ min *max 2 2. Выборочная медиана есть число hs , которое делит вариацион­ ный ряд на две части, содержащие равное число элементов. Если объем выборки п = 2£ + \ (т.е. п - нечетное число), то медиана рав­ на he = х(г+1) - элементу вариационного ряда со средним номером. Если же п = 21, то h - *(<) + *(*и) 2 3. Выборочная мода de есть варианта х] , имеющая наибольшую частоту (и поэтому один и тот же статистический ряд может иметь более одной моды). Если выборка имеет одну моду, говорят, что статистическое распределение - унимодальное. 4. Выборочным средним (или выборочным аналогом математи­ ческого ожидания) называется величина Х в = - • ! > , или Х в = - - 2 > Л , п ,=1 п /=1 если данные сведены в статистический ряд. Последняя характеристика в дальнейшем будет использоваться наиболее часто. П р и м е р 1. В результате первичной обработки результатов измерений диаметров 50 подшипников получен следующий стати­ стический ряд: X, мм 10 12 14 16 17 19 20 21 1 m 2 3 4 5 6 8 10 12 Найти показатели положения. 18 “ ±21- , W . 2 Находим объем выборки: п — 2 + 3 + 4 + 5 + 6 + 8 + 10 +12 = 50. Т.к. п - четное число, то £ = п / 2 = 25, и выборочная медиана равна h - Х<25) + Х(26> _ 19 + 19 ^ 2 2 Выборочная мода, очевидно, равна 21 (унимодальное распреде­ ление). Находим среднее выборочное: - 2 1 0 + 3-12 + -4-14 + 5-16 + 6-17 + 8-19 + 10-20 + 12-21Л я -----------------------—*---------------------------------------------- — 17,70 • 50 1.3.4. Некоторые показатели разброса (рассеяния) В ряде случаев единственной осмысленной статистикой является мера расположения, но в большинстве других необходимо, кроме этого, знать и меру рассеяния данных (называемую также разбро­ сом, или вариацией). Если мы произвели замер 50 подшипников, при изготовлении которых требовалось, чтобыдиаметр их равнялся 18 мм, и обнаружили, что средний диаметр составляет 17,96 мм, то нам не придется особо радоваться, если единичные замеры окажут­ ся такими, как в приведенном примере 1. Мера рассеяния позволяет выяснить, как часто и насколько диаметр детали будет отклоняться от среднего значения. Далее используем предыдущие обозначения. Р е ш е н и е . Полусумма крайних значений равна 19 Простейшей мерой рассеяния является размах выборки: d = xmax - xmin (в примере 1 размах равен d= 21 - 10 = 11 мм). Од­ нако размах выборки, сделанной из большой совокупности, окажет­ ся гораздо менее удовлетворительной оценкой рассеяния, чем оцен­ ка с помощью другой меры, учитывающей вместо двух экстремаль­ ных значений все без исключения наблюдения. Наилучшей такой характеристикой является выборочная дисперсия, которая представ­ ляет собой среднее значение квадратов отклонений элементов вы­ борки от ее среднего выборочного: A ~ x f или А = - - 5 > , ■(**- X j , П Ы П 1=1 если данные сведены в статистический ряд. Для вычислений лучше использовать эквивалентные формулы, которые получаются из определения путем несложных преобразо­ ваний (проверить это в качестве упражнения): А, = - • £ * , 2- * 2 или De = - - t m r x '2- X 2 п /=1 п /=1 для статистического ряда. Для сравнения отметим, что дисперсия дискретной случайной величины X в теории вероятностей вычисляется по формулам D = t (*, - M[xf ■ р, =± if -p-Mlxf, (=1 1=1 где М \ х \ - математическое ожидание случайной величины ЛГ. Как и в теории вероятностей, выборочным среднеквадратиче­ ским отклонением, или стандартным отклонением, называется величина <тв В качестве примера вычислим выборочную дисперсию и средне­ квадратичное отклонение по данным примера 1: 20 2-102 +3-122 +4-142 +5-162 +6-172 +8-192 +10-202 +12-212 50 - 17,962 =9,638, тогда ств = л/9,638 =3,105. 1.3.5. Группированные данные Рассмотрим следующий ряд данных, полученных в какой-либо серии наблюдений случайной величины X: 40, 43, 46, 59, 64, 67, 68, 69, 75, 76, 78, 80, 82, 82, 86, 90, 92, 127. Эти 18 наблюдений принимают 17 различных значений, и по­ скольку варианта х = 82 есть единственное значение, встречаю­ щиеся более одного раза, оно и является модой. Представлять эти данные в виде статистического ряда было бы, по крайней мере, не­ разумно. С другой стороны, для удобства их можно сгруппировать, например, в шесть классов: Класс 39...53 54...68 69... 83 84...98 99...113 114... 1281 Частота 3 4 7 3 0 1 где под классами подразумеваются промежутки [39, 53], [54, 68] и т.д., а под частотами - количество элементов выборки, попавших в соответствующий промежуток. В результате мы получим так назы­ ваемый группированный статистический ряд. Группировать данные имеет смысл в том случае, если нам необ­ ходимо собирать и записывать информацию о большом количестве наблюдений (причем, когда велико не только число наблюдений, но и число различных значений среди них). Эта ситуация особенно часто встречается при наблюдении (измерении, регистрации и т.п.) непрерывных случайных величин. Действительно, вспомним, что в теории вероятностей мы встречаемся с двумя типами случайных величин: дискретными и непрерывными. Но в математической ста­ 21 тистике одни и те же данные можно характеризовать как дискрет­ ные или непрерывные. Это зависит от природы этих данных. Так, например, если приведенные выше данные представляют собой число бракованных деталей в проверяемых 18-ти партиях, то это - дискретные данные. А если эти же данные представляют вес в ки­ лограммах 18-ти взрослых людей, то это будут непрерывные дан­ ные, хотя и здесь наблюдения довольно необычны. В каком смыс­ ле? Непрерывные данные состоят из наблюдений над непрерывной случайной величиной, т.е. над такой величиной, которая на интер­ вале своего изменения может принимать любые значения - целые, дробные или иррациональные. Эти значения никогда не могут быть зафиксированы “точно”, и мы обычно понимаем, что они округлены до ближайшего значения. Точность округления, очевидно, опреде­ ляется возможностями измерительной аппаратуры либо задачами, которые ставятся в данном конкретном исследовании. Так, если вышеприведенные данные представляют собой вес в килограммах, то предполагается, что элемент выборки 40 означает вес между 39,5 и 40,5 кг. Да и вообще можно сказать, что результаты, полученные с помощью всякого рода измерений, обычно непрерывны, а резуль­ таты подсчетов - дискретны. Методика построения группированного статистического ряда следующая. Обозначим через xmin и минимальный и макси­ мальный элементы выборки. Выберем числа < хт1П и .Уmax ^ *тах ■ Отрезок [ута , у ж ] разбиваем на к частичных интер­ валов: [Уо>Ух)> [У\*Уг),~ ЛУк-х’УкЪ где у 0 = и у к — у тт (для упрощения вычислений длины этих интервалов часто берут одинаковыми). Затем каждому интервалу ставят в соответствие частоту т * - количество элементов выборки, попавших в этот интервал. Тогда группированный статистический ряд (или интервальный ряд) име­ ет вид 22 Интервал Ь о Л ) Ь^Уг) [Уг>Уъ) ... [ л - , л ] 1 Частота т* т*2 тъ т\ В описанной выше методике есть неопределенность, которая за­ ключается в выборе чисел у тш , у тах и к. Число интервалов груп­ пировки к можно варьировать в разумных пределах. Эта “разум­ ность” определяется 10... 15 группировками, хотя бывают случаи, когда требуется больше 25 группировок или меньше 8 (но не мень­ ше 4). В литературе предлагается формула для оценки снизу числа ин­ тервалов группировки: k>[log2n]+\, где [я] обозначает целую часть числа я. Определив число к, находим длину интервалов группировки (ес­ ли длины всех интервалов берутся одинаковыми): х _Xу — max min к Число г можно округлить в большую сторону до нужного коли­ чества знаков после запятой. Затем выбираем _ymjn и _угаах так, что­ бы отрезок [ymn , ymax] накрывал отрезок [хтт ,xmaJ . Для данных, приведенных в начале этого раздела, описанная выше процедура выглядит так. Находим число интервалов к: т.к. к > [log2 18]+1 = 4 +1 = 5, то можно взять к = 5. Находим длину интервалов группировки: Округлим это число до 17,5. Далее берем _ymin = 4 0 и .Ушах = 127,5 (очевидно, что отрезок [40,127,5] накрывает отрезок [40,127]). Тогда группированный статистический ряд имеет вид: Интервал [39,5; 57) [57;74,5) [74,5; 92) [92; 109,5) [109,5; 127] Частота 3 5 8 1 1 Стоит заметить, что в ряде случаев (например, при проверке ги­ потезы о характере распределения исследуемой случайной величи­ ны) данные приходится распределять по классам с неравными ин­ тервалами. В ряде случаев исходная статистическая информация поступает только в виде группированного (интервального) статистического ряда. Тогда для вычисления выборочных средней и дисперсии из группированного статистического ряда надо получить соответст­ вующий вариационный статистический ряд. Делается это так: каж­ дому интервалу группировки [ у 1Л, У,) ставится в соответствие ва­ рианта z, = +>',), а затем этому числу z, приписывается частота т* - количество элементов выборки, попавших в данный интервал. Например, если использовать данные полученного выше интер­ вального ряда, то указанная процедура приведет к получению сле­ дующего вариационного ряда: Z 48,25 65,75 83,25 Частота 3 5 8 По этим данным найдем выборочную среднюю и выборочную дисперсию: ^ 48,25-3 + 65,75-5 + 83,25-8 + 100,75-1 + 118,25-1 _ , , с лп^Х в - — 0 , 4 / / , 24 D = 48,252'3 + 65,752 ’5 + 83,252'8 +100>752'1 +118>252'1 18 - 75,4722 =313,8. Отметим, что аналогичная методика используется для упроще­ ния вычислений выборочных характеристик имеющейся выборки х1,х 2,... ,х п . Вначале по исходным данным строится интервальный статистический ряд, затем по этому интервальному ряду строится вариационный статистический ряд, где в качестве вариант берутся середины соответствующих интервалов, а затем по этим данным вычисляются выборочные характеристики. Естественно, мы полу­ чим значения, которые будут отличаться от таких же характери­ стик, вычисленных непосредственно по элементам заданной выбор­ ки х, ,х2, ... ,х „ . Но эти погрешности, как правило, бывают несуще­ ственными (особенно, если число интервалов берется достаточно большое). В качестве иллюстрации к сказанному приведем значе­ ния выборочных средней и дисперсии, найденной непосредственно по данным, указанным в начале этого пункта: Х в = 73,556; Ц. = 391,69. Мы видим, что точные значения выборочных харак­ теристик не так уж существенно отличаются от соответствующих значений, которые мы получили чуть выше по вспомогательному вариационному ряду. 1.3.6. Графические представления выборки Для того, чтобы получить наглядное представление о характере распределения генеральной совокупности по результатам выборки, используют такие графические объекты, как гистограмма относи­ тельных частот и полигон относительных частот. Для их по­ строения имеющуюся выборку объема п надо представить в виде группированного статистического ряда с к частичными интервала­ ми одинаковой длины (длину обозначим через /г). Гистограмма выборки (рис. 1.2) - это ступенчатая фигура, со­ стоящая из прямоугольников, основаниями которых служат частич- 25 ml ml ные интервалы, а высоты равны отношениям — , где —- = - nh п относительная частота попадания элементов выборки в /-й интервал (очевидно, что площадь i-го прямоугольника гистограммы равна относительной частоте wt , а площадь всех прямоугольников - пло­ щадь гистограммы - равна единице). Полигон - это ломаная, соединяющая середины верхних сторон прямоугольников гистограммы. Рис. 1.2 Гистограмма и полигон относительных частот могут дать первое представление о характере закона распределения исследуемой слу­ чайной величины. Для непрерывных случайных величин гисто­ грамма и полигон относительных частот являются, в определенном смысле, приближением для плотности / (х) распределения случай­ ной величины X. Сравнивая график плотности распределения из­ вестной случайной величины (оценки параметров распределения можно найти, используя метод моментов из раздела 3) и построен­ ную гистограмму (полигон), мы можем сделать первое предполо­ жение о законе распределения изучаемой случайной величины. Например, плотность распределения нормально распределенных случайных величин (такие случайные величины наиболее часто встречается в практических задачах) имеет вид 26 где а и а > 0 - некоторые параметры (см. подраздел 3.1). Если при определенных значениях этих параметров кривая Гаусса (график данной функции) проходит достаточно близко от точек гис­ тограммы и полигона (как это показано на рис. 1.3), вполне законо­ мерно выдвинуть гипотезу о том, что изучаемая случайная величина имеет нормальное распределение. Было бы необоснованным предпо­ ложить, что гистограмма и полигон, изображенные на рис. 1.3, соот­ ветствуют выборке из ГС значений случайной величины, имеющей, к примеру, показательное распределение или распределение Парето; с другой стороны, есть смысл рассмотреть также гипотезы о логнор­ мальном распределении или усеченном слева нормальном распреде­ лении с малой степенью усечения (см. раздел 3). Рис. 1.3 З а м е ч а н и е . Сказанное выше можно пояснить следующим об­ разом. Вероятность р, того, что случайная величина X с плотностью распределения/ (х) примет значение из интервала [хм , х, ] , равна площади криволинейной трапеции с основанием [х/ч ,х ( ], ограни­ ченной сверху графиком функции / (х). В то же время площадь со­ ответствующего прямоугольника гистограммы равна относитель­ ной частоте w( попадания значений случайной величины в этот ин­ тервал. 1.3.7. Некоторые дополнительные характеристики выборки Пусть мы имеем выборку х1>х2,..^хп объема п (которая может быть преобразована в статистический ряд с к вариантами х* и соот­ ветствующими частотами mt). Рассмотрим некоторые дополни­ тельные числовые характеристики выборки. 1. Выборочный начальный момент г - порядка обозначается М'г и определяется следующим образом: Сравнивая эти выражения с формулами для выборочного сред­ него, видим, что М[ есть выборочная средняя X . 2. Выборочный центральный момент г - порядка обозначается М г и определяется следующим образом: 1 " м ; = ~ 2 Х , п 1=1 для статистического ряда для статистического ряда 28 Очевидно, что значение M 2 равно выборочной дисперсии De . 3. Выборочный коэффициент асимметрии обозначается As и определяется по формуле л м ' - М ‘ где ств = - выборочное среднеквадратическое отклонение. Величина А3 является безразмерной, т.е. не зависит от выбора единицы измерения элементов выборки. Для упрощения вычисле­ ний As можно использовать следующую формулу: М г = М'г -ЪМ'2 - Х + 2 Х г . *у A s < 0 г Г А 5 = 0 п t u + у А , > 0 Рис. 1.4 Очевидно, что для симметричного распределения As = 0 . Если As < 0, распределение имеет “скошенность влево”, при As > 0 - “скошенность вправо”. 4. Выборочный коэффициент эксцесса обозначается Ех и опре­ деляется по формуле 29 где a g = -Jd ^ - выборочное среднеквадратическое отклонение. Величина Ех так же, как и коэффициент асимметрии, является безразмерной, т.е. не зависит от выбора единицы измерения эле­ ментов выборки. Для упрощения вычислений Ех можно использо­ вать следующую формулу: м4 = м ;-4м ;-х + бл/' • х 2~ъх\ Этот показатель обладает теми же свойствами “формообразую­ щей статистики”, что и коэффициент асимметрии. Для “колоколо­ образного” нормального распределения Ех = 0 . Для данных с иде­ ально прямоугольной гистограммой Ех < -1 . “Острый пик и поло­ жение окраины” распределения определяют значения эксцесса при­ мерно 2...3. З а м е ч а н и е . Для нормального распределения значения коэф­ фициентов асимметрии и эксцесса равны 0. Поэтому, если по ре­ зультатам выборки мы получили выборочные значения As « 0 и Ех « 0 , то имеет смысл выдвинуть гипотезу о том, что генеральная совокупность, из которой сделана выборка, имеет нормальное рас­ пределение. 1.3.8. Некоторые замечания о числовых характеристиках выборки Для получения более точных и достоверных выводов о гене­ ральной совокупности особое внимание следует обратить на нали­ чие в выборке так называемых выбросов, т.е. грубых (ошибочных), сильно отличающихся от основной массы наблюдений. Дело в том, что даже одно или несколько грубых наблюдений способны сильно исказить такие выборочные характеристики, как среднее, диспер­ сия, стандартное отклонение, коэффициенты асимметрии и эксцес­ 30 са. Проще всего обнаружить такие наблюдения с помощью перехо­ да от выборки к ее вариационному ряду или гистограмме с доста­ точно большим числом интервалов группировки. Подозрение о присутствии таких наблюдений может возникнуть, если выбороч­ ная медиана заметно отличается от выборочного среднего (хотя в целом совокупность симметрична), если положение медианы силь­ но несимметрично относительно минимального и максимального элементов выборки, и т.д. Вообще следует иметь в виду, что для данных, имеющих хоро­ шую форму распределения, медиана всегда лежит в промежутке между средним и модой. Примеры расположения для данных с хо­ рошей формой распределения и отрицательной асимметрией (ско­ шенность влево) выстраиваются по возрастанию следующим обра­ зом: среднее, медиана, мода, а для таких же данных с положитель­ ной асимметрией (скошенность вправо) они располагаются в об­ ратном порядке. 1.4. Статистическое оценивание параметров Главная цель, которую ставит перед собой исследователь, при­ ступая к статистической обработке выборки, - это получение на ос­ новании имеющихся данных максимально достоверной информа­ ции о всей генеральной совокупности (т.е. о случайной величине X): о законе распределения этой величины, о параметрах этого распре­ деления (математическом ожидании, дисперсии и др.). Конечно, по результатам конкретной выборки х1,х 2, . . . ,хп можно вычислить различные ее характеристики, но они будут давать лишь прибли­ женные значения каких-то параметров распределения случайной величины X. Так, мы уже встречались с выборочной средней и вы­ борочной дисперсией выборки и можем предположить (пока только интуитивно), что эти величины будут неплохими оценками матема­ тического ожидания и дисперсии изучаемой случайной величины X. Наша задача теперь - познакомиться с понятием точечной оценки, выяснить, какие оценки чаще всего используются на практике, как они получаются и какими свойствами обладают, чтобы мы могли им доверять. Итак, пусть нам дана выборка объема п из некоторой генераль­ ной совокупности. Рассмотрим следующее определение (которое 31 дальше будет уточнено). О п р е д е л е н и е . Статистикой (точечной оценкой) называется любая функция ©„ = U(x1,x 2, . . . ,xn) от элементов выборки Д Г р Х 2 5 . . . ,Х п . Задача статистического оценивания неизвестного параметра 0 генеральной совокупности состоит в указании таких статистик что будет выполнено приближенное равенст- л во © « ©„ . Здесь же возникает вопрос, какие требования мы должны предъ­ явить к статистике @„, чтобы в понятие приближенного равенства А © « ©„ был вложен здравый смысл (ведь, в конце концов, можно сказать, что 1»1 ООО). Нетрудно понять, что любая статистика в определенном смысле является случайной величиной: при переходе от одной выборки к другой (даже в рамках одной и той же генеральной совокупности) конкретные значения статистики (подсчитанные по одной и той же формуле) будут подвержены некоторому неконтролируемому раз­ бросу - случайной изменчивости. Поэтому желательно, чтобы зна­ чения статистики, подсчитанные по разным выборкам из одной и той же генеральной совокупности, концентрировались около ис­ тинного значения оцениваемого параметра. Кроме того, вполне ес­ тественно требование, чтобы с увеличением объема выборки п по- Л грешность в приближенном равенстве 0 да 0„ уменьшалась. Эти требования заложены в определения следующих трех свойств то­ чечных оценок: несмещенности, состоятельности и эффективности. Но, прежде чем переходить к изучению этих свойств, мы долж­ ны уточнить общий принцип подхода к понятиям выборки и точеч­ ной оценки (статистики), принятый в математической статистике. Пусть произведено п независимых измерений (наблюдений) слу­ чайной величины X и получен случайный набор ее значений {*!,х2 Логически мы можем представить этот набор как ре­ зультат одновременного опыта над я независимыми случайными величинами X i, X 2,.. . ,Xn, которые имеют тот же закон распреде­ 32 ления, что и величина X. Для того, чтобы можно было применить для оценки степени неопределенности статистических оценок те или иные методы теории вероятностей, в математической статисти­ ке принято считать выборкой (в широком смысле) последователь­ ность независимых одинаково распределенных случайных величин {xvx lr..,xX а полученный в результате опыта набор чисел {хр х2,...,хи} - реализацией этой выборки. При таком подходе ста­ тистика (точечная оценка) - это функция ®„ = U ( X t, X 2, . . . ,Xn) от последовательности случайных величин {Х], Х 2,...,Х„}, а величи­ на ®пеыб — и ( х х, х 2, . . . ,хп), полученная при подстановке в стати­ стику вместо случайных величин X j значений х, из реализации выборки, есть выборочное значение этой статистики. Функция от случайных величин сама является случайной вели­ чиной. Таким образом, во-первых, мы вложили точный смысл в ин­ туитивные рассуждения о том, что точечные оценки являются слу­ чайными величинами, а во-вторых, теперь можем оперировать та­ кими понятиями, как математическое ожидание A/j@n] и диспер­ сия точечной оценки. При дальнейшем изложении, не оговаривая этого специально, будем предполагать, что у нас имеется выборка {Х}, Х 2,. .. ,ХП} объема и независимых случайных величин, одинаково распределен­ ных с изучаемой случайной величиной X. Отсюда, в частности, сле­ дует, что если т = м[х] - математическое ожидание; ст2 = D \X ] - дисперсия величины X, то м [ х ^ м [ х г] . . . . = м [ х , \ ^ т - B M = B M = - = . D M = a 2. З а м е ч а н и е . В ряде учебных пособий по математической ста­ тистике зачастую не делают различия между понятиями выборки как последовательности независимых одинаково распределенных случайных величин и ее конкретной реализации 33 как некой последовательности чисел {х1,х 2,...,х„}, полученных в результате статистических испытаний. Обычно это отличие стано­ вится понятно из контекста, но при первом прочтении могут воз­ никнуть определенные сложности для понимания. 1.4.1. Свойства точечных оценок А 1. Оценка (статистика) ©„ неизвестного параметра © генераль­ ной совокупности называется несмещенной (без систематической ошибки), если ее математическое ожидание равно оцениваемому параметру, т.е. л ф п] = © . В некоторых случаях для простоты вычислений или исходя из других соображений используется асимптотически несмещенная оценка, которая должна удовлетворять условию lim м[@п] = 0 П—>00 (например, далее мы узнаем, что выборочная дисперсия не является несмещенной оценкой дисперсии, но является асимптотически не­ смещенной). Оценки такого типа содержат систематические ошиб­ ки, однако абсолютная величина этих ошибок с ростом объема вы­ борки стремится к 0. А 2. Оценку (статистику) ©п неизвестного параметра © гене­ ральной совокупности называют состоятельной, если для любого s > 0 выполняется условие И т Р ( ® - © | < е ) = 1 ./7—>°0 ' 1 ' А Определение состоятельности оценки ©„ говорит о том, что с вероятностью 1 (т.е. практически всегда) при увеличении объема 34 Авыборки п разница между значениями @„ и 0 становится сколь угодно мала. Таким образом, требование состоятельности и несмещенности (асимптотической несмещенности) представляется необходимым для того, чтобы данная оценка (статистика) имела практический смысл, т.к. в противном случае увеличение объема исходной ин­ формации не будет приближать нас к истине. 3. Эффективность оценок. Для оценки параметра © может быть предложено несколько несмещенных (и даже состоятельных) А оценок. Мерой точности несмещенной оценки ©„ в математиче­ ской статистике считают ее дисперсию /)[©„]. Наилучшей (эффек­ тивной) оценкой считают ту, для которой эта величина минимальна среди всех несмещенных оценок. Вопрос об эффективности оценки является весьма сложным. В частности, одна и та же оценка может быть эффективной для выбо­ рок из генеральных совокупностей, подчиненных определенному закону распределения (например, нормальному), и неэффективной для других распределений (см. замечание 1 в 1.4.3). З а м е ч а н и е . К сожалению, наилучших во всех отношениях оценок не бывает. Например, оценка, замечательно ведущая себя при некоторых предположениях об исходных данных, при отклоне­ ниях от этих предположений может приводить к сильно искажен­ ным результатам. Например, выборочное среднее (как мы увидим ниже, это - оценка математического ожидания) обладает многими свойствами оптимальности, но очень плохо реагирует на наличие в выборке выбросов, т.е. резко выделяющихся значений (которые обычно порождены грубыми ошибками в измерениях и иными при­ чинами). Поэтому в последнее время интенсивно развиваются мето­ ды устойчивого (робастного) оценивания, главная задача которых - получение надежных и эффективных оценок, пригодных для ситуа­ ций, когда данные отклоняются от моделей выборок, содержат за­ сорения или грубые ошибки наблюдения. 35 1.4.2. Метод моментов для нахождения оценок параметров распределения по выборке В математической статистике есть много подходов, которые придают зависимости ©„ = U (X l, X 2, . . . ,Xn) точную математиче­ скую форму. В настоящее время, как правило, используются три основных метода получения оценок: метод моментов, метод наи­ меньших квадратов, метод максимального правдоподобия. В дальнейшем мы будем применять для оценки неизвестных па­ раметров распределения метод моментов, а для оценки неизвестных параметров модели - метод наименьших квадратов. Суть этого метода состоит в том, что выборочные моменты (см. 1.3,6) принимаются за оценки соответствующих теоретиче­ ских моментов. Так, за оценку математического ожидания случай­ ной величины X принимается первый начальный момент, за оценку дисперсии - второй центральный момент и т.д. Вопрос о качестве некоторых из этих оценок (выборочной средней и выборочной дис­ персии) будет рассмотрен далее. В процессе рассмотрения гипотез о законе распределения ГС по результатам выборки нам придется иметь дело с оценками таких параметров этих распределений, которые не являются непосредст­ венно начальными или центральными моментами. В этом случае поступают следующим образом. Начальные или центральные мо­ менты распределения выражают через изучаемые параметры, затем заменяют соответствующими выборочными моментами. В резуль­ тате получают систему уравнений, из которой находят оценки инте­ ресующих параметров, выраженные через значения выборочных мо­ ментов. Как это делается непосредственно для наиболее важных на практике распределений, описано в разделе 3. 1.4.3. Оценка математического ожидания случайной величины по результатам наблюдений Согласно методу моментов, за оценку математического ожида­ ния т = М \х \ случайной величины X берется первый начальный выборочный момент: 36 X - ■Х\+Х2 +... + Х„ п (выборочное значение этой статистики Х п в есть выборочная сред­ няя). Проверим, что м \ х ^ \ = т , т.е. Х п - оценка несмещенная (не дает систематической ошибки). Действительно, согласно свойствам математического ожидания имеем: М[Х„]- МХ^ у М Х^г 1+- + МХ^п} = п ' т = т Теперь исследуем эту оценку на состоятельность. Согласно свойствам дисперсии (вспомнить их) имеем: d [x , } = d Y.x, И , П п ,=1 п п откуда получаем: l i m D [ f nl= l i m — = 0.оо «—>00 YI Т.к. на основании неравенства Чебышева для любого е > 0 вы­ полняется условие то, учитывая несмещенность оценки Х п, имеем: 37 l > l i m p ( | x „ - ю | < б ) > 1 - — lim£>[zn] = l П—>oO ' * £ И— l imPf lX, - m l < s )=1. Л->оо v I I ' Следовательно, X n - состоятельная оценка. З а м е ч а н и е 1. Можно показать, что оценка Х п является эф­ фективной для выборки из нормально распределенной генеральной совокупности. В то же время для равномерно распределенной гене­ ральной совокупности несмещенная статистика min X. + max X т „ = - i -------------------- ---------- - 2 (полусумма крайних значений) является более эффективной, чем статистика Х п. В ы в о д . Оценка Х п математического ожидания случайной величины X обладает необходимыми свойствами несмещенности и состоятельности (а в ряде случаев - и эффективности). Значит, этой оценкой можно смело пользоваться в практических расчетах. З а м е ч а н и е 2. Попутно мы получили интересное для практики утверждение, что среднеквадратическая погрешность = п - -?=г среднего арифметического п измерений меньше в п •Jn раз по отношению к среднеквадратической погрешности от­ дельного измерения СТ = ■sJd \X i ] (закон возрастания точности при возрастании числа измерений). 38 1.4.4. Оценка дисперсии и среднеквадратического отклонения случайной величины по результатам наблюдений Следуя методу моментов, за оценку дисперсии с 2 = D \x \ слу­ чайной величины X мы берем второй центральный выборочный момент о „ = - Ц х , - х , У , п /=1 а за оценку среднеквадратического отклонения ст - величину сти = J D H (ясно, что выборочные значения этих статистик Dne и стп в есть соответственно выборочные дисперсия и среднеквадрати­ ческое отклонение). Рассмотрим свойства оценки Dn. Выясним вопрос о несмещенности оценки Dn. Вначале выполним следующие преобразования (напомним, что т = М[х]): D, = - £ [ ( * , = П /=1 п /=1 = - £ [ ( * , ~ « У -т \х , -т ) + (х, - ш ) ! ] = = ~±(Х,-mf - 2 ( Х , - т ) ± ± ( Х , -mf и = п /=1 п 1=1 п = ~ 't(Xi -mf -2(x„-mf+(x„-mf = П /=1 = -±(X-mf-(x„-mJ. п м Т.к. математическое ожидание (по определению дисперсии) M i X . - m ) 1 = D [ X ] = а 2 а математическое ожидание п (это равенство получено в предыдущем пункте), получим: M[Dn ] = - • I М(Х, - m f - М ( Х п - m f = — - — = о 2. п (=1 п п п Таким образом, M [ D „ ] * J = D [ X ] , Ш п А / [ Д , ] = ст2 = о[х]. Н О Следовательно, оценка Dn не является несмещенной, но являет­ ся асимптотически несмещенной. Причина этого кроется в том, что одна и та же выборка исполь­ зуется дважды: во-первых, для нахождения оценки математическо­ го ожидания Х п, во-вторых, для нахождения оценки самой диспер­ сии. Мы знаем, что несмещенность оценки указывает на отсутствие систематической ошибки, поэтому весьма желательно устранить возникшую неприятность. Из расчетов, приведенных выше, видно, что это исправляется довольно легко. Действительно, положим 7 0 , = - ^ - Ц Х : - Х , ) 2 . п - \ п - 1 Ы 2 Проверим, что оценка $п является несмещенной оценкой дис­ персии а 2 = d [x ] случайной величины X. 40 Мы имеем: 7 '— ° г = ° ! - л - 1 л - 1 п Оценка sn называется исправленной выборочной дисперсией, а оценка s„ = v ? - исправленной оценкой среднеквадратического отклонения. Оценки Dn и s i являются состоятельными. Доказательство это­ го факта осуществить самостоятельно, используя полученное выше представление для Dn и теорему Чебышева. В ы в о д . Оценка sn дисперсии случайной величины X обладает необходимыми свойствами несмещенности и состоятельности. Зна­ чит, этой оценкой можно пользоваться в практических расчетах. Оценка Dn является состоятельной и асимптотически несмещенной. Поэтому ее также можно использовать (на практике ее можно счи­ тать несмещенной для достаточно больших п, например при п > 30). З а м е ч а н и е . Следует подчеркнуть, что мы рассматривали тот случай, когда математическое ожидание случайной величины X до опыта (a priori) было неизвестно и само находилось по результатам выборки. Если же математическое ожидание a priori известно, то за оценку дисперсии следует взять обычную выборочную дисперсию д, =-• £(*,-«)! .п 1=1 где а = М[х]. Легко убедиться, что в данном случае такая оценка будет не­ смещенной. 41 1.5. Точность статистических оценок Итак, мы показали, что выбранные нами точечные оценки Х п и si (или Dn) математического ожидания и дисперсии случайной величины X практически всегда (т.е. с вероятностью 1) должны да­ вать хорошие результаты для очень больших объемов выборки п (т.е. при п —> со ). Но, к сожалению, они не позволяют судить о сте­ пени близости их выборочных значений к истинному значению оцениваемого параметра при конкретном значении объема выборки. Естественно, возникает вопрос о мере доверия к полученным оцен­ кам. Погрешности \ Х п ~т\ о (или в общем случае ®„ -0 кими? ) неизбежны, но не окажутся ли они недопустимо высо- 1.5.1. Доверительное оценивание Пусть 0„ есть точечная оценка неизвестного параметра 0 ге­ неральной совокупности. Задача доверительного оценивания состо­ ит в следующем: требуется по оценке 0 П определить такое значе­ ние 5 > 0, что вероятность 0 - 0 < 8 ) = Р о > где р 0 € (0 ,1) - наперед заданное число (и, следовательно, при ис­ пользовании этой точечной оценки 0„ для нахождения прибли­ женного значения неизвестного параметра © с вероятностью р о погрешность © не превысит величины 5 > 0). Число р о называют доверительной вероятностью. Величина а = 1 - р 0 называется уровнем значимости. 42 Условие 0 Л — 0 < 5 , очевидно, означает, что 0 е (©„ - 8 , ©„ + 8 ). Этот интервал называется доверительным интервалом для па­ раметра © при доверительной вероятности р 0. Таким образом, доверительная вероятность есть вероятность того, что доверитель- значение параметра 0 . Соответственно, уровень значимости есть вероятность того, что произошла ошибка и истинное значение па­ раметра 0 не попадает в данный интервал. Доверительную вероят­ ность р 0 = 1 - а иногда называют надежностью. Доверие, разумеется, не следует обесценивать. Поэтому значе­ ния доверительной вероятности р 0 = 1 - а следует выбирать близ­ кими к 1 (а значения уровня значимости, соответственно, близкими к 0): р 0 =1 — а = 0,9; 0,95; 0,99; 0,995. В этом случае событие, со­ стоящее в том, что истинное значение оцениваемого параметра ле­ жит в найденном доверительном интервале, является практически достоверным. З а м е ч а н и е 1. При извлечении выборок объема п из одной и той же генеральной совокупности в р 0-100% случаях параметр 0 будет накрываться доверительным интервалом, найденным по до­ верительной вероятности р 0 и выборочному значению оценки З а м е ч а н и е 2. Длина доверительного интервала (например, для математического ожидания), найденная по конкретной реализа­ ции выборки, является, в определенной мере, показателем качества проведенного статистического исследования. Если она получилась слишком большой, следует проанализировать имеющиеся выбороч­ ные значения на предмет наличия грубых погрешностей измерения или провести дополнительные опыты с целью увеличения объема выборки. ный интервал содержит (накрывает) истинное л 0 пвыб * 43 З а м е ч а н и е 3. К сожалению, методика нахождения довери­ тельных интервалов в полной мере разработана для нормальных вы­ борок (т.е. выборок из нормально распределенных ГС), которые наи­ более часто встречаются на практике. Далее мы приведем формулы для нахождения границ доверительных интервалов математического ожидания и дисперсии по результатам нормальных выборок. Для других типов распределений эти формулы следует рассматривать как определенное приближение истинных значений. 1.5.2. Доверительный интервал для математического ожидания нормально распределенной случайной величины с известным среднеквадратическим отклонением Пусть случайная величинах распределена нормально (см. раздел 3), причем известно ее среднеквадратическое отклонение (стандартная ошибка измерений) а. Требуется при доверительной вероятности р 0 по выборке Х ), Х 2, . . . ,Хп (представляющей собой п независи­ мых случайных величин, имеющих тот же закон распределения, что и величина X) найти доверительный интервал для математического ожидания а = М [ Х ] . В качестве оценки математического ожидания берем, как и ра­ нее, среднее арифметическое X - Х у + X i + - + ^ Г" " п В курсе теории вероятностей доказывается, что если независимые случайные величины имеют одно и то же нормальное распределение N(a,a) , то их среднее арифметическое имеет нормальное распреде- ( ст ^ X —а ление N a ,—j= . Тогда случайная величина Х п = —”, имеет V \ п ) а /ып стандартизированное нормальное распределение N{0,1) . Определим величину погрешности 5 > 0 , исходя из уравнения 4 г „ | < 8 ) = Л : 44 р. = ф „ |< 5)=/>(х„ 10 является хорошим, а при п > 30 - очень хорошим. Основанием для этого служит центральная предельная теоре­ ма - наиболее важная теорема статистики. В ее разработке прини­ мали участие крупнейшие математики - Муавр, Лаплас, Гаусс, Че­ бышев, Ляпунов и др. Ее краткая формулировка: для любой случай­ ной величины X с конечными математическим ожиданием а и дис­ персией а 2 при стремлении объема выборки п к бесконечности распределение среднего арифметического Х п стремится к нор­ мальному закону N о 'о , I— . V». 1.5.3. Доверительный интервал для математического ожидания нормально распределенной случайной величины с неизвестным среднеквадратическим отклонением В практических задачах чаще всего среднеквадратическое от­ клонение исследуемой случайной величины X неизвестно, и его также нужно оценивать по результатам выборки. Как приблизиться к истине в такой ситуации? Будем использовать предыдущие обозначения. Т.к. среднеквад- 46 ратическое отклонение а неизвестно, в качестве его оценки возьмем несмещенную и состоятельную оценку (см. 1.4.4) Аналогично 1.5.2 рассмотрим величину X - а Y — п В данном случае, особенно при относительно малых значениях л п, нет никакой гарантии, что случайная величина Х п распределена по нормальному закону (даже приближенно), поэтому использова­ ние для нахождения доверительного интервала большой функции Лапласа было бы некорректно и могло привести к большим ошиб­ кам. Как же поступить? В 1908 году английский химик и математик В.Госсет, публиковавший свои труды под псевдонимом “Стью- дент”, установил, что эта случайная величина распределена по за­ кону Стьюдента с и -1 степенью свободы (см. раздел 5). Теперь, используя свойство симметричности распределения Стьюдента (см. 1.5.2), находим доверительный интервал для матема­ тического ожидания а = М[ Х] при доверительной вероятности р о: 1+Р0 где t - квантиль порядка ----- — распределения Стьюдента с " ~ 1, 2 2 п - 1 степенью свободы. З а м е ч а н и е 1. Если мы имеем конкретную реализацию х1, х 2, . . . ,хп выборки Х х, Х 2, . . . ,Хп, в формулу доверительного интервала надо подставить выборочное значение Х„ выб . 47 З а м е ч а н и е 2. Очевидно, что где а = 1 - р д - уровень значимости. З а м е ч а н и е 3. Чем выше надежность (коэффициент доверия) р 0, тем больше квантиль t 1+р , т.е. тем ниже точность оценки. м_1 ______2 . уменьшением значения п. Поэтому при малых объемах выборки мы можем гарантировать лишь относительно невысокую точность. 1.5.4. Доверительный интервал для оценки дисперсии нормально распределенной случайной величины Будем использовать обозначения, принятые в 1.5.2. Требуется при доверительной вероятности р 0 по выборке Х х, Х 2, Х п най­ ти доверительный интервал для дисперсии а 2 = D[X] случайной величины X, имеющей распределение N(a, сг) . Рассмотрим несмещенную и состоятельную оценку дисперсии (см. 1.4.4). Напомним, что элементы выборки Х 1 так же, как и ве­ личинах, имеют распределение N (a ,a ) . Представим их в виде При этом значение квантиля t , сильно увеличивается с и-1 ,— 5- 2 X t =а + а - ^ п где независимые величины, имеющие стандартизиро­ ванное нормальное распределение N(0,1) . Тогда 48 где F - ^ + + - + 5„ п и мы получаем Х п = а + 4» . -5J ■Л — 1 i=i Рассмотрим случайную величину Д = £Ц ^ = Е ( ? , - 1,)! . СУ /=1 Доказано, что сумму £ fe, - 4П f можно представить в виде 1=1 tfe.-5.NS л?. где г|1}г|2, ...,г|л_1 - независимые случайные величины, имеющие стандартизированное нормальное распределение N(0,1) . А Следовательно (см. раздел 4), случайная величина Dn имеет - распределение с п - 1 степенями свободы. Х~ РоПоложим а = ------— и определим (по табл. 4.1) квантили xl-, а 2 и Xn-1, i-a этого распределения. Находим вероятность: Н с Ц в < 4 < Х Ц , - а ) = - Р ( Д < 2 С Ц ,-а )-^ (Д < Х Ц « ) = = 1 - 2 а = р а. 49 Выполняя простые преобразования, видим, что неравенство эквивалентно неравенству ( " - 1 ) < с т 2 < Sn ( ” _ 1 ) Хя-1,а Следовательно, Р Хл-1,1-а Хп - 1,а / т.е. интервал ( s 2„ . ( n - 1) 5и2 .(л -1 )> 2 ’ 2 ^ Хя-1,1-а %и-1,а ; является доверительным интервалом для дисперсии а 2 = £>[Х] при доверительной вероятности р в . З а м е ч а н и е . Если мы имеем конкретную реализацию хх,х 2, . . . ,хп выборки Х г, Х 2, . . . ,Хп, то в формулу доверительного интервала надо подставить выборочное значение 52выб. 2. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ Во многих случаях нам требуется на основе тех или иных дан­ ных решить вопрос об истинности некоторого суждения. Например, верно ли, что два набора данных исходят из одного и того же ис­ точника, что А - лучший стрелок, чем В, что от дома до работы бы­ стрее доехать на метро, а не на автобусе, и т.д. Если мы считаем, что исходные данные для таких суждений в той или иной мере но­ 50 сят случайный характер, то ответы можно дать лишь с определен­ ной степенью уверенности, и существует некоторая вероятность ошибиться. Например, предложив двум персонам А и В выстрелить по три раза в мишень и осмотрев результаты стрельбы, мы лишь предположительно можем сказать, кто из них лучший стрелок: ведь возможно, что победителю просто повезло, и он по чистой случай­ ности стрелял намного точнее, чем обычно. Поэтому при ответе на подобные вопросы хотелось бы не только уметь принимать наибо­ лее обоснованные решения, но и оценивать вероятность ошибочно­ сти принятого решения. Рассмотрение таких задач в строго математической постановке приводит к понятию статистической гипотезы. Далее мы узнаем, что такое статистические гипотезы, какие существуют способы их проверки, каковы наилучшие методы действий. 2.1. Статистические гипотезы О п р е д е л е н и е . Статистической гипотезой называется лю­ бое предположение относительно закона распределения или пара­ метров некоторой генеральной совокупности (ГС), которое мы хо­ тим проверить по результатам выборки. Проверяемая (основная) гипотеза называется нулевой гипотезой и обычно обозначается Н 0. Отрицание нулевой гипотезы называ­ ется альтернативной гипотезой Н а . Естественно, в некотором смысле гипотезы Н 0 и Н а совершенно равносильны: одна является отрицанием другой, и поэтому справед­ ливой может оказаться одна и только одна из них. Какую же принять в качестве основной? Обычно основной гипотезой считают ту, кото­ рую наиболее важно не отвергнуть в случае, если она на самом деле верна (т.е. не совершить большой ошибки и не выплеснуть из ванны, как говорил Гегель, вместе с грязной водой и ребенка). К выбору основной гипотезы Н 0 следует подходить следующим образом. Во-первых, принимать во внимание косвенные факторы (например, графические представления выборки, ее выборочные характеристики). Например, если в выборке есть отрицательные элементы, то уже нельзя выдвинуть гипотезу, что это выборка из 51 ГС, распределенной по логнормальному или экспоненциальному распределению; если элементами выборки являются только нату­ ральные числа, то маловероятно, что мы имеем дело со случайной величиной непрерывного типа. Во-вторых, при выдвижении основ­ ной гипотезы часто используются различные соображения, под­ твержденные практикой в данной отрасли науки (см. раздел 3). Принимая решение об истинности той или иной статистической гипотезы, мы можем совершить ошибку, связанную с тем, что вы­ вод делается на основании случайно полученной выборки. Можно выделить два вида ошибок. Во-первых, основная гипотеза Н а мо­ жет быть отклонена, хотя в действительности она верна, и принята гипотеза Н а . Эту ошибку называют ошибкой первого рода. Во- вторых, гипотеза Н 0 может быть принята, хотя в действительности она неверна (т.е. фактически верна гипотеза Н а). Такая ошибка называется ошибкой второго рода. В математической статистике, в первую очередь, стремятся, чтобы вероятность возникновения ошибки первого рода была мала. Конечно, было бы хорошо, если бы при этом и вероятность ошибки второго рода была невелика. Но, как правило, оценить эту вероятность не удается. 2.2. Проверка статистических гипотез При рассмотрении статистических гипотез в математической статистике используются косвенные проверки: проверяются следст­ вия, логически вытекающие из содержания гипотезы, и применяет­ ся правило: если по результатам выборки мы получили соотноше­ ния, практически невероятные при условии истинности гипотезы, то гипотезу следует отвергнуть. В противном случае гипотеза при­ нимается. Ясно, что подтверждение следствия не означает однозначно справедливости гипотезы, поскольку правильное следствие может вытекать и из неверной предпосылки. Поэтому правила принятия статистических гипотез носят название критериев согласия, - когда мы согласны с тем, что гипотеза не противоречит реальности, и не отвергаем ее. 52 2.2.1. Критерии согласия Суждения о справедливости основной гипотезы Н 0 или альтер­ нативной гипотезы Н а делаются на основании реализации {х1,х 2,...,хп} выборки {Хх,Х 2,...,Х п} объема п независимых слу­ чайных величин, одинаково распределенных с изучаемой случайной величиной X (см. 1.4). При этом правило, с помощью которого при­ нимается решение о справедливости одной из этих гипотез, называ­ ется статистическим критерием, или критерием согласия. Каковы же основные принципы построения статистических кри­ териев? Выбирается малое число a e ( 0 , l ) . Условимся считать событие практически невозможным, если вероятность его появления мень­ ше, чем а . Число а называют уровнем значимости. Естественно, этот уровень надо выбирать достаточно маленьким. По традиции его берут равным одному из чисел: 0,005; 0,01; 0,025; 0,05; 0,10 (хо­ тя это не означает, что нельзя взять какое-то другое значение, на­ пример, 0,03). Далее в зависимости от конкретной задачи выбирается функция г „ = г „ ( з д , . . . , х „ ) от элементов выборки, которая называется статистикой критерия. Используя эту функцию, мы можем опре­ делить множество Va, исходя из равенства Р{Тп е Va\ Н 0 ) = а (ко­ торое означает, что вероятность попадания значения статистики Тп во множество Va при условии истинности основной гипотезы Н 0 равна уровню значимости а). Множество Va называют критиче­ ской областью критерия. Поскольку попадание значения статисти­ ки Тп в критическую область в предположении, что верна гипотеза Н 0 , есть событие практически невозможное, то в случае наступле­ ния этого события гипотеза Н 0 должна быть отклонена. Это озна­ чает, что следует отвергнуть основную гипотезу, если выборочное значение статистики критерия Тпвы6 =Тп(хх,х 2,...,х„), найденное 53 по реализации выборки {х1,х 2,...,хп}, удовлетворяет условию: Т е Vпвы б а * З а м е ч а н и е 1. При такой конструкции критерия согласия мы с вероятностью а можем отклонить основную (нулевую) гипотезу Н а при условии, что она является истинной. Иными словами, уро­ вень значимости а есть вероятность совершения ошибки первого рода. З а м е ч а н и е 2. Если выборочное значение статистики критерия не попадает в критическую область (т.е. Тпвыб £ Va ), то нет основа­ ний для того, чтобы отвергнуть основную гипотезу. Другими сло­ вами, в данном случае мы принимаем гипотезу Н 0. При этом су­ ществует вероятность совершить ошибку второго рода, но оценить эту вероятность практически невозможно. Уменьшить вероятность ошибки второго рода можно, используя для проверки гипотезы не­ сколько различных критериев или же увеличивая объем выборки. З а м е ч а н и е 3. Если уровень значимости увеличивать, то, оче­ видно, и критическая область будет увеличиваться. Следовательно, при прочих равных условиях гипотеза будет чаще отвергаться, - даже в том случае, когда она верна (т.е. вероятна ошибка первого рода), что чревато большими потерями: выпуском бракованной продукции, пропуском самолета противника и т.п. Если же уровень значимости уменьшать, область принятия гипотезы увеличивается, а критическая область суживается, и гипотеза Н 0 будет все реже отвергаться, - даже в тех случаях, когда она не является справедли­ вой. Критерий в этом случае становится малочувствительным. Таким образом, увеличение уровня значимости ведет к увеличе­ нию вероятности ошибки первого рода, называемой “пропуском”, уменьшение - к увеличению вероятности ошибки второго рода - принятия гипотезы в случаях, когда она не является справедливой, - так называемой “ложной тревоги”, т.е. к уменьшению мощности критерия. Можно еще раз отметить: единственный способ уменьшить ве­ роятность обеих ошибок состоит в увеличении размера выборки п. 54 2.2.2. Некоторые замечания к практическому использованию критериев согласия При практическом использовании критерия согласия надо знать, как определяется критическая область Va . Что для этого необходимо? Прежде всего, надо учитывать закон распределения статистики = Тп{Хх,Х2...X,) критерия при условии, что верна гипотеза Н 0 . Другими словами, надо знать плотность f T^ (х) распределения статистики при усло­ вии истинности нулевой гипотезы. В зависимости от того, какие значения может принимать статистика Тп, критическая область Va может быть правосторонней, левосторонней, двусторонней. Рас­ смотрим возможные случаи. 1. В случае левосторонней критической области критическая область Va представ­ ляет собой интервал ( ^ а,крит ) ’ ^а,крит квантиль порядка а распределения случай­ ной величины 71. На­ помним определение из теории вероятностей: квантилем порядка а называется такое число ta крит, при котором вероятность того, что случайная величина Т„ примет значение, не превосходящее ta крит, равна а (т.е. квантиль ta крит фактически яв­ ляется решением уравнения Р(Тп < taкрш)= ос с заданным значени­ ем а). Напомним также факт из теории вероятностей: у v *а,крит Р\ГП < ta Kpum ) = J f T (х) d x , т.е. площадь заштрихованной фигуры —00 на рисунке равна а. 55 Как на практике принимается решение по выдвинутой гипотезе в данном случае? Вначале по реализации выборки {хг, jc2, . . . , } на­ ходится выборочное значение статистики критерия Тпвыб=Тп(х1,х 2,...,хп) {наблюдаемое значение). Затем в случае вы­ полнения неравенства Т„выб < taxpum (когда статистика критерия Тп приняла значение из критической области Va ) принимают решение, что основную гипотезу следует отвергнуть. В случае же выполне­ ния неравенства Тпвыб > ta Kpum основную гипотезу отвергать нет основания. 2. В агучае правосторонней критической области критическая область Va представляет собой интервал ( ^ адаи , + <*>), гДе А-алрш» - квантиль порядка 1 - а распреде­ ления случайной величины Тп (площадь заштрихо­ ванной фигуры на рисунке равна а). В этом случае при выполнении неравенства Тпвыб > /,_а крит основную гипотезу сле­ дует отвергнуть. В случае же выполнения неравенства Тпвыв - h-a крит основную гипотезу отвергать нет основания. 3. В случае двусторонней критической области критическая область V представляет собой ♦ fT (х)in объединение интервалов [~ CO’ tf >KPum) И к -й .^ т ’+оо)’ гда % крит и t,_a__ - соответствен-\-&,крит & , к р и г 2 ^1_а,крит ано квантили порядка — и 56 1 - — распределения случайной величины Тп (суммарная площадь заштрихованных фигур на рисунке равна а). В этом случае при вы­ полнении одного из неравенств Тпвыб > tlfiipum или Тпвыб < t± Kpum основную гипотезу следует отвергнуть. В случае же выполнения двойного неравенства t ^ Kpum < Тпеыб < tx_a Kpum основную гипотезу отвергать нет основания. В заключение отметим, что если график плотности f T (х) ста­ тистики критерия симметричен относительно оси ординат (как, на­ пример, это имеет место для стандартизированного нормального распределения N (0 ,1) и t-распределения Стьюдента), то для кван­ тилей распределения Тп справедливо соотношение: t<± крит = - t } a крш (это хорошо иллюстрирует третий из рисунков, приведенных выше). В этом случае условие, при котором гипотезу Н 0 следует отвергнуть, записывается следующим образом: ! т I ъ- 1 ] Пвыб I 1 а2 ,крит ' 2.2.3. Проверка гипотезы о значении математического ожидания нормального распределения Рассмотрим в этом пункте в качестве примера следующую зада­ чу. Предположим, нам известно, что случайная величина X имеет нормальное распределение. Требуется по выборке значений этой величины проверить гипотезу о том, что ее математическое ожида­ ние (среднее значение) равно заданной величине а0, т.е. М[х]=а„. Этой задаче можно придать следующий конкретный смысл. Предположим, мы купили некий автомат, штампующий детали, и в технической документации говорится, что номинальный диаметр 57 этих деталей должен равняться а0 . Нам требуется по » изготовлен­ ным деталям проверить, действительно ли номинальный диаметр равен ао (т.е. хорошо ли проведена настройка этого автомата). В такой постановке задачи (см. подраздел 3.1) мы можем считать, что диаметр изготавливаемых деталей есть нормально распределенная случайная величина. Рассмотрим два случая. 1. Среднеквадратическое отклонение а (стандартная ошибка) известно. Другими словами, в задаче об автомате, описанной выше, величина стандартной ошибки указана в документации на этот ав­ томат. Итак, мы имеем выборку {Х1,Х 2,...,Х п} объема п независимых случайных величин, имеющих, как и исследуемая случайная вели­ чина X, распределение N (a ,a ) . Требуется, используя эту выборку, при уровне значимости а проверить нулевую гипотезу Н а : а = а0 при альтернативной гипотезе На : аФ а0. Для проверки гипотезы Н 0 выбираем статистику критерия в следующем виде: <У где Х„ = - • £ * / • П м Выбор именно такой статистики можно обосновать следующим образом. Во-первых, статистика Х п является, как мы знаем, оценкой математического ожидания М\х\= а , и, значит, разность Х„ —а0 естественно характеризует степень близости величин М \Х ] и а0 . Во-вторых, из курса теории вероятностей известно, что случайная величина Тп (при условии правильности нулевой гипотезы!) имеет стандартизированное нормальное распределение N (0,1). Далее, статистика Тп может принимать как большие положи­ тельные значения, так и большие по модулю отрицательные значе­ 58 ния. Следовательно, мы должны рассматривать случай двусторон­ ней критической области. Учитывая вышесказанное, нулевую гипотезу можно принять, ес­ ли выборочное (наблюдаемое) значение статистики Тп критерия удовлетворяет неравенству Тпвыб г критерия Пирсона. Сделаем преобразование: Если верна гипотеза Н 0, то по закону больших чисел с вероят- miностью 1 величины------ > р, при п —> <х>, причем с учетом теоре- п мы Муавра-Лапласа Следовательно, при больших п статистика X» г с вероятностью, близкой к 1, не должна принимать большие положительные значе­ ния. Это позволяет сделать вывод, что критическая область этой ста­ тистики - правосторонняя (см. 2.2.2). Таким образом, гипотеза Н а должна быть отвергнута, если полученное в результате опыта выбо­ рочное (наблюдаемое) значение %2„гвы6 слишком велико. Здесь, как всегда, слова “слишком велико” означают, что данное значение превосходит критическое значение уСп гкрит статистики для заданно­ го уровня значимости. Согласно теореме Пирсона, для простой ги­ потезы можно брать Хп7 крит = Хг-и-а ' квантиль порядка 1 - а рас­ пределения хи-квадрат с г - 1 степенями свободы. Итак, простая гипотеза о законе распределения отвергается, если выполняется неравенство %г выв > Xr-i, i-« > и принимается в про­ тивном случае. /=1 пр, Ым р , I п - P i (2.1) / (2 .2) В заключение отметим, что числа р ( в критерии Пирсона назы­ вают теоретическими вероятностями попадания случайной вели­ чины в соответствующие интервалы разбиения числовой прямой, произведения npt - теоретическими частотами наступления этих событий, а величины mi - эмпирическими частотами. С учетом этого можно сказать, что статистика %гп г есть мера отклонения эм­ пирических частот и теоретических частот. З а м е ч а н и е 1. Асимптотический характер теоремы К.Пирсона требует осторожности при его практическом использовании. На нее можно полагаться только при достаточно больших значениях п. Су­ дить же о том, достаточно ли п велико, надо с учетом вероятностей р х,р г,...,рг . Совокупность теоретических и экспериментальных доводов приводит к убеждению, что критерий применим, если все теоретические частоты npi > 5 . Чтобы соблюсти это требование, на практике приходится объединять некоторые интервалы разбиения. З а м е ч а н и е 2. Мы изложили применение критерия Пирсона для проверки простых гипотез. Но на практике простые гипотезы встречаются реже, чем сложные, ведь в большинстве случаев теоре­ тические соображения или традиции не идут далее указания типа распределения (нормальный, показательный, пуассоновский), а па­ раметры его остаются неопределенными. Оказывается, критерий Пирсона по сравнению с другими критериями имеет то преимуще­ ство, что его статистика вычисляется для сложной гипотезы так же, как и для простой. Отличие в том, что в данной ситуации статисти- ка %2п г асимптотически подчиняется распределению %*_*_, с г - k -1 степенями свободы, где к - число неизвестных параметров распре­ деления. Эта корректировка связана с необходимостью оценивать неизвестные параметры (и, соответственно, определять гипотетиче­ скую функцию распределения Fa (х) ) по результатам выборки. На­ пример, в случае нормального распределения при двух неизвестных параметрах а и а число степеней свободы будет равно г - 3. Вывод: сложная гипотеза о законе распределения с к неизвест­ ными параметрами отвергается, если выполняется неравенство tn,r еыб > Xr-4-i,.-а » и принимается в противном случае. 63 З а м е ч а н и е 3. Из двух предыдущих замечаний можно сделать вывод, что при проверке гипотезы о законе распределения по кри­ терию Пирсона для сложной гипотезы с двумя неизвестными пара­ метрами объем выборки не может быть меньше 20. 2.3.2. Схема применения критерия Пирсона для проверки сложной гипотезы о законе распределения Пусть дана выборка (реализация выборки) {х,,х2,...,х„} из п не­ зависимых наблюдений случайной величины X. Выдвинута гипотеза Н 0: функция распределения случайной ве­ личины X имеет вид F0 (х ) . Требуется: при уровне значимости а проверить эту гипотезу, используя критерий Пирсона. Для определенности рассмотрим случай непрерывной случайной величины X, распределение которой зависит от двух параметров ©( и &2 (и, следовательно, ее гипотетическая функция распределения F0(x) должна быть непрерывной и зависеть от этих параметров F0(х) = Fu(x , &t,@2) ). Для проверки гипотезы по критерию Пирсо­ на надо произвести следующие действия: 1. Вычислить выборочные среднее Х п и исправленную выбороч­ ную дисперсию s i . Далее, используя метод моментов (см. 1.4.2 и раздел 3), вычислить оценки параметров гипотетического распреде­ ления ®1выб и 0 2выб. З а м е ч а н и е 1. Более строгий подход требует вычисления оце­ нок параметров распределения методом максимального правдопо­ добия, а не методом моментов. Но для наиболее часто используе­ мых распределений (нормального, показательного, Пуассона) эти оценки совпадают, а достаточная простота метода моментов ком­ пенсирует его недостатки. 2. Выборку представить в виде группированного (интервального) статистического ряда (методику этого процесса см. в 1.3.4, только следует положить у в — -оо, у г = +со ). 64 Интервал [у>’Уг) '[Уг-Р+°°) Частота т\ т2 ... тг 3. Подсчитать теоретические вероятности попадания значений случайной величины в интервалы группировки Р, = i = 1.2,...,г , где в формульное определение гипотетической функции распреде­ ления F0(x) должны быть подставлены найденные ранее выбороч­ ные оценки неизвестных параметров. Напомним, что К ( У о ) - К ( г ск>) = ^ и K ( y r) - F 0(+oo) = L Кстати, мы должны были положить у о = -со , у г = +оо для того, чтобы соблюсти тре­ бование + р 2 +... + p r = 1 теоремы Пирсона. З а м е ч а н и е 2. Для дискретной случайной величины X теоре­ тические вероятности лучше находить по формуле д = У P{x = Xj), где Р { х - X j) - вероятность того, что случайная величина X при­ мет значение X j, а суммирование ведется по тем значениям , ко­ торые попадают в полуинтервал [ум , y t). 4. Для всех интервалов должно выполняться условие: пр{ > 5. Если для какого-либо интервала это условие нарушается, его надо объединить с соседним интервалом, при этом следует просуммиро­ вать их частоты, а также теоретические вероятности (число г интер­ валов группировки естественно уменьшится). 5. Вычислить выборочное (наблюдаемое) значение Хпгвыб стати­ стики критерия (см. формулу (2.1)). По табл. 4.1 квантилей %2 - рас­ пределения найти критические значения при заданном уровне зна- 65 чимости а и числе степеней свободы г - 3 (напомним, что мы рас­ сматриваем случай к = 2): = Хм, .-а • 6. Если Х^ ,,. > Хг-з, i-а > то нулевую гипотезу отвергают. В противном случае оснований отвергать нулевую гипотезу нет. З а м е ч а н и е 3. Если проверяется простая гипотеза, то пункт 1 выполнять не надо, а в пунктах 5 и 6 число степеней свободы будет равно г - 1. 2.3.3. Примеры применения критерия Пирсона для проверки гипотезы о законе распределения П р и м е р 1. На компьютере проведено моделирование выборки из 500 значений случайной величины, равномерно распределенной на отрезке [0; 12]. По результатам выборки составлен группирован­ ный статистический ряд. Интервал [0-1) П -2) (2 ,3 ) (3 ,4 ) [4 ,5 ) [5 ,6) [6Л ) (7 ,8 ) [8 ,9 ) (9,10) [10,11) [11,12] Частота 41 34 54 39 49 45 41 33 37 41 47 39 Мы должны выяснить, согласуются ли эти данные с гипотезой Н 0 о том, что мы действительно имеем дело с выборкой значений случайной величины, равномерно распределенной на отрезке [0; 12] (т.е. проверить качество моделирования). Уровень значимости при­ мем а = 0,05. Р е ш е н и е . В данном примере мы рассматриваем простую ги­ потезу, т.к. гипотетическая функция распределения однозначно оп­ ределяется из условия (см. 3.5): Нетрудно видеть, что все теоретические вероятности равны , объем выборки равен п - 500 (следовательно, условие npj > 5 выполняется для всех интервалов). Находим наблюдаемое (выборочное) значение статистики крите­ рия Пирсона (формула (2.1)): 5С 5оо ,12 выв — 500-^12 i=l 500 12 = 9,04. Число степеней свободы равно г —1 = 12 —1 = 11. По табл. 4.1 квантилей х 2 -распределения находим критическое значение стати­ стики x t крит = Хп ,о,95 -19 .7 • Мы видим, что X5оо,12 шб < 19,7 . В ы в о д . Гипотетическое распределение согласуется с экспери­ ментальными данными, т.е. нет оснований отвергать гипотезу Н 0. П р и м е р 2. Через равные промежутки времени в тонком слое раствора золота регистрировалось число частиц золота, попадавших в поле зрения микроскопа. Результаты наблюдений приведены в следующей таблице. Х1 0 1 2 3 4 5 6 7 т, 112 168 130 68 32 5 1 1 В первой строке приведены регистрировавшиеся значения xt частиц золота, во второй - соответствующие частоты т1 (число ин­ тервалов времени, в течение которых в поле зрения попало ровно х; частиц). Требуется: используя критерий Пирсона и приняв за уровень значимости а = 0,05, проверить согласие полученных эксперимен­ тальных данных с законом распределения Пуассона. Р е ш е н и е . Итак, нам надо проверить сложную гипотезу Н 0 о том, что исследуемая величина X распределена по закону Пуассона с некоторым параметром "К (см. 3.4): 67 Н д : Р (Х = к) = к = ОД,2,3,.. к! Поскольку параметр А, распределения Пуассона неизвестен, то, согласно методу моментов, в качестве оценки этого параметра возьмем выборочное среднее Л = Г выб=1,544. Составим интервальный ряд. Интервал [0 ,1) [1 ,2 ) [2 ,3 ) [3 ,4 ) [4, 5) [5 ,6 ) [6 ,7) [7, + со) Частота mi 112 168 130 68 32 5 1 1 Вероятности p i 0,2135 0,3297 0,2545 0,1310 0,0506 0,0156 0,0040 0,0011 Теоретические вероятности р, находим, используя формулу Пу­ ассона при X = 1, 544: 1 544° • е '1,544 р 0 = Р (Х = 0) = ~ 5 | "— = 0,2135; 1 544' • е 'и44 Pi = Р (Х = 1) = = 0,3297; Р2 = Р(Х= 2) = 0,2545; р 3 = Р(Х= 3) = 0,1310; р 4 = Р(Х= 4) = 0,0506; р 5 = Р{Х= 5) - 0,0156; р 6 =Р(Х= 6) = 0,0040; » 1 544* .р-1-544 6 1 5 4 4 * . е ~154* p7= p ( x > i ) = z b g- - = i - i : 1- - = o , o o i i . i=i а: ! *=„ л ! 68 Объем выборки равен п = 517. Т.к. требование npi > 5 не вы­ полняется для последних трех интервалов, их следует объединить (при этом просуммировав их частоты, а также теоретические веро­ ятности). В результате объединения получим интервальный ряд. Интервал [0, 1) [1,2) [2,3) [3,4) [4, 5) [5, + а>) Частота mi 112 168 130 68 32 7 Вероятности р. 0,2135 0,3297 0,2545 0,1310 0,0506 0,0207 По этим данным находим наблюдаемое (выборочное) значение статистики Пирсона (формула (2.1) в 2.3.1): -2 .6 6 3 . м 517р. По табл. 4.1 при уровне значимости а = 0,05 и числу степеней свободы, равном г - £ - 1 = 6 - 2 = 4 (к = 1 - число неизвестных параметров), находим критическое значение статистики %п,г крит = % 4 ,0.95 = 9 , 4 9 . Мы ВИДИМ, ЧТО %517,6 выб < 9,49. В ы в о д . Гипотетическое распределение согласуется с экспери­ ментальными данными, т.е. нет оснований отвергать гипотезу Н 0. 2.3.4. Некоторые другие критерии согласия Оценка вероятности ошибки второго рода (т.е. принятия нулевой гипотезы при условии истинности гипотезы альтернативной) при проверке гипотезы о законе распределения является очень сложной задачей. Поэтому, чтобы после подтверждения нулевой гипотезы по критерию Пирсона иметь большую уверенность в правильности 69 выбора, имеет смысл проверить эту гипотезу, используя другие критерии согласия. Из других критериев согласия, наиболее часто применяющихся на практике, можно выделить критерии согласия Колмогорова и омега-квадрат. Сразу отметим, что эти критерии применимы толь­ ко для непрерывных распределений, что несколько сужает область их применения. Кроме того, распределение статистик этих критериев устроено достаточно просто только для простых гипотез. В случае сложных гипотез их распределение в большей степени зависит от вида гипо­ тетического распределения. Напомним для сравнения, что для ста­ тистики критерия Пирсона появление неизвестных параметров вле­ чет за собой только уменьшение числа степеней свободы в предель­ ном распределении хи-квадрат. Другими словами, статистики критериев Колмогорова и омега- квадрат в случае сложных гипотез не обладают столь привлека­ тельным свойством “свободы от распределения выборки”, как их прототипы для простой гипотезы (поэтому для каждого параметри­ ческого семейства распределений используются свои таблицы, т.е. надо отдельно определять критическое значение статистики крите­ рия). Тем не менее, рассмотрим кратко суть этих критериев, пред­ варительно сделав следующее замечание. Если сложная гипотеза подтверждается по критерию Пирсона, то имеет смысл проверить ее с использованием критериев согласия Колмогорова и омега-квадрат, но при этом рассматривая гипотезу как простую (т.е. с уже заданными параметрами). 2.3.5. Критерий согласия Колмогорова для простой гипотезы Итак, проверяется гипотеза Н а о том, что генеральная совокуп­ ность, из которой произведена выборка значений {х15х2,...,хя}, подчиняется закону с непрерывной функцией распределения F0(x ) . Пусть Fn(x ) - эмпирическая функция распределения. Для оцен­ ки степени отличия функций F„(x) и Fn(x) вводится величина: 70 A , =sup|F0(x ) -F „ (x ) |. xeR Очевидно, что D„ - случайная величина (статистика), поскольку ее значение зависит от случайного объекта Fn ( х ) . Статистику Dn называют статистикой Колмогорова. Надо отметить, что эмпирическая функция Fn (х) должна опре­ деляться только по статистическому ряду (см. 1.3.1); нельзя исполь­ зовать интервальный ряд. Если гипотеза Н 0 справедлива, то в силу теоремы Бернулли для любого числа х е R и любого 8 > 0 выполняется условие н т / > ( 1 а д - а д 1 < 0 = 1 . Поэтому с вероятностью, близкой к 1, при больших объемах вы­ борки п значение статистики должно быть мало. Отсюда следует вывод: гипотеза Н 0 должна быть отвергнута, если полученное в результате эксперимента выборочное (наблю­ даемое) значение статистики Д ,выб окажется неправдоподобно большим (т.е. больше некоторого критического значения статисти­ ки Dn, определенного с учетом уровня значимости). Другими сло­ вами, критическая область статистики критерия - правосторонняя (см. 2.2.2). Естественно, для того, чтобы иметь возможность находить кри­ тические значения статистики Dn, надо знать ее распределение. Свойство статистики Колмогорова состоит в том, что ее закон рас­ пределения (если гипотеза Н 0 верна) зависит только от объема вы­ борки и не зависит от функции F0 (х) . Асимптотические свойства статистики Dn (при условии истинности нулевой гипотезы) описы­ вает найденная в 1933 г. А.Н. Колмогоровым предельная теорема. Теорема Колмогорова утверждает, что при условии справедли­ вости гипотезы Н 0 для любого X > 0 существует предел 71 \im P(4 n-D Хкрит . 2.3.6. Критерий согласия омега-квадрат для простой гипотезы Не вдаваясь в подробности, отметим, что этот критерий основан на так называемой статистике омега-квадрат +Л 2 = / К (X) - F0 (*)] dF0 ( х ) . —оо Известно, что если гипотеза Н 0 верна, то закон распределения статистики (й2„ зависит только от объема выборки и не зависит от функции F0(x). Н.В.Смирновым в 1939 г. найдено предельное рас­ 72 пределение статистики п • со2 при условии истинности нулевой ги­ потезы, которое и используется при практическом применении кри­ терия омега-квадрат. Имеются подробные таблицы квантилей &пр этого распределения. Для нахождения выборочного значения со2 статистики п • со2 п выб п по элементам выборки, представленной в виде вариационного ряда *(1),*(2),•••>*(„) (см. 1.3.1), можно использовать формулу (В2 - — + Х пвыб 12 п ,=1 nV (,)/ 2п Гипотезу Н 0 приходится отвергать при выполнении неравенст­ ва со2 > со2 , где со2 = со*, - квантиль распределения п выб п крит п крит п • со2, найденный из таблиц по заданному уровню значимости а и объему выборки п. 3. НЕКОТОРЫЕ ЧАСТО ИСПОЛЬЗУЮЩИЕСЯ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ 3.1. Нормальное распределение Случайная величина X непрерывного типа распределена по нор­ мальному закону с параметрами а е R ; с > 0 (сокращенная за- nHCbN(a,o)), если ее плотность вероятности (рис. 3.1) задается формулой СУ V 271 Функция распределения этой случайной величины имеет вид 73 На рис. 3.1, 3.2 приведены графики плотности и функции рас­ пределения нормального распределения. График плотности fix) называется кривой Гаусса (прямая х = а является осью симметрии графика). В связи с этим нормальное рас­ пределение еще называют гауссовским. Известно, что параметр а — М [х ] есть математическое ожида­ ние, а <т! = 4 г ] - дисперсия случайной величины X (соответст­ венно ст - ее среднеквадратическое отклонение). Поэтому согласно методу моментов (см. 1.4.2 - 1.4.4) в качестве оценок этих парамет­ ров следует брать: а = Х п, а 2 = s 2n (естественно, если мы имеем конкретную реализацию выборки, то должны положить параметры а ист2 равными выборочным значениям статистик Х пвыб и 52выб). Нормальное распределение играет особую роль в теории вероят­ ностей и математической статистике. Как показывает практика, са­ мые разнообразные статистические данные с хорошей степенью точности можно считать выборками из нормально распределенной генеральной совокупности. Примерами этого могут служить помехи в электроаппаратуре, ошибки измерений, разброс попадания снаря­ дов при стрельбе по заданной цели, рост наудачу взятого человека, скорость реакции на раздражитель и т.д. На практике считают (что, в принципе, обосновано центральной предельной теоремой теории вероятностей): если случайная величина формируется под воздей­ ствием большого числа независимых малых влияний, из которых ни одно не доминирует над остальными, то она подчинена нормаль­ ному распределению. Например, большое число не зависящих друг от друга причин влияют на размер изготавливаемой керамической плитки, диаметр проволоки, разрушающую нагрузку для образца бетона и т.п. Поэтому неудивительно, что все эти виды технических измерений очень хорошо описываются нормальным распределени­ ем (со своими характерными значениями). З а м е ч а н и е 1. Случайная величина X, распределенная по за­ кону N (0,1), называется стандартизованной нормальной величи­ ной. Ее плотность вероятности равна и называется малой функцией Лапласа. Функция распределения равна 1 ' - i i ф (*) = ~7 г Ф 1<Лv 27T -со и называется функцией нормального распределения, или большой функцией Лапласа. Значения этой функции приведены в табл. 3.2. При исполь­ зовании данной таблицы следует помнить следующие правила: Ф (-х) = 1 - Ф (х); Ф(х)»1 при л: > 3,5; Ф(.х) * 0 при х < -3,5 (причем погрешность в этих приближенных равенствах - менее чем 10"4). З а м е ч а н и е 2. Используя замену переменной в интеграле, легко получить для любой случайной величины, распределенной по закону N ( a , a ) , ее функцию распределения, равную 75 З а м е ч а н и е 3. Иногда в литературе используются таблицы значений функции ,2 В этом случае надо помнить следующие правила: Ф0(-х ) = -Ф 0(х); Ф„(х) = Ф (х )-0 ,5 ; Фо(0) = 0; Фо(х)*0,5 при х > 4. 3.2. Логнормальное распределение Положительная случайная величина X непрерывного типа рас­ пределена по логнормальному (логарифмически нормальному) зако­ ну с параметрами а е R и а > 0, если ее плотность вероятности задается формулой ■| ___( I n х - а )1 /(*) = —тге ХСТл/2 7 Г Функция распределения этой логнормальной случайной ве­ личины имеет вид где Ф(х) - большая функция Лапласа. На рис. 3.3, 3.4 приведены графики этих функций. 76 е ' х Рис. 3.3 Рис. 3.4 Можно сказать, что случайная величина X подчиняется логнор­ мальному распределению, если ее логарифм, т.е. случайная величи­ на Y = In X , имеет нормальное распределение. Известно, что математическое ожидание и дисперсия логнор­ мальной случайной величины X вычисляются по формулам Далее согласно методу моментов (см. 1.4.2 - 1.4.4) в качестве оценок этих параметров берутся В результате получим систему двух уравнений с двумя не­ известными для оценки параметров а и а по результатам выборки, откуда находим (естественно, если мы имеем конкретную реализацию выборки, то получим конкретную оценку этих параметров авыб и а выб). М[Х] = 6a+0-5cJ; D[X] = е w • (е°2 - 1). 77 Логнормальное распределение возникает при изучении моделей дробления частиц, моделей роста и т.д. А.Н. Колмогоров показал, что логарифмически нормальному закону подчинены размеры час­ тиц при дроблении. 3.3. Усеченные нормальные распределения Случайная величина X непрерывного типа имеет усеченное слева нормальное распределение с параметрами а е R , ст > 0 и т е (0, l ) (далее в этом пункте мы используем обозначения: ф(х) - малая функция Лапласа, Ф(х) - большая функция Лапласа), если ее плот­ ность вероятностей имеет вид где значение х0 определяется из соотношения х = Ф -------- (в принципе, можно задавать значение хо, а параметр т находить из указанного соотношения). Параметр х называется степенью усечения. Функция распре­ деления имеет вид 0 , х < х о; 1 / / Л 1-т 78 На рис. 3.5, 3.6 приведены графики этих функций. Известно, что математическое ожидание и дисперсия усечен­ ного слева нормального распределения вычисляются по формулам M [ x ] = a + c 2f ( x 0) ; D [x} = G2f { x 0)(x0 - M [ x ] ) + G 2, где j[x) - плотность распределения. Согласно методу моментов (см. п. 1.4.2 - 1.4.4), в качестве оценок этих параметров следует брать М [ Х ] = Х Л\ Д И = 5и2. Считая заданной степень усечения т, получим систему трех уравнений с тремя неизвестными для оценки параметров а, ст и х0 по результатам выборки (ниже обозначено у = Ф-' (т) ) si = сг2 Ф(У) Г. ф(У) 1 -т \ \ у - 1 — т х0 =а + а-у. J) Ясно, что из второго уравнения легко можно найти оценку для параметра а, затем из первого - оценку для параметра а, после это­ го вычислить ха. 79 Случайная величина X непрерывного типа имеет усеченное спра­ ва нормальное распределение с параметрами а е R , а > 0 и х 6 (0 ,1), если ее плотность вероятностей имеет вид / ( * ) = 0 , х > х о; 1 ( х -аЛ — ф ---- СТХ V ст у где значение х0 определяется из соотношения х = Ф Гх - а Л (мож­ но задавать значение хо, а степень усечения т находить из указан­ ного соотношения). Функция распределения имеет вид F(x) = \ , Х > Х 0 ; На рис. 3.7, 3.8 приведены графики плотности и функции рас­ пределения усеченного справа нормального распределения. Рис. 3.7 Рис. 3.8 Известно, что математическое ожидание и дисперсия усеченного справа нормального распределения вычисляются по формулам 80 М[Х] = а - а гД х , ) ; ф г ] = а !/ ( * „ Ш Х ] - х , )+ о 2, где Дх) - плотность распределения. Аналогично усеченному слева нормальному распределению (считая заданной степень усечения х) получим систему трех урав­ нений с тремя неизвестными для оценки параметров а, а и х0 по результатам выборки Случайная величина X дискретного типа имеет распределение Пуассона с параметром X > 0 , если она принимает целые значения О, 1, 2, 3,... с вероятностями (напомним, что по определению 0! = 1). Известно, что ее математическое ожидание и дисперсия равны параметру распределения: х0 = а + о-у. Здесь у = Ф 1 (т) . 3.4. Распределение Пуассона Р ( Х = к) = — — , к = 0 ,1 ,2 ,3 ,... к\ x = m [x ] = d [x ]. 81 Поэтому согласно методу моментов (см. 1.4.2) в качестве оценки этого параметра следует брать X = Х п (т.е. для конкретной реали­ зации выборки X « Х пвыб ). На рис. 3.9 показаны значения вероятностей Р(Х = к) для раз­ личных значений X. >P(X«k) ■ Р(Х=к) ^Р(Х“к) 1 ■ Я.-0,2 J.-10.4- 0.2 0.6- 0.3- ■ 0,2’ 1 0Л0.2 1 к о-1'L_l_j--- -L l — .11 0 1 2 3 4 5 0 1 2 3 4 5 6 Рис. 3.9 Х -5 JL 0 1 2 3 4 5 6 7 8 9 10 При Х > 9 распределение Пуассона может быть аппроксимиро­ вано нормальным распределением со средним X и дисперсией 4 х . Известно, что при X —» <х> случайная величина ^ ^ , где X - пуас- ‘JX ооновская случайная величина с параметром X, имеет в пределе стандартное нормальное распределение N {ОД). При достаточно больших X можно использовать приближенную формулу p ( x = k ) * - j L

Ь. На рис. 3.10, 3.11 приведены графики плотности и функции рас­ пределения равномерного распределения. Рис. 3.10 Рис. 3.11 83 Математическое ожидание и дисперсия равномерно распреде­ ленной на отрезке [а, Ъ] случайной величины X вычисляются по формулам Далее согласно методу моментов (см. 1.4.2-1.4.4) в качестве оценок этих параметров следует брать М[Х]=Х,-, фг]=*?. В итоге мы имеем систему двух уравнений с двумя неизвестны­ ми для оценки границ отрезка по результатам выборки, откуда на­ ходим: b = X n + j 3 - s „ ; a = X „ - j 3 - s „ (естественно, если мы имеем конкретную реализацию выборки, то получим конкретную оценку границ авы6 и Ьвы6 ). З а м е ч а н и е . Метод наибольшего правдоподобия дает сле­ дующие оценки границ отрезка: а = minfJT,, Х г,..., Х п}; Ъ = тах{Х , , Х 2,. . . ,Хп], т.е. а и Ъ - соответственно минимальный и максимальный элементы выборки {Х}, Х 2,. . . ,Хп} . Равномерное распределение возникает при распространении идеи “равномерности” на непрерывный случай. Равномерное рас­ пределение имеют случайные величины, характеризующие ошибки измерений при помощи инструмента с круглыми делениями, когда значение округляется до ближайшего целого. Например, равномер­ ное распределение имеют ошибки указания времени часами со скачущей стрелкой. 84 3.6. Показательное распределение Случайная величина X непрерывного типа, принимающая только положительные значения, имеет показательное (или экспоненци­ альное) распределение с параметром X > 0 , если ее плотность за­ дается формулой f ( x \ — К х ) ~\ Х- е ' и ,х>Ъ. Функция распределения этой случайной величины равна F(x) = { l - e - , x >0. На рис. 3.12,3.13 приведены графики этих функций. Рис. 3.12 Рис. 3.13 Математическое ожидание и дисперсия этой случайной величи­ ны соответственно равны Л ф Г ] = 1 ; 4 ф 1 . Поэтому согласно методу моментов (см. 1.4.2) в качестве оценки 85 параметра X следует брать X = -^ =г- (для конкретной реализации вы- борки X « -=^— ). Х пвыб Укажем две области применения статистических методов, в ко­ торых показательное распределение играет базовую роль. К первой из них относятся задачи типа “времени жизни”. Пони­ мать этот термин следует достаточно широко. В медико­ биологических исследованиях под ним может подразумеваться продолжительность жизни больных при клинических исследовани­ ях, в технике - продолжительность безотказной работы устройств, в психологии - время, затраченное испытуемым на выполнение тес­ товых задач, и т.д. Второй областью активного использования показательного рас­ пределения являются задачи массового обслуживания. Здесь речь может идти об интервалах времени между вызовами “скорой помо­ щи”, телефонными звонками или обращениями клиентов и т.д. Длина интервала времени между появлениями последовательных событий имеет показательное распределение. Показательное распределение среди всех других выделяется, как иногда говорят, отсутствием “памяти”, т.е. отсутствием последейст­ вия. Это означает, что для изделия, прослужившего время t, вероят­ ность прослужить дополнительное время s совпадает с вероятно­ стью прослужить то же время s для нового (только начавшего рабо­ ту) изделия, т.е. как бы исключается износ и старение. Поэтому в статистических моделях срока службы, если мы хотим учесть ста­ рение, приходится привлекать различного рода обобщения показа­ тельного распределения. 3.7. Распределение Лапласа Случайная величина X непрерывного типа имеет распределение Лапласа с параметрами а е R и а > 0, если ее плотность задается формулой 86 Ее функция распределения равна П * ) = | (Jr-О).-/2 - е ^ ~ , х < а ; 1 1— е ° , х > а . I 2 На рис. 3.14, 3.15 приведены графики этих функций. Математическое ожидание случайной величины X, имеющей распределение Лапласа, и ее дисперсия вычисляются по формулам М[х] = а ~, D[x] = a 2. Поэтому согласно методу моментов (см. 1.4.2 - 1.4.4) в качестве оценок этих параметров следует брать (естественно, если мы имеем конкретную реализацию выборки, то Распределение Лапласа было впервые введено П.Лапласом и часто называется первым законом распределенш в отличие от вто­ рого закона распределения Лапласа, как иногда называют нормаль­ ное распределение. Распределение Лапласа называют также дву­ сторонним показательным распределением. Случайная величина X непрерывного типа имеет распределение Вейбулла с параметрами а е R , Ъ> 0 и п е N , если ее плотность имеет вид На рис. 3.16,3.17 приведены графики этих функций (случай п = 2). должны положить параметры а и а 2 равными выборочным значе­ ниям статистик Х пвыб и s 2nebl6). 3.8. Распределение Вейбулла Функция распределения этой случайной величины равна X+ Рис. 3.16 Рис. 3.17 88 Заметим, что в частном случае при п = 1, а = 0 распределение Вейбулла совпадает с уже известным нам показательным распреде­ лением. Математическое ожидание и дисперсия данной случайной вели­ чины X вычисляются по формулам М[х] = а + Ь-Г 1+ - V «У D[x] = b2- f т \ 1+ - К \ П) Ч Hjj где Г(х) - гамма-функция, которая для х > 0 определяется равен­ ством Г(х) = jV*4 •e~'dt . О В табл. 3.1 приведены ее значения, необходимые для работы. Т а б л и ц а 3.1 Значения гамма-функции п 1 2 3 4 5 6 7 8 9 10 1 0,8862 0,8930 0,9064 0,9182 0,9277 0,9395 0,9417 0,9470 0,9514 2 1 0,9028 0,8862 0,8873 0,8930 0,8997 0,9064 0,°126 0,9182 Согласно методу моментов (см. 1.4.2-1.4.4) для оценки парамет­ ров распределения (при заданном п) мы имеем систему уравнений f О Хп =а + Ь- Г 1+ о2 _ 1,2Si, — U \ Пу ( С 'уЛ 1+ - V - Г ' V «V ч k j j откуда 89 b = 4 ( А ( П 1 + - - Г 1 + - 1 п) 1 nj a = X k - b Г V i ) v n ) Заметим, что при одних и тех же значениях выборочного среднего Х к и выборочной исправленной дисперсии si с ростом значения параметра п увеличивается скошенность влево графиков плотности (если параметры а и Ъ найдены по формулам, указанным выше). * ад я = 10 Рис. 3.18 Впервые данное распределение было использовано В.Вейбуллом для аппроксимации экспериментальных данных о прочности стали на разрыв при усталостных испытаниях. Оно широко используется для описания закономерностей отказов шарикоподшипников, вакуумных приборов, элементов электроники, при исследовании на прочность различных строительных и дорожных материалов. 3.9. Распределение Парето Случайная величина X непрерывного типа имеет распределение Парето с параметрами а > 2 и х0 > 0 , если ее плотность задается формулой [ 0 , х < х о; / ( х ) = ^ос-х° а^+1 90 Функция распределения этой случайной величины равна О, х < х 0; 1 - , х > х 0. f W = V У На рис. 3.19, 3.20 приведены графики этих функций. Рис. 3.19 Математическое ожидание и дисперсия случайной величины X, имеющей распределение Парето, вычисляются по формулам М[Х] = ф г ] = а-х„ а - 1 ( а - 2 ) ( а - 1 ) 2 (условие а > 2 необходимо для существования дисперсии). Согласно методу моментов (см. 1.4.2-1.4.4), в качестве оценок этих параметров следует брать М[Х] = Х,-, D[x]=sl В результате получим систему двух уравнений с двумя неиз­ вестными для оценки параметров а и хд по результатам выборки, откуда находим: 91 X l х = Х , 1 Х \ 1 + - ^ Распределение Парето получило широкое распространение в различных задачах экономической статистики, начиная с работ В.Парето (1897 г.) о распределении доходов. Считалось, что рас­ пределение Парето достаточно хорошо описывает распределение доходов, превышающих некоторый уровень. Т а б л и ц а 3.2 1 х —— Значения большой функции Лапласа Ф(х) = —/=— j e 2 dt л/2тс -с© (функции распределения стандартизованной нормальной случайной величины N (0,1)) X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 1 2 3 4 5 6 7 8 9 10 11 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636] 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9438 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 92 Окончание табл. 3.2 1 2 3 4 5 6 7 8 9 10 11 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0.9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,^963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 Примечание. При использовании табл. 3.2 следует помнить следующие прави­ ла: Ф (-х) = 1 - Ф (х); Ф(х) »1 при дг > 3,5; Ф(дс) « 0 при х < -3,5 (причем погрешность в этих приближенных равенствах - менее 10-4). Т а б л и ц а 3.3 Квантили ир стандартизованного нормального распределения N(0,1) Р 0,9 0,95 0,975 0,99 0,995 0,999 0,9995 U 1,282 1,645 1,96 2,326 2,576 3,09 3,291 93 Примечания: 1. Квантилем порядка р называется такое число ир , что 2. При использовании табл. 3.3 следует помнить следующее пра­ вило: ы, = - и р . 4. НЕКОТОРЫЕ СВЕДЕНИЯ О ХИ-КВАДРАТ Важную роль в математической статистике наряду с нормаль­ ным распределением играет так называемое хи-квадрат распределе- Пусть имеется и независимых случайных величин Z ,,Z 2, ... , Z n, каждая из которых имеет стандартизованное нормальное распреде­ ление, т.е. нормальное распределение N(0; 1) с нулевым средним и единичной дисперсией (см. подраздел 1.1). Определим новую слу­ чайную величину вида %гп = Z J + Z2 + ... + Zn2. Эта величина на­ зывается х 1 - случайной величиной с п степенями свободы. Число степеней свободы п определяет число независимых квад­ ратов, входящих в сумму. Ясно, что величина x l Для любого п > 1 принимает только положительные значения. Функция плотности х 2 -распределения равна где Г(х) = Jt xA - е 1 dt - гамма-функция. Не надо пугаться столь громоздкого вида определения плотности т.к. на практике она редко используется непосредственно. Наглядное представление о схематическом поведении этой функции дает рис. 4.1. Р ( х < и „ ) = р ) . РАСПРЕДЕЛЕНИИ 2 ние ( х - распределение). Оно определяется следующим образом. 0, х <0; 1 п Л X о Рис. 4.1 Известно, что математическое ожидание и дисперсия случайной величины x l равны: м \х1 ] = П’ 4 с ; ] = 2 и . Т а б л и ц а 4.1 Таблица квантилей %2„ р хи-квадрат распределения i n р-+ 0,005 0,01 0,025 0,05 0,1 0,9 0,95 0,975 0,99 0,995 1 2 3 4 5 6 7 8 9 10 11 1 0,000 0,000 0,001 0,004 0,016 2,71 3,84 5,02 6,63 7,88 2 0,01 0,02 0,051 0,103 0,211 4,61 5,99 7,38 9,21 10,6 3 0,071 0,115 0,216 0,352~ 0,584 6,25 7,81 9,35 и ,з 12,8 4 0,207 0,297 0,484 0,711 1,06 7,78 9,49 1Ы 13,3 14,9 5 0,412 0,554 0,831 1,15 1,61 9,24 11,1 12,8 15,1 16,7 6 0,676 0,872 1,24 1,64 2,20 10,6 12,6 14,4 16,8 18,5 7 0,989 1,24 1,69 2,17 2,83 12,0 14,1 16,0 18,5 20,3 8 1,34 1,65 2,18 2,73 3,49 13,4 15,5 17,5 20,1 22,0 9 1,73 2,09 2,70 3,33 4,17 14,7 16,9 19,0 21,7 23,6 10 2,16 2,56 3,25 3,94 4,87 16,0 18,3 20,5 23,2 25,2 И 2,60 3,05 3,82 4,57 5,58 17,3 19,7 21,9 24,7 26,8 12 3,07 3,57 4,40 5,23 6,30 18,5 21,0 23,3 26,2 28,3 95 Окончание табл. 4.1 1 2 3 4 5 6 1 7 8 9 10 И 13 3,57 4,11 5,01 5,89 7,04 19,8 22,4 24,7 27,7 29,8 14 7,07 4,66 5,63 6,57 7,79 21,1 23,7 26,1 29,1 31,3 15 4,60 5,23 6,26 7,26 8,55 22,3 25,0 27,5 30,6 32,8 16 5,14 5,81 6,91 7,96 9,31 23,5 26,3 28,8 32,0 34,3 17 5,70 6,41 7,56 8,67 10,1 24,8 27,6 30,2 33,4 35,7 18 6,26 7,01 8,23 9,39 10,9 26,0 28,9 31,5 34,8 37,2 19 6,84 7,63 8,91 10,1 11,7 27,2 30,1 32,9 36,2 38,6 20 7,43 8,26 9,59 10,9 12,4 28,4 31,4 34,2 37,6 40,0 21 8,03 8,90 10,3 11,6 13,2 29,6 32,7 35,5 38,9 41,4 22 8,64 9,54 11,011,7 12,3 14,0 30,8 33,9 36,8 40,3 42,8 23 9,26 10,2 11,7 13,1 14,8 32,0 35,2 38,1 41,6 44,2 24 9,89 10,9 12,4 13,8 15,7 33,2 36,4 39,4 43,0 45,6 25 10,5 11,5 13,1 14,6 16,5 34,4 37,7 40,6 44,3 46,9 26 11,2 12,2 13,8 15,4 17,3 35,6 38,9 41,9 45,6 48,3 27 11,8 12,9 14,6 16,2 18,1 36,7 40,1 43,2 47,0 49,6 28 12,5 13,6 15,3 16,9 18,9 37,9 41,3 44,5 48,3 51,0 29 13,1 14,3 16,0 17,7 19,8 39,1 42,6 45,7 49,6 52,3 30 13,8 15,0 16,8 18,5 20,6 40,3 43,8 47,0 50,9 53,7 35 17,2 18,5 20,6 22,5 24,8 46,1 49,8 53,2 57,3 60,3 40 20,7 22,2 24,4 26,5 29,1 51,8 55,8 59,3 63,7 66,8 45 24,3 25,9 28,4 30,6 33,4 57,5 61,7 65,4 70,0 73,2 50 28,0 29,7 32,4 34,8 37,7 63,2 67,5 71,4 76,2 79,5 75 47,2 49,5 52,9 56,1 59,8 91,1 96,2 100,8 106,4 110,3 100 I 67,3 70,1 74,2 77,9 82,4 118,5 124,3 129,6 135,6 140,2 Примечание. Квантилем порядка р называется такое число %2п , что Pkl <%1,Р)=Р- 96 Рис. 4.2 5. НЕКОТОРЫЕ СВЕДЕНИЯ О РАСПРЕДЕЛЕНИИ СТЬЮДЕНТА Распределение Стьюдента играет важную роль в математической статистике. Оно определяется следующим образом. Пусть Y и Z - независимые случайные величины, причем величина Y имеет %2 - распределение с п степенями свободы, а величина Z - стандартизо­ ванное нормальное распределение N (0; 1). Определим новую слу­ чайную величину: Распределение этой величины носит название распределение Стьюдента (t - распределение) с п степенями свободы. Ее плот­ ность вероятности имеет вид Очевидно, что график плотности симметричен относительно оси ординат, и поэтому ее математическое ожидание Z t где Г(х) = J7*'1 • е~' dt - гамма-функция. О Щ Л] = 0. Известно, что дисперсия График плотности случайной величины tn похож на график ма­ лой функции Лапласа, а при больших значениях п практически сов­ падает с ним. Закон распределения случайной величины t„ установил в 1908 г. английский химик и математик У .Г оссет, публиковавший свои тру­ ды под псевдонимом “Стьюдент”. Ниже приведена таблица квантилей t распределения Стью­ дента (напомним, что квантилем порядка р называется такое число tn р , что p { tn < 0 = Р ) - П р и использовании этой таблицы следу­ ет иметь в виду, что tnX_p = - t n (это хорошо видно из рисунка). Т а б л и ц а 5.1 Таблица квантилей tn распределения Стьюдента i n р —> 0,9 0,95 0,975 0,99 0,995 1 2 3 4 5 6 1 3,078 6Д14 12,706 31,821 63,657 2 1,886 2,920 4,303 6,965 9,925 3 1,638 2,353 3,182 4,541 5,841 98 Окончание табл. 5.1 1 2 3 4 5 6 4,6044 1,533 2,132 2,776 3,747 5 1 1,476 2,015 2,571 3,365 4,032 6 1,440 1,943 2,447 3,143 3,707 7 1,415 1,895 2,365 2,998 3,499 8 1,397 1,860 2,306 2,896 3,355 9 1,383 1,833 2,262 2,821 3,250 10 1,372 1,812 2,226 2,764 3,169 11 1,363 1,796 2,201 2,718 3,106 12 1,356 1,782 2,179 2,681 3,055 13 1,350 1,771 2,160 2,650 3,012 14 1,345 1,761 2,145 2,624 2,977 15 1,341 1,753 2,131 2,602 2,947 16 1,337 1,746 2,120 2,583 2,921 17 1,333 1,740 2,110 2,567 2,898 18 1,330 1,734 2,101 2,552 2,878 19 1,328 1,729 2,093 2,539 2,861 20 1,325 1,725 2,086 2,528 2,845 21 1,323 1.721 2,080 2,518 2,831 22 1,321 1,717 2,074 2,508 2,819 23 1,319 1,714 2,069 2,500 2,807 24 1.318 1,711 2,064 2,492 2,797 25 . 1.316 1,708 2,060 2,485 2,787 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 28 1,313 1,701 2,048 2,467 2,763 29 1,311 1,699 2,045 2,462 2,756 30 1,310 1,697 2,042 2,457 2,750 40 1,303 1,684 2,021 2,423 2,704 60 1,296 1,671 2,000 2,390 2,660 120 1 1,289 1,658 1,980 2,358 2,617 оо 1 1,282 1,645 1,960 2,326 2,576 99 Л и т е р а т у р а 1.А й в а з я н С . А. Статистическое исследование зависимостей. - М.: Металлургия, 1968. 2. Б у л д ы к Г . М . Теория вероятностей и математическая ста­ тистика. -М .: Выш. школа, 1989. 3. Г е р а с и м о в и ч А . И. Математическая статистика. - Мн.: Выш. школа, 1983. 4. К о л д е Я . К . Практикум по теории вероятностей и матема­ тической статистике. - М.: Высш. школа, 1991. 5. К о л е м а е в В. А. , К а л и н и н а В . Н . Теория вероятностей и математическая статистика. - М.: Индгра, 1997. 6. Л о з и н с к и й С . Н. Сборник задач по теории вероятностей и математической статистике. - М.: Статистика, 1975. 7. Л ь в о в с к и й Е . Н. Статистические методы построения эм­ пирических формул. - Мн.: Выш. школа, 1988. 8. М и к у л и к Н . А . , Р е й з и н а Г .Н . Решение технических задач по теории вероятностей и математической статистике. - Мн.: Выш. школа, 1991. 9. Х о л ь д А. Математическая статистика с техническими приложениями. - М.: Иностранная литература, 1956. 10. Х у д с о н Д . Статистика для физиков. - М.: Мир, 1970. 100 С о д е р ж а н и е В в е д е н и е ................................................................................... 3 1. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРКИ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ........................... 6 1.1. Теория вероятностей и математическая статистика............ 6 1.2. Генеральная совокупность и выборка................................. 8 1.3. Методы описательной статистики....................................... 9 1.3.1. Вариационный ряд. Эмпирическая функция распределения..................................................................... 10 1.3.2. Глазомерный метод обоснования гипотезы о законе распределения случайной величины.................................. 13 1.3.3. Некоторые показатели расположения................................ 17 1.3.4. Некоторые показатели разброса (рассеяния).......... .. 19 1.3.5. Группированные данные.................................................... 21 1.3.6. Графические представления выборки................................ 25 1.3.7. Некоторые дополнительные характеристики выборки... 28 1.3.8. Некоторые замечания о числовых характеристиках выборки................................................................................ 30 1.4. Статистическое оценивание параметров............................ 31 1.4.1. Свойства точечных оценок.................................................. 34 1.4.2. Метод моментов для нахождения оценок параметров распределения по выборке.................................................. 36 1.4.3. Оценка математического ожидания случайной величины по результатам наблюдений................................................ 36 1.4.4. Оценка дисперсии и среднеквадратического отклонения случайной величины по результатам наблюдений.......... 39 1.5. Точность статистических оценок........................................ 42 1.5.1. Доверительное оценивание.................. ........... .................. 42 1.5.2. Доверительный интервал для математического ожидания нормально распределенной случайной величины с известным среднеквадратическим отклонением.............. 44 1.5.3. Доверительный интервал для математического ожидания нормально распределенной случайной величины с неизвестным среднеквадратическим отклонением.......... 46 101 1.5.4. Доверительный интервал для оценки дисперсии нормально распределенной случайной величины............ 48 2. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ........................ 50 2.1. Статистические гипотезы...................................................... 51 2.2. Проверка статистических гипотез........................................ 52 2.2.1. Критерии согласия.............................................................. 53 2.2.2. Некоторые замечания к практическому использованию критериев согласия.............................................................. 55 2.2.3. Проверка гипотезы о значении математического ожидания нормального распределения.............................. 57 2.3. Проверка гипотезы об общем виде закона распределения случайной величины.............................................................. 60 2.3.1. Критерий согласия Пирсона (критерий хи-квадрат)........ 61 2.3.2. Схема применения критерия Пирсона для проверки сложной гипотезы о законе распределения...................... 64 2.3.3. Примеры применения критерия Пирсона для проверки гипотезы о законе распределения...................................... 66 2.3.4. Некоторые другие критерии согласия................................ 69 2.3.5. Критерий согласия Колмогорова для простой гипотезы. . 70 2.3.6. Критерий согласия омега-квадрат для простой гипотезы. 72 3. НЕКОТОРЫЕ ЧАСТО ИСПОЛЬЗУЮЩИЕСЯ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ.................................................................... 73 3.1. Нормальное распределение.................................................... 73 3.2. Логнормальное распределение.............................................. 76 3.3. Усеченные нормальные распределения................................ 78 3.4. Распределение Пуассона........................................................ 81 3.5. Равномерное распределение.................................................. 83 3.6. Показательное распределение................................................ 85 3.7. Распределение Лапласа.......................................................... 86 3.8. Распределение Вейбулла........................................................ 88 3.9. Распределение Парето............................................................ 90 4. НЕКОТОРЫЕ СВЕДЕНИЯ О ХИ-КВАДРАТ РАСПРЕДЕЛЕНИИ.................................................................... 94 5. НЕКОТОРЫЕ СВЕДЕНИЯ О РАСПРЕДЕЛЕНИИ СТЬЮДЕНТА............................................................................ 97 Л и т е р а т у р а .............................................................................. 100 Учебное издание ВЕРЕМЕНЮК Валентин Валентинович КОЖУШКО Валерий Васильевич МОРОЗ Ольга Александровна СТАТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРКИ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Учебно-методическое пособие к лабораторной работе по высшей математике для студентов строительных специальностей Редактор Т.А.Палилова. Корректор М.П.Антонова ___________ Компьютерная верстка Л.М.Чернышевич___________ Подписано в печать 26.01.2002. Формат 60x84 1/16. Бумага типографская № 2. Печать офсетная. Гарнитура Таймс. ______ Уел, печ. л. 6,1. Уч.-изд. л. 4,7. Тираж 100. Заказ 174.______ Издатель и полиграфическое исполнение: Белорусская государственная политехническая академия. Лицензия ЛВ №155 от30.01.98.220027, Минск, проспект Ф.Скорины, 65.