Критерий колмогорова смирнова пример решения. Случайной величины

Критерий предназначен для сопоставления двух распределений: эмпирического с теоретическим , например, равномерным или нормальным; одного эмпирического распределения с другими эмпирическим распределением .

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

То есть сначала сопоставляются частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, сопоставляются всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, что служит основанием признать различия статистически достоверными. В формулу критерия λ включается эта разность. Чем больше эмпирическое значение λ, тем более существенны различия.

Ограничения критерия Колмогорова-Смирнова

1. Критерий требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, чтобы n 1,2 ≥ 50. Сопоставление эмпирического распределения с теоретическим иногда допускается при n ≥ 5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).

2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, можно за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточности и т.д. В то же время, если взять разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в методике Хекхаузена разным испытуемым предъявляются в разном порядке, невозможно говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Нельзя говорить об однонаправленном изменении признака при сопоставлении категорий «очередность рождения», «национальность», «специфика полученного образования»» и т.п. Эти данные представляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

Итак, невозможно накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упорядоченные по возрастанию или убыванию какого-либо признака категории, следует .

Автоматический расчет критерия Колмогорова-Смирнова

Чтобы произвести расчет данных по критерию, необходимо:

Включить поддержку JavaScript;

Выбрать вид сопоставляемых распределений: «эмпирического с теоретическим» или «эмпирического с эмпирическим»;

Ввести данные разрядов (на увеличение или уменьшение), частоты. Данные необходимо вводить по одному числу на строку, без пробелов, пропусков и т.д., вводить только цифры;

Произвести расчет, нажав на кнопку «Шаг 2».

В случае некорректной работы скрипта (ошибок в расчетах и пр.), просим вас .

На практике кроме критерия χ 2 часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения

называемое статистикой критерия Колмогорова.

Задавая уровень значимости α, можно найти соответствующее критическое значение

В таблице приводятся критические значения , критерия Колмогорова для некоторых α.

Таблица 4.2.

Схема применения критерия Колмогорова

1.Строится эмпирическая функция распределения и предполагаемая теоретическая функция распределения F(x) .

2.Определяется статистика Колмогорова D – мера расхождения между теоретическим и эмпирическим распределением и вычисляется величина

3. Если вычисленное значение λ больше критического , то нулевая гипотеза Н 0 о том, что случайная величина Х имеет заданный закон распределения, отвергается.

Если , то считают, что гипотеза Н 0 не противоречит опытным данным.

Пример. С помощью критерия Колмогорова на уровне значимости α=0,05 проверить гипотезу Н 0 о том, что случайная величина Х – выработка рабочих предприятия – имеет нормальный закон распределения.

Решение . 1. Построим эмпирическую и теоретическую функции распределения.

Эмпирическую функцию распределения строят по относительным накопленным частотам.

Теоретическую функцию распределения построим согласно формуле

где

Результаты вычислений сведем в таблицу:

Таблица 4.3.

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для сравнения эмпирического распределения с теоретическим.

Критерий позволяет найти точку, в которой сумма накопленных частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения. Нулевая гипотеза H 0 ={различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними)}.

Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом:

Проиллюстрируем использование критерия Колмогорова-Смирнова на примере.

При изучении творческой активности студентов были получены результаты для экспериментальных и контрольных групп (см. таблицу). Являются ли значимыми различия между контрольной и экспериментальной группами?

Уровень усвоения

Частота в экспериментальной группе

Частота в контрольной группе

Хороший

172 чел.

120 чел.

Приблизительный

36 чел.

49 чел.

Плохой

15 чел.

36 чел.

Объём выборки

n 1 =172+36+15=223

n 2 = 120+49+36=205

Вычисляем относительные частоты f , равные частному от деления частот на объём выборки, для двух имеющихся выборок.

В результате исходная таблица примет следующий вид:

Относительная частота экспериментальной группы (f эксп )

Относительная частота контрольной группы (f контр )

Модуль разности частот | f эксп – f контр |

172/223≈ 0.77

120/205≈ 0.59

0.18

36/223≈ 0.16

49/205≈ 0.24

0.08

15/223≈ 0.07

36/205≈ 0.17

Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается d max . В рассматриваемом примере 0.18>0.1>0.08, поэтому d max =0.18.

Эмпирическое значение критерия λ эмп определяется с помощью формулы:

Чтобы сделать вывод о схожести по рассматриваемому критерию между двумя группами, сравним экспериментальное значение критерия с его критическим значением, определяемым по специальной таблице, исходя из уровня значимости . В качестве нулевой гипотезы примем утверждение о том, что сравниваемые группы незначительно отличаются друг от друга по уровню усвоения. При этом нулевую гипотезу следует принять в том случае, если наблюдаемое значение критерия не превосходит его критического значения.

Считая, что , по таблице определяем критическое значение критерия: λ кр (0,05)=1,36.

Таким образом, λ эмп =1,86>1,36= λ кр. Следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.

Заметим, что объёмы рассматриваемых выборок должны быть достаточно большими: n 1 ≥50, n 2 ≥50.

​ Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в классическом понимании предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому известному закону распределения. Наиболее известно применение данного критерия для проверки исследуемых совокупностей на нормальность распределения .

1. История разработки критерия Колмогорова-Смирнова

Критерий Колмогорова-Смирнова был разработан советскими математиками Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Колмогоров А.Н. (1903-1987) - Герой Социалистического Труда, профессор Московского государственного университета, академик АН СССР - крупнейший математик XX века, является одним из основоположников современной теории вероятности.
Смирнов Н.В. (1900-1966)- член-корреспондент АН СССР, один из создателей непараметрических методов математической статистики и теории предельных распределений порядковых статистик.

Впоследствии критерий согласия Колмогорова-Смирнова был доработан с целью применения для проверки совокупностей на нормальность распределения американским статистиком, профессором Университета Джорджа Вашингтона Хьюбертом Лиллиефорсом (Hubert Whitman Lilliefors, 1928-2008). Профессор Лиллиефорс являлся одним из пионеров применения компьютерной техники в статистических расчётах.

Хьюберт Лиллиефорс

2. Для чего используется критерий Колмогорова-Смирнова?

Данный критерий позволяет оценить существенность различий между распределениями двух выборок, в том числе возможно его применение для оценки соответствия распределения исследуемой выборки закону нормального распределения.

3. В каких случаях можно использовать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова предназначен для проверки совокупностей данных, измеренных в количественной шкале .

Для большей достоверности полученных данных объемы рассматриваемых выборок должен быть достаточно большими: n ≥ 50. При размерах оцениваемой совокупности от 25 до 50 элементов, целесообразно применение поправки Большева.

4. Как рассчитать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова рассчитывается при помощи специальных статистических программ. В основе лежит статистика вида:

где sup S - точная верхняя грань множества S, F n - функция распределения исследуемой совокупности, F(x) - функция нормального распределения

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных.

Однако на практике обычно параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу ("насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных"), и приводятся вероятности Лиллиефорса (Lilliefors, 1967).

5. Как интерпретировать значение критерия Колмогорова-Смирнова?

Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

Критерий Колмогорова-Смирнова. Проверка гипотезы об однородности выборок

Гипотезы об однородности выборок – это гипотезы о том, что рассматриваемые выборки извлечены из одной и той же генеральной совокупности.

Пусть имеются две независимые выборки, произведенные из генеральных совокупностей с неизвестными теоретическими функциями распределения и .

Проверяемая нулевая гипотеза имеет вид против конкурирующей . Будем предполагать, что функции и непрерывны и для оценки используем статистику Колмогорова – Смирнова .

Критерий Колмогорова-Смирнова использует ту же самую идею, что и критерий Колмогорова. Однако различие заключается в том, что в критерии Колмогорова сравнивается эмпирическая функция распределения с теоретической, а в критерии Колмогорова-Смирнова сравниваются две эмпирические функции распределения.

Статистика критерия Колмогорова-Смирнова имеет вид:

, (9.1)

где и – эмпирические функции распределения, построенные по двум выборкам c объемами и .

Гипотеза отвергается, если фактически наблюдаемое значение статистики больше критического , т.е. , и принимается в противном случае.

При малых объемах выборок критические значения для заданных уровней значимости критерия можно найти в специальных таблицах. При (а практически при ) распределение статистики сводится к распределению Колмогорова для статистики . В этом случае гипотеза отвергается на уровне значимости , если фактически наблюдаемое значение больше критического , т.е. , и принимается в противном случае.

Пример 1. ^ ПРОВЕРКА ОДНОРОДНОСТИ ДВУХ ВЫБОРОК

Были осуществлены две проверки торговых точек с целью выявления недовесов. Полученные результаты сведены в таблицу:


^ Номер интервала

Интервалы недовесов, г

Частоты

Выборка 1

Выборка 2

1

0 – 10

3

5

2

10 – 20

10

12

3

20 – 30

15

8

4

30 – 40

20

25

5

40 – 50

12

10

6

50 – 60

5

8

7

60 – 70

25

20

8

70 – 80

15

7

9

80 – 90

5

5

Объем первой выборки был равен , а второй – .

Решение :

Обозначим и – накопленные частоты выборок 1 и 2;
, – значения их эмпирических функций распределения соответственно. Обработанные результаты сведем в таблицу:














10

3

5

0.027

0.050

0.023

20

13

17

0.118

0.170

0.052

30

28

25

0.254

0.250

0.004

40

48

50

0.436

0.500

0.064

50

60

60

0.545

0.600

0.055

60

65

68

0.591

0.680

0.089

70

90

88

0.818

0.880

0.072

80

105

95

0.955

0.950

0.005

90

110

100

1.000

1.000

0.000

Из последнего столбца таблицы видно, что . По формуле (9.1) получим . Из статистических таблиц известно, что . Так как , то принимается нулевая гипотеза , т.е. недовесы покупателям описываются одной и той же функцией распределения.

^

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ И ВЫЯВЛЕНИЕ ТРЕНДА


При анализе случайных данных часто возникает ситуации, когда требуется выяснить, являются ли наблюдения или оценки параметров статистически независимыми или же они подвержены тренду. Это особенно важно при анализе нестационарных данных.

Такие исследования, обычно, проводят на основе свободных от распределений или непараметрических методов , в которых относительно функции распределения исследуемых данных не делается никаких предположений.
^

Критерий серий


Рассмотрим последовательность наблюдённых значений случайной величины , причём каждое наблюдение отнесено к одному из двух взаимно исключаемых классов, которые можно обозначить просто (+) или
(–). Рассмотрим ряд примеров:

В каждом из этих примерах образуется последовательность вида:

^ Серией называется последовательность однотипных наблюдений, перед и после которой следуют наблюдения противоположного типа или же вообще нет никаких наблюдений.

В приведенной последовательности число наблюдений равно ; а количество серий равно .

Если последовательность наблюдений состоит из независимых исходов одной и той же случайной величины, т.е. если вероятность отдельных исходов [(+) или (−)] не меняется от наблюдения к наблюдению, то выборочное распределение числа серий в последовательности является случайной величиной со средним значением и дисперсией:

(9.2)

(9.3)

Здесь число исходов (+), а число исходов (−), естественно . В частном случае если , то:

. (9.4)

Предположим, что есть основание подозревать наличие тренда в последовательности наблюдений, т.е. есть основание считать, что вероятность появления (+) или (−) меняются от наблюдения к наблюдению. Существование тренда можно проверить следующим образом. Примем в качестве нулевой гипотезы тренда нет, т.е. предположим, что наблюдений являются независимыми исходами одной и той же случайной величины. Тогда для проверки гипотезы с любым требуемым уровнем значимости необходимо сравнить наблюденное число серий с границами области принятия гипотезы равными и , где .

Если наблюденное число серий окажется вне области принятия гипотезы, то нулевая гипотеза должна быть отвергнута с уровнем значимости . В противном случае нулевую гипотезу можно принять.

Пример 2. ^ ПРИМЕНЕНИЕ КРИТЕРИЯ СЕРИЙ

Имеется последовательность независимых наблюдений :


5.5

5.1

5.7

5.2

4.8

5.7

5.0

6.5

5.4

5.8

6.8

6.6

4.9

5.4

5.9

5.4

6.8

5.8

6.9

5.5

Проверим независимость наблюдений, подсчитав число серий в последовательности, полученной путем сравнения наблюдений с медианой. Применим критерий с уровнем значимости .

Из анализа данных получим, что значение является медианой. Тогда введем обозначения (+) при , (–) при . Итак, получим:

В нашем примере , а область принятия гипотезы имеет вид:

.

По статистическим таблицам находим . Т.к.

Вверх