Для чого потрібні критерії згоди. Поняття про критерії згоди

У цьому п ° ми розглянемо один з питань, пов'язаних з перевіркою правдоподібності гіпотез, а саме-питання про узгодженість теоретичного і статистичного розподілу.

Припустимо, що дане статистичний розподіл вирівняні за допомогою деякої теоретичної кривої f (х)(Рис. 7.6.1). Як би добре не була підібрана теоретична крива, між нею і статистичним розподілом неминучі деякі розбіжності. Природно виникає питання: пояснюються ці розбіжності тільки випадковими обставинами, пов'язаними з обмеженим числом спостережень, або вони є суттєвими і пов'язані з тим, що підібрана нами крива погано вирівнює дане статистичний розподіл. Для відповіді на таке питання служать так звані «критерії згоди».

ЗАКОНИ РОЗПОДІЛУ ВИПАДКОВИХ ВЕЛИЧИН

Ідея застосування критеріїв згоди полягає в наступному.

На підставі даного статистичного матеріалу нам належить перевірити гіпотезу Н,яка полягає в тому, що випадкова величина Xпідпорядковується деякого певним законом розподілу. Цей закон може бути заданий в тій чи іншій формі: наприклад, у вигляді функції розподілу F (x)або у вигляді щільності розподілу f (х),або ж у вигляді сукупності ймовірностей p t,де p t- ймовірність того, що величина Xпотрапить в межі l-торозряду.

Так як з цих форм функція розподілу F (х)є найбільш загальною і визначає собою будь-яку іншу, будемо формулювати гіпотезу Н,як складається в тому, що величина Xмає функцію розподілу ^ (д :).

Для того щоб прийняти або спростувати гіпотезу Н,розглянемо деяку величину U,характеризує ступінь розбіжності теоретичного і статистичного розподілів. величина Uможе бути обрана різними способами; наприклад, в якості Uможна взяти суму квадратів відхилень теоретичних ймовірностей p tвід відповідних частот р *або ж суму тих "* ж квадратів з деякими коефіцієнтами (« вагами »), або ж максимальне відхилення статистичної функції розподілу F * (x)від теоретичної F (x)і т. д. Припустимо, що величина Uобрана тим чи іншим способом. Очевидно, це є деяка випадкова величина.Закон розподілу цієї випадкової величини залежить від закону розподілу випадкової величини X,над якою проводилися досліди, і від числа дослідів п.якщо гіпотеза Нвірна, то закон розподілу величини Uвизначається законом розподілу величини X(функцією F (x))і числом п.

Припустимо, що цей закон розподілу нам відомий. В результаті даної серії дослідів виявлено, що обрана нами міра

КРИТЕРІЇ ЗГОДИ

розбіжності Uприйняла деяке значення а.Питається, чи можна пояснити це випадковими причинами або ж це розбіжність надто велика і вказує на наявність суттєвої різниці між теоретичним і статистичним розподілами і, отже, на непридатність гіпотези Н?Для відповіді на це питання припустимо, що гіпотеза Нвірна, і обчислимо в цьому припущенні ймовірність того, що за рахунок випадкових причин, пов'язаних з недостатнім обсягом досвідченого матеріалу, міра розбіжності Uвиявиться не менше, ніж наблюденное нами в досвіді значення і,т. е. обчислимо ймовірність події:

Якщо ця ймовірність дуже мала, то гіпотезу Нслід відкинути як мало правдоподібну; якщо ж ця ймовірність значна, слід визнати, що експериментальні дані не суперечать гіпотезі Н.

Виникає питання про те, яким же способом слід вибирати міру розбіжності £ /? Виявляється, що при деяких способах її вибору закон розподілу величини Uмає досить простими властивостями і при досить великому ппрактично не залежить від функції F (x).Саме такими заходами розбіжності і користуються в математичній статистиці в якості критеріїв згоди.

Розглянемо один з найбільш часто вживаних критеріїв согласія- так званий «критерій у? »Пірсона.

Припустимо, що вироблено га незалежних дослідів, в кожному з яких випадкова величина Xприйняла певне значення. Результати дослідів зведені в kрозрядів і оформлені у вигляді статистичного ряду.

Для перевірки гіпотези про відповідність емпіричного розподілу теоретичному закону розподілу використовуються особливі статистичні показники - критерії згоди (або критерії відповідності). До них відносяться критерії Пірсона, Колмогорова, Романовського, Ястремського та ін. Більшість критеріїв згоди базується на використанні відхилень емпіричних частот від теоретичних. Очевидно, що чим менше ці відхилення, тим краще теоретичне розподіл відповідає емпіричному (або описує його).

критерії згоди- це критерії перевірки гіпотез про відповідність емпіричного розподілу теоретичному розподілу ймовірностей. Такі критерії поділяються на два класи: загальні та спеціальні. Загальні критерії згоди застосовні до самої загальної формулюванні гіпотези, а саме, до гіпотези про згоду спостережуваних результатів з будь-яким апріорно передбачуваним розподілом ймовірностей. Спеціальні критерії згоди припускають спеціальні нульові гіпотези, які формулюють згоду з певною формою розподілу ймовірностей.

Критерії згоди, спираючись на встановлений закон розподілу, дають можливість встановити, коли розбіжності між теоретичними і емпіричними частотами слід визнати несуттєвими (випадковими), а коли - істотними (невипадковими). З цього випливає, що критерії згоди дозволяють відкинути або підтвердити правильність висунутої при вирівнюванні ряду гіпотези про характер розподілу в емпіричному ряду і дати відповідь, чи можна прийняти для даного емпіричного розподілу модель, виражену деякими теоретичним законом розподілу.

Критерій згоди Пірсона c 2 (хі-квадрат) - один з основних критеріїв згоди. Запропонований англійським математиком Карлом Пірсоном (1857-1936) для оцінки випадковості (суттєвості) розбіжностей між частотами емпіричного і теоретичного розподілів:

Схема застосування критерію c 2 до оцінки узгодженості теоретичного та емпіричного розподілів зводиться до наступного:

1. Визначається розрахункова міра розбіжності.

2. Визначається число ступенів свободи.

3. За кількістю ступенів свободи n за допомогою спеціальної таблиці визначається.

4. Якщо, то при заданому рівні значимості α і числі ступенів свободи n гіпотезу про неістотність (випадковості) розбіжностей відхиляють. В іншому випадку гіпотезу можна визнати не суперечить отриманим експериментальним даним і з ймовірністю (1 - α) можна стверджувати, що розбіжності між теоретичними і емпіричними частотами випадкові.

рівень значущості- це ймовірність помилкового відхилення висунутої гіпотези, тобто ймовірність того, що буде відкинута правильна гіпотеза. У статистичних дослідженнях в залежності від важливості і відповідальності вирішуваних завдань користуються такими трьома рівнями значущості:

1) a = 0,1, тоді Р = 0,9;

2) a = 0,05, тоді Р = 0,95;

3) a = 0,01, тоді Р = 0,99.

Використовуючи критерій згоди c 2, необхідно дотримуватися таких умов:

1. Обсяг досліджуваної сукупності повинен бути достатньо великим ( N≥ 50), при цьому частота або чисельність групи повинна бути не менше 5. Якщо ця умова порушується, необхідно попередньо об'єднати невеликі частоти (менше 5).

2. Емпіричне розподіл має складатися з даних, отриманих в результаті випадкового відбору, тобто вони повинні бути незалежними.

Недоліком критерію згоди Пірсона є втрата частини первісної інформації, пов'язана з необхідністю угруповання результатів спостережень в інтервали і об'єднання окремих інтервалів з малим числом спостережень. У зв'язку з цим рекомендується доповнювати перевірку відповідності розподілів за критерієм c 2 іншими критеріями. Особливо це необхідно при порівняно малому обсязі вибірки ( n ≈ 100).

У статистиці критерій згоди Колмогорова(Також відомий, як критерій згоди Колмогорова - Смирнова) використовується для того, щоб визначити, чи підкоряються два емпіричних розподілу одному закону, або визначити, підпорядковується Чи отримане розподіл передбачуваної моделі. Критерій Колмогорова заснований на визначенні максимального розбіжності між накопиченими частотами або частості емпіричних або теоретичних розподілів. Критерій Колмогорова обчислюється за такими формулами:

де Dі d- відповідно максимальна різниця між накопиченими частотами ( f – f¢) і між накопиченими частості ( p – p¢) емпіричного і теоретичного рядів розподілів; N- число одиниць в сукупності.

Розрахувавши значення λ, за спеціальною таблицею визначається ймовірність, з якою можна стверджувати, що відхилення емпіричних частот від теоретичних випадкові. Якщо ознака приймає значення до 0,3, то це означає, що відбувається повний збіг частот. При великій кількості спостережень критерій Колмогорова здатний виявити будь-який відступ від гіпотези. Це означає, що будь-яка відмінність розподілу вибірки від теоретичного буде з його допомогою виявлено, якщо спостережень буде досить багато. Практична значимість цієї властивості не суттєва, так як в більшості випадків важко розраховувати на отримання великого числа спостережень в незмінних умовах, теоретичне уявлення про закон розподілу, якому повинна підкорятися вибірка, завжди наближене, а точність статистичних перевірок не повинна перевищувати точність обраної моделі.

Критерій згоди Романовськогозаснований на використанні критерію Пірсона, тобто вже знайдених значень c 2, і числа ступенів свободи:

де n - число ступенів свободи варіації.

Критерій Романовського зручний при відсутності таблиць для. якщо< 3, то расхождения распределений случайны, если же >3, то не випадкові і теоретичне розподіл не може служити моделлю для досліджуваного емпіричного розподілу.

Б. С. Ястремський використовував в критерії згоди не число ступенів свободи, а число груп ( k), Особливу величину q, що залежить від числа груп, і величину хі-квадрат. Критерій згоди Ястремськогомає таке ж значення, що і критерій Романовського, і виражається формулою

де c 2 - критерій згоди Пірсона; - число груп; q - коефіцієнт, для числа груп менше 20 рівний 0,6.

якщо Lфакт> 3, расхожденіz між теоретичними і емпіричними розподілами невипадкові, тобто емпіричне розподіл не відповідає вимогам нормального розподілу. якщо Lфакт< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Так як всі припущення про характер того чи іншого розподілу - це гіпотези, то вони повинні бути піддані статистичній перевірці за допомогою критеріїв згоди, Які дають можливість встановити, коли розбіжності між теоретичними і емпіричними частотами слід визнати несуттєвими, тобто випадковими, а коли - істотними (невипадковими). Таким чином, критерії згоди дозволяють відкинути або підтвердити правильність висунутої при вирівнюванні ряду гіпотези про характер розподілу в емпіричному ряду.

Існує ряд критеріїв згоди. Найчастіше застосовують критерії Пірсона, Романовського та Колмогорова.

Критерій згоди Пірсона - один з основних:

де k - число груп, на які розбито емпіричне розподіл,
- спостерігається частота ознаки в i-й групі,
- теоретична частота.
Для розподілу складено таблиці, де вказано критичне значення критерію згоди для обраного рівня значущості і ступенів свободи df. (Або)
Рівень значущості - ймовірність помилкового відхилення висунутої гіпотези, тобто ймовірність того, що буде відкинута правильна гіпотеза. У статистиці користуються трьома рівнями:

a = 0,10, тоді Р = 0,90 (в 10 випадках їх 100 може бути відкинута правильна гіпотеза);
a = 0,05, тоді Р = 0,95;
a = 0,01, тоді Р = 0,99.

Число ступенів свободи df визначається як число груп в ряду розподілу мінус число зв'язків: df = k -z. Під числом зв'язків розуміється число показників емпіричного ряду, використаних при обчисленні теоретичних частот, тобто показників, що пов'язують емпіричні і теоретичні частоти.
Наприклад, при вирівнюванні по кривій нормального розподілу є три зв'язку:
; ; .
Тому при вирівнюванні по кривій нормального розподілу число ступенів свободи визначається як df = k -3.
Для оцінки суттєвості розрахункове значення порівнюється з табличним.
При повному збігу теоретичного та емпіричного розподілів, в іншому випадку> 0. Якщо>, то при заданому рівні значущості і числі ступенів свободи гіпотезу про неістотність (випадковості) розбіжностей відхиляємо.
У разі якщо , Робимо висновок, що емпіричний ряд добре узгоджується з гіпотезою про передбачуване розподілі і з ймовірністю Р = (1-a) можна стверджувати, що розбіжність між теоретичними і емпіричними частотами випадково.
Критерій згоди Пірсона використовується, якщо обсяг сукупності досить великий, при цьому частота кожної групи повинна бути не менше 5.

Критерій Романовського з заснований на використанні критерію Пірсона, тобто вже знайдених значень, і числа ступенів свободи df:

Він зручний при відсутності таблиць для.
Якщо з<3, то расхождения распределений случайны, если же с>3, то не випадкові і теоретичне розподіл не може служити моделлю для досліджуваного емпіричного розподілу.

критерій Колмогорова l заснований на визначенні максимального розбіжності між накопиченими частотами і частостей емпіричних і теоретичних розподілів:
або,
де D і d - відповідно максимальна різниця між накопиченими частотами і накопиченими частості емпіричного і теоретичного рядів розподілів;
N - число одиниць сукупності.
Розрахувавши значення l, по таблиці Р (l) визначають ймовірність, з якою можна стверджувати, що відхилення емпіричних частот від теоретичних випадкові. Імовірність Р (l) може змінюватися від 0 до 1. При Р (l) = 1 відбувається повний збіг частот, Р (l) = 0 - повне розбіжність. Якщо l приймає значення до 0,3, то Р (l) = 1.
Основна умова використання критерію Колмогорова - досить велике число спостережень.

Для оцінки тісноти зв'язку застосовуються показники варіації:

1. Загальна дисперсія результативної ознаки - відображає сукупний вплив факторів:

2. факторна дисперсія результативної ознаки - відображає варіацію тільки від впливу досліджуваного фактора х:

Характеризує коливання вирівняних значень у хвід загальної середньої величини.

3. залишкова дисперсія відображає варіацію результативної ознаки увід вс ех інших, крім хчинників:

Співвідношення між факторною і загальної відображає міру тісноти зв'язку між хі у.

індекс детермінації - частка факторної дисперсії в загальній дисперсії. У разі якщо цей вислів уявити як, то Rце буде індекс кореляції .

На базі правила складання дисперсій (= + індекс кореляції можна представити як: або. Індекс кореляції застосовується для оцінки тісноти зв'язку при вс ех формах зв'язку.

Для вимірювання тісноти лин єйної зв'язку застосовується лин ейний коефіцієнт кореляції:

Якісна оцінка тісноти зв'язку показни їй дається за допомогою шкали Чеддока:

Розглянемо на умовному прикладі застосування регресійної-кореляційного аналізу зв'язку парної кореляції. Є вибіркова інформація про роботу 8 готелів, у яких різна середньорічна наповнюваність готельних номерів і різна рентабельність їх діяльності. В результаті регресійної-кореляційного аналізу вкрай важливо визначити, чи існує пряма залежність між наповнюваністю готельних номерів і якщо вона є, то наскільки вона тісний:

N пп	Наповнювати-ність (в %%) х	Рентабель- ність (в %%) у	х 2	у 2	ху	Вирівняні (теоретичне) у х
		8,2 7,0 9,3 8,1 9,5 10,5 7,5 6,3		67,24 49,00 86,49 65,61 90,25 110,25 56,25 39,69	492,0 364,0 669,6 526,5 712,5 840,0 420,0 315,0	7,61 6,65 9,05 8,21 9,41 10,01 7,13 6,41
		66,4		564,78	4339,6	64,48

Визначимо параметри рівняння лин єйної парної регресії:

Наше рівняння парної регресії матиме вигляд :. Підставами в це рівняння емпіричні значення х і розрахуємо теоретичні значення 7,61 і т. Д.

Тепер визначимо тісноту зв'язку між наповнюваністю готелів та рентабельністю їх діяльності:

В результаті проведеного аналізу встановлено, що між наповнюваністю готелів та рентабельністю їх діяльності існує пряма вельми висока залежність.

На практиці часто виникає вкрай важливо сть зробити оцінку близькості емпіричних частот до теоретичних. Таку оцінку можна зробити за допомогою критеріїв близькості, званих критеріями згоди. Найбільш часто застосовується для цих цілий їй - критерій згоди Пірсона (''Хі''- квадрат), який розраховується за формулою:

де f -емпіричні частоти,

Теоретичні частоти.

Оцінка близькості емпіричних частот до теоретичних визначається за ймовірністю досягнення даної величини Р ( ) при випадкових відхиленнях частот. У разі якщо ймовірність Р ( ) значно відрізняється від нуля (більше, ніж 0,05), то відхилення емпіричних частот від теоретичних можна вважати випадковими. У разі якщо Р ( )< 0,05, то відхилення не можна вважати випадковими, а емпіричне і теоретичні распредел ення принципово один від одного відрізняються.

величина залежить не тільки від відхилень фактичних частот від теоретичних, але і від кількості груп, на які розбита сукупність, в зв'язку з цим таблиці критичних значень розраховані для різних ступенів свободи варіювання емпіричних частот (додаток). Варто сказати, що для нормального распредел ення число ступенів свободи К = n-3, де n- число групп.Р ( , що значно перевищує 0,05. Це означає, що відхилення фактичних частот від емпіричних можна вважати випадковими, а саме распредел ення реалізації путівок близько до нормального распредел енію.

Додаток 1

Критерії згоди - поняття і види. Класифікація та особливості категорії "Критерії згоди" 2017, 2018.

При аналізі варіаційних рядів розподілу велике значення має, наскільки емпіричне розподілознаки відповідає нормальному. Для цього частоти фактичного розподілу потрібно порівняти з теоретичними, які характерні для нормального розподілу. Значить, потрібно за фактичними даними обчислити теоретичні частоти кривої нормального розподілу, що є функцією нормованих відхилень.

Інакше кажучи, емпіричну криву розподілу потрібно вирівняти кривої нормального розподілу.

Об'єктивна характеристика відповідності теоретичнихі емпіричних частотможе бути отримана за допомогою спеціальних статистичних показників, які називають критеріями згоди.

критерієм згодиназивають критерій, який дозволяє встановити, чи є розбіжність емпіричногоі теоретичногорозподілів випадковим або значущим, т. е. чи узгоджуються дані спостережень з висунутої статистичної гіпотезою або не узгоджуються. Розподіл генеральної сукупності, яке вона має в силу висунутої гіпотези, називають теоретичним.

Виникає необхідність встановити критерій(Правило), яке дозволяло б судити, чи є розбіжність між емпіричним і теоретичним розподілами випадковим або значущим. Якщо розбіжність виявиться випадковим, То вважають, що дані спостережень (вибірки) узгоджуються з висунутої гіпотезою про закон розподілу генеральної сукупності і, отже, гіпотезу приймають; якщо ж розбіжність виявиться значущим, То дані спостережень не узгоджуються з гіпотезою і її відкидають.

Зазвичай емпіричні і теоретичні частоти відрізняються в силу того, що:

розбіжність випадково і пов'язано з обмеженою кількістю спостережень;
розбіжність невипадково і пояснюється тим, що статистична гіпотеза про те, що генеральна сукупність розподілена нормально - є хибною.

Таким чином, критерії згодидозволяють відкинути або підтвердити правильність висунутої при вирівнюванні ряду гіпотези про характер розподілу в емпіричному ряду.

емпіричні частотиотримують в результаті спостереження. теоретичні частотирозраховують за формулами.

для закону нормального розподілуїх можна знайти в такий спосіб:

Σƒ i - сума накопичених (кумулятивних) емпіричних частот
h - різниця між двома сусідніми варіантами
σ - вибіркове середньоквадратичне відхилення
t-нормоване (стандартизоване) відхилення
φ (t) -функція щільності ймовірності нормального розподілу (знаходять по для відповідного значення t)

Є кілька критеріїв згоди, найбільш поширеними з яких є: критерій хі-квадрат (Пірсона), критерій Колмогорова, критерій Романовського.

Критерій згоди Пірсона χ 2- один з основних, який можна представити як суму відносин квадратів розбіжностей між теоретичними (f Т) і емпіричними (f) частотами до теоретичних частот:

k-число груп, на які розбито емпіричне розподіл,
f i -спостерігається частота ознаки в i-й групі,
f T -Теоретично частота.

Для розподілу χ 2 складені таблиці, де вказано критичне значення критерію згоди χ 2 для обраного рівня значущості α і ступенів свободи df (або ν).
Рівень значущості α - ймовірність помилкового відхилення висунутої гіпотези, тобто ймовірність того, що буде відкинута правильна гіпотеза. Р - статистична достовірністьприйняття вірною гіпотези. У статистиці найчастіше користуються трьома рівнями значущості:

α = 0,10, тоді Р = 0,90 (в 10 випадках з 100)

α = 0,05, тоді Р = 0,95 (в 5 випадках з 100)

α = 0,01, тоді Р = 0,99 (в 1 випадку з 100) може бути відкинута правильна гіпотеза

При повному збігу теоретичного та емпіричного розподілів χ 2 = 0, в іншому випадку χ 2> 0. Якщо χ 2 розр> χ 2 табл , То при заданому рівні значущості і числі ступенів свободи гіпотезу про неістотність (випадковості) розбіжностей відхиляємо.У разі, якщо χ 2 розр< χ 2 табл то гіпотезу приймаємо і з ймовірністю Р = (1-α) можна стверджувати, що розбіжність між теоретичними і емпіричними частотами випадково. Отже, є підстави стверджувати, що емпіричний розподіл підпорядковується нормальному розподілу. Критерій згоди Пірсона використовується, якщо обсяг сукупності досить великий (N> 50), при цьому, частота кожної групи повинна бути не менше 5.

Заснований на визначенні максимального розбіжності між накопиченими емпіричними і теоретичними частотами:

де D і d - відповідно, максимальна різниця між накопиченими частотами і накопиченими частості емпіричного і теоретичного розподілів.
По таблиці розподілу статистики Колмогорова визначають ймовірність, яка може змінюватися від 0 до 1. При Р (λ) = 1 відбувається повний збіг частот, Р (λ) = 0 - повне розбіжність. Якщо величина ймовірності Р значна по відношенню до знайденої величиною λ, то можна припустити, що розбіжності між теоретичним і емпіричним розподілами неістотні, т. Е. Носять випадковий характер.
Основна умова використання критерію Колмогорова - досить велике число спостережень.

Критерій згоди Колмогорова

Розглянемо як критерій Колмогорова (λ) застосовується при перевірці гіпотези про нормальний розподілгенеральної сукупності.Вирівнювання фактичного розподілу по кривій нормального розподілу складається з декількох етапів:

Порівнюють фактичні і теоретичні частоти.
За фактичними даними визначають теоретичні частоти кривої нормального розподілу, яка є функцією нормованого відхилення.
Перевіряють на скільки розподіл ознаки відповідає нормальному.

дляIVколонки таблиці:

В MS Excel нормоване відхилення (t) розраховується за допомогою функції НОРМАЛІЗАЦІЯ. Необхідно виділити діапазон вільних осередків за кількістю варіант (рядків електронної таблиці). Не знімаючи виділення, викликати функцію НОРМАЛІЗАЦІЯ. У діалоговому вікні вказати наступні осередки, в яких розміщені, відповідно, спостережувані значення (X i), середня (X) і середньоквадратичне відхилення Ϭ. Операцію обов'язково завершити одночаснимнатисканням клавіш Ctrl + Shift + Enter

дляVколонки таблиці:

Функцію щільності ймовірності нормального розподілу φ (t) знаходимо по таблиці значень локальної функції Лапласа для відповідного значення нормованого відхилення (t)

дляVIколонки таблиці: