загрузка...
 
2.4 Визначення мінімального обсягу репрезентативноїнавчальної вибірки
Повернутись до змісту

2.4 Визначення мінімального обсягу репрезентативноїнавчальної вибірки

Навчальна вибірка має на практиці скінченний обсяг  n, що обумовлює наявність статистичної похибки  e  між імовірністю  pi  та емпіричною частотою  ki /n  знаходження значення  i-ї ознаки розпізнавання у своєму контрольному полі допусків  . Верхня оцінка похибки e =|pi - | залежить від кількості випробувань  n  і визначається за теоремою Муавра-Лапласа:

            (2.4.1)

де  ki - кількість подій, при яких значення  i-ї ознаки знаходиться в полі допусків  ; qi=1- pi - імовірність того, що значення  i-ї ознаки не належить полю допусків  ; Ф(...) - функція Лапласа.

Визначення мінімального обсягу  nmin  репрезентативної навчальної вибірки здійснимо за умови отримання прийнятних з практичних міркувань статистичної похибки та оперативності  алгоритму його обчислення. Ці вимоги є суперечливими, що обумовлює компромісний характер розв’язання задачі. Скористаємося методом динамічного довірчого інтервального оцінювання. Суть методу полягає в побудові після кожного випробування довірчого інтервалу, який оцінює ймовірність  рі  знаходження  i-ї ознаки в полі контрольних допусків з імовірністю довіри  1-Q:

,             (2.4.2)

де  Q - рівень значущості (будь-яке наближене до нуля додатне число).

Визначення максимальної похибки  eQ  при заданому рівні значущості  Q  здійснюється із співвідношення

                            .                          (2.4.3)

З урахуванням властивості функції Лапласа  Ф(х)=1-Ф(-х)   перетворимо (2.4.3) до вигляду

                           .                          (2.4.4)

Наприклад, для  Q=0.05  за таблицею значень функції Лапласа з урахуванням виразу (2.4.4) для  Ф(х)=1-Q/2= =0.975 знайдемо значення аргументу функції . Тоді похибка  eQ  змінюється залежно від обсягу навчальної вибірки  n  за гіперболічним законом

                            .                      (2.4.5)

На рис. 2.3 наведено графік функції  eQ = f(n) (крива 1) і умовно виділено три області значень аргументу, які відрізняються крутизною цієї функції. При цьому область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки  eQ. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях  Q  графік функції  eQ = f(n)  буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.

 Рисунок 2.3-До визначення обсягу навчальної вибірки:

1- графік функції  eQ = f(n); 2-графік емпіричної частоти ; 3 - верхня межа довірчого інтервалу;

4 - нижня межа довірчого інтервалу

На рис. 2.3 область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки  eQ. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях  Q  графік функції  eQ = f(n)  буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.

Графічно довірчий інтервал можна побудувати за формулою (2.4.2), обчислюючи для кожного випробування   за виразом (2.4.5)  похибку  eQ  i відкладаючи її зверху та знизу від графіка частоти  ki /n  (крива 2). При цьому верхня   (крива 3) та нижня   (крива 4) межі довірчого інтервалу при збільшенні числа випробувань мають тенденцію до зближення з емпіричною частотою.

Для знаходження мінімального числа випробувань  nmin,  яке гарантує прийнятні з практичних міркувань величину похибки і оперативність реалізації алгоритму обчислювання, необхідно задати критерій зупинення випробувань.

Таким моментом можна вважати випробування, при якому поточний довірчий інтервал накривається заданим інтервалом [0,5±D], де ?D?< 0,5. Для багатьох практичних задач значення  D  визначається з інтервалу  [0,3;0,4] за алгоритмом, наведеним, наприклад, у праці [138]. Останній (правий) перетин заданого інтервалу з однією з меж довірчого інтервалу визначає  випробування  nmin, яке гарантує з імовірністю 1-Q, що максимальна похибка eQ  не перебільшує значення функції  ?Q =f(n)  при  n=nmin.

Таким чином, вибір nmin   доцільно здійснювати в компромісній області ІІ (на рис. 2.3  nmin=54) за умови відсутності викидів значень емпіричної частоти до значень, близьких до нуля або одиниці.

У загальному випадку треба будувати довірчі інтервали для всіх  N  ознак і вибирати  nmin  за умови

              nmin=(nmin 1, ..., nmin i, ..., nmin N).

На практиці для незалежних ознак розпізнавання можна вибирати  nmin  за довірчим інтервалом, побудованим для будь-якої однієї ознаки, що значно знижує обчислювальну трудомісткість алгоритму.



загрузка...