2.4 Визначення мінімального обсягу репрезентативноїнавчальної вибірки
Навчальна вибірка має на практиці скінченний обсяг n, що обумовлює наявність статистичної похибки e між імовірністю pi та емпіричною частотою ki /n знаходження значення i-ї ознаки розпізнавання у своєму контрольному полі допусків . Верхня оцінка похибкиe=|pi-| залежить від кількості випробувань n і визначається за теоремою Муавра-Лапласа:
(2.4.1)
де ki-кількість подій, при яких значення i-ї ознаки знаходиться в полі допусків ; qi=1-pi-імовірність того, що значення i-ї ознаки не належить полю допусків ; Ф(...)-функція Лапласа.
Визначення мінімального обсягу nmin репрезентативної навчальної вибірки здійснимо за умови отримання прийнятних з практичних міркувань статистичної похибки та оперативності алгоритму його обчислення. Ці вимоги є суперечливими, що обумовлює компромісний характер розв’язання задачі. Скористаємося методом динамічного довірчого інтервального оцінювання. Суть методу полягає в побудові після кожного випробування довірчого інтервалу, який оцінює ймовірність рі знаходження i-ї ознаки в полі контрольних допусків з імовірністю довіри 1-Q:
, (2.4.2)
де Q-рівень значущості (будь-яке наближене до нуля додатне число).
Визначення максимальної похибки eQ при заданому рівні значущості Q здійснюється із співвідношення
. (2.4.3)
З урахуванням властивості функції Лапласа Ф(х)=1-Ф(-х) перетворимо (2.4.3) до вигляду
. (2.4.4)
Наприклад, для Q=0.05 за таблицею значень функції Лапласа з урахуванням виразу (2.4.4) для Ф(х)=1-Q/2= =0.975 знайдемо значення аргументу функції . Тоді похибка eQ змінюється залежно від обсягу навчальної вибірки n за гіперболічним законом
. (2.4.5)
На рис. 2.3 наведено графік функції eQ= f(n) (крива 1) і умовно виділено три області значень аргументу, які відрізняються крутизною цієї функції. При цьому область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки eQ. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях Q графік функції eQ= f(n) буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.
Рисунок 2.3-До визначення обсягу навчальної вибірки:
На рис. 2.3 область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки eQ. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях Q графік функції eQ= f(n) буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.
Графічно довірчий інтервал можна побудувати за формулою (2.4.2), обчислюючи для кожного випробування за виразом (2.4.5) похибку eQ i відкладаючи її зверху та знизу від графіка частоти ki /n (крива 2). При цьому верхня (крива 3) та нижня (крива 4) межі довірчого інтервалу при збільшенні числа випробувань мають тенденцію до зближення з емпіричною частотою.
Для знаходження мінімального числа випробувань nmin, яке гарантує прийнятні з практичних міркувань величину похибки і оперативність реалізації алгоритму обчислювання, необхідно задати критерій зупинення випробувань.
Таким моментом можна вважати випробування, при якому поточний довірчий інтервал накривається заданим інтервалом [0,5±D], де?D?<0,5. Для багатьох практичних задач значення D визначається з інтервалу [0,3;0,4]за алгоритмом, наведеним, наприклад, у праці [138]. Останній (правий) перетин заданого інтервалу з однією з меж довірчого інтервалу визначає випробування nmin, яке гарантує з імовірністю 1-Q, що максимальна похибкаeQ не перебільшує значення функції ?Q =f(n) при n=nmin.
Таким чином, вибір nmin доцільно здійснювати в компромісній області ІІ (на рис. 2.3 nmin=54) за умови відсутності викидів значень емпіричної частоти до значень, близьких до нуля або одиниці.
У загальному випадку треба будувати довірчі інтервали для всіх N ознак і вибирати nmin за умови
nmin=(nmin 1, ..., nmin i, ..., nmin N).
На практиці для незалежних ознак розпізнавання можна вибирати nmin за довірчим інтервалом, побудованим для будь-якої однієї ознаки, що значно знижує обчислювальну трудомісткість алгоритму.