загрузка...
 
3.3.3.Визначення щільності зв'язку між двома змінними величинами
Повернутись до змісту

3.3.3.Визначення щільності зв'язку між двома змінними величинами

Знайдений зв’язок між показником у та змінною х має вигляд регресійної залежності. Чим сильніша дія випадкових збурень, тим більше будуть розсіяні дослідні точки навколо кривої, що описується рівнян­ням регресії. В практиці технології машинобудування встановлення щільності зв’язку має важливе значення, наприклад, при визначенні впливу різних факторів на якість виробу чи на продуктивність обробки. У цих випадках виникає друга задача кореляційного аналізу — визна­чення щільності зв ’язку між змінними х та у.

Якщо досліджується зв’язок між двома змінними, тобто парою змін­них, то це парна кореляція. Якщо ж об’єктом вивчення є зв’язок між багатьма змінними, то застосовується методика множинної кореляції.

У першому наближенні форма і щільність кореляційного зв’язку між двома величинами може бути визначена на кореляційному полі. На ньо­му зображуються графічно всі експериментальні дані у вигляді точок, координати кожної з яких є парою випадкових чисел (х, у).

 

Рис. 3.7. Кореляційні поля при слабкому (о) та сильному (б) зв’язках між x та y.

 

Розглянемо два кореляційні поля: а та б (рис. 3.7). Лінії регресії за­лежності  розташовані в обох полях однаково. Однак, як бачи­мо, точки поля б ближче до лінії регресії, ніж точки поля а.

Якщо б у повністю визначався значенням х, то всі точки лежали б на лінії регресії. Чим більший вплив випадкових збурень, тим більше точ­ки віддалені від лінії регресії.

Найбільш важливою характеристикою щільності зв’язку двох змінних величин є кореляційний момент цих величин, який також нази­вають моментом зв’язку випадкових величин. Кореляційний момент двох випадкових величин х та у, якщо ці величини дискретні, матиме такий вигляд:

м

де М(х), М(у) — математичні сподівання значень випадкових величних та у відповідно;  — можливі значення величини (х, у);  — ймовірність того, що х набуває значення

Кореляційний момент є мірою зв’язку випадкових величин. Однак безпосередньо застосовувати його для дослідження щільності зв’язку змінних величин незручно, бо він залежить від одиниць вимірювання цих величин. Щоб позбутися цього обмеження, здійснюють нормуван­ня кореляційного моменту, створивши такий показник щільності зв’язку двох величин, як коефіцієнт кореляції

де — середні квадратичні відхилення випадкових величин х та у, які визначаються з рівнянь:

де N— кількість значень дискретної випадкової величини (ху).

Якщо дослідження щільності зв’язку між двома величинами х та у здійснюється за результатами проведення N дослідів, кожен з яких за­дає одну точку з координатами  на кореляційному полі, то значен­ня математичних сподівань М(х), М(у) замінюють у практичних випад­ках середніми арифметичними  значення дисперсій — їх оцінками відповідно, а ймовірність появи ij - точки — часто-

тою . Тоді коефіцієнт кореляції визначиться як

Де  — частота появи точки з парою значень  

Коефіцієнт кореляції характеризує тільки лінійну залежність змінних х та у, коли при зростанні значень однієї з них значення іншої лінійно спадають або зростають.

У загальному випадку для визначення щільності зв’язку використо­вується інший показник — кореляційне відношення ?. За основу визна­чення щільності зв’язку у цьому випадку береться загальний показник мінливості досліджуваної функції — її повна дисперсія . Повною дисперсією  вважатимемо дисперсію змінної у відносно умовного генерального середнього арифметичного всіх дослідів  (рис. 3.7).

Вважатимемо, що повна дисперсія є результатом дії досліджувано­го факторах та сумарного випадкового фактора—спільної дії всіх інших збурень. Із дисперсійного аналізу відомо, що повна дисперсія може бути розкладена на дві складові, кожна з яких характеризуватиме дію одного із факторів. Тоді отримаємо

де  — дисперсія показника у відносно лінії регресії, яка характери­зує вплив випадкових факторів на мінливість у;  — дисперсія лінії регресії відносно генерального середнього арифметичного  , яка ха­рактеризує вплив фактора х на мінливість показника y.

Оскільки друга складова повної дисперсії оцінює вплив фактора х на у, то його використовують для оцінки щільності зв’язку між цими величинами. Щоб усунути вплив одиниці вимірювання, щільність зв’яз­ку оцінюється в одиницях загальної дисперсії за допомогою теоретич­ного кореляційного відношення

 

де — середнє квадратичне відхилення експериментальних точок від теоретичної лінії регресії; — середнє квадратичне відхилення тео­ретичної лінії регресії від загальної середньої.

Якщо теоретичне рівняння регресії невідоме, щільність зв’язку оці­нюють за допомогою емпіричного кореляційного відношення. В цьому випадку дисперсії замінюють їх оцінками  Зна­чення цих дисперсій визначаються за допомогою відомого положення про те, що, якщо ряд із N спостережень складається із к груп спостере­жень, то дисперсія всього ряду дорівнюватиме сумі внутрішньогрупової і міжгрупової дисперсій, тобто в нашому випадку

 

де  — виміряне значення змінної; Y — середнє всієї сукупності із за­гальної кількості N дослідів; . — середнє значення у в i-му інтервалі х (i= 1, 2, ..., k); Nx — частота появи значень в i-му інтервалі по х.

Перша складова цього виразу визначає ступінь розсіяння змінної y навколо групових середніх , тобто описує вплив випадкових факторів

на результати досліду. Друга складова, а саме ., описує вплив дослід­жуваного факторах на зміну функції . У цьому випадку відно­шення

визначатиме, яка частина повної мінливості функції буде зумов­лена зміною аргументу х. Це відношення називається емпіричним коре­ляційним відношенням. Показник ?2 змінюється від 0 до 1. Коли ?2= 0, то мінливість середніх у відсутня, а лінія регресії паралельна осі абс­цис. У цьому випадку вважається, що кореляційного зв’язку між x та у немає взагалі. Якщо ж ?2= 1, то всі дослідні точки лежатимуть на лінії регресії, а зв’язок між змінними х та у перетвориться на функціональ­ний. При збільшенні кількості дослідів емпірична лінія регресії набли­жається до теоретичної, а емпіричне кореляційне відношення ?2 до тео­ретичного.

Усі висновки будуть справедливими для аналізу розсіяння експери­ментальних точок відносно умовного середнього , а показник тісно­ти зв’язку між х та y матиме аналогічні властивості.

Коефіцієнт кореляції може бути трактований як частковий випадок теоретичного кореляційного відношення, коли зв’язок між змінними є лінійним. За абсолютною величиною він дорівнює  а значення набуває в інтервалі від -1 до +1.

Дійсно, розглянемо визначення теоретичного кореляційного відно­шення для лінійного рівняння регресії між змінними:

Тут коефіцієнт b — кутовий коефіцієнт нахилу прямої регресії до осі X. Він показує, на скільки одиниць змінюється у, якщо х змінюється на одну одиницю, тобто є коефіцієнтом чутливості у до зміни х. Тому було би логічно його використати для виміру тісноти зв’язку між змінни­ми регресії. Однак за такої оцінки слід врахувати те, що коефіцієнт b має розмірність, тому при довільному виборі одиниць виміру його зна­чення буде змінюватися. Для надання незалежності від одиниці виміру коефіцієнт b виражають через середні квадратичні відхилення змінних регресії і називають коефіцієнтом кореляції r, який визначає, на скільки ? змінюється y, коли х змінюється на одну ?. Коефіцієнт кореляції виз­начається як

Якщо врахувати вираз для b, отриманий методом найменших квад­ратів, то вираз для визначення коефіцієнта кореляції набуде вигляду, зруч­ного для обчислень при малій кількості експериментальних точок N без попереднього визначення коефіцієнтів рівняння прямої:



загрузка...