3.3.3.Визначення щільності зв'язку між двома змінними величинами
Знайдений зв’язок між показником у та змінною х має вигляд регресійної залежності. Чим сильніша дія випадкових збурень, тим більше будуть розсіяні дослідні точки навколо кривої, що описується рівнянням регресії. В практиці технології машинобудування встановлення щільності зв’язку має важливе значення, наприклад, при визначенні впливу різних факторів на якість виробу чи на продуктивність обробки. У цих випадках виникає друга задача кореляційного аналізу — визначення щільності зв ’язку між змінними х та у.
Якщо досліджується зв’язок між двома змінними, тобто парою змінних, то це парна кореляція. Якщо ж об’єктом вивчення є зв’язок між багатьма змінними, то застосовується методика множинної кореляції.
У першому наближенні форма і щільність кореляційного зв’язку між двома величинами може бути визначена на кореляційному полі. На ньому зображуються графічно всі експериментальні дані у вигляді точок, координати кожної з яких є парою випадкових чисел (х, у).
Рис. 3.7. Кореляційні поля при слабкому (о) та сильному (б) зв’язках між x та y.
Розглянемо два кореляційні поля: а та б (рис. 3.7). Лінії регресії залежності розташовані в обох полях однаково. Однак, як бачимо, точки поля б ближче до лінії регресії, ніж точки поля а.
Якщо б у повністю визначався значенням х, то всі точки лежали б на лінії регресії. Чим більший вплив випадкових збурень, тим більше точки віддалені від лінії регресії.
Найбільш важливою характеристикою щільності зв’язку двох змінних величин є кореляційний момент цих величин, який також називають моментом зв’язку випадкових величин. Кореляційний момент двох випадкових величин х та у, якщо ці величини дискретні, матиме такий вигляд:
м
де М(х), М(у) — математичні сподівання значень випадкових величних та у відповідно; — можливі значення величини (х, у); — ймовірність того, що х набуває значення
Кореляційний момент є мірою зв’язку випадкових величин. Однак безпосередньо застосовувати його для дослідження щільності зв’язку змінних величин незручно, бо він залежить від одиниць вимірювання цих величин. Щоб позбутися цього обмеження, здійснюють нормування кореляційного моменту, створивши такий показник щільності зв’язку двох величин, як коефіцієнт кореляції
де — середні квадратичні відхилення випадкових величин х та у, які визначаються з рівнянь:
де N— кількість значень дискретної випадкової величини (ху).
Якщо дослідження щільності зв’язку між двома величинами х та у здійснюється за результатами проведення N дослідів, кожен з яких задає одну точку з координатами на кореляційному полі, то значення математичних сподівань М(х), М(у) замінюють у практичних випадках середніми арифметичними значення дисперсій — їх оцінками відповідно, а ймовірність появи ij - точки — часто-
тою . Тоді коефіцієнт кореляції визначиться як
Де — частота появи точки з парою значень
Коефіцієнт кореляції характеризує тільки лінійну залежність змінних х та у, коли при зростанні значень однієї з них значення іншої лінійно спадають або зростають.
У загальному випадку для визначення щільності зв’язку використовується інший показник — кореляційне відношення ?. За основу визначення щільності зв’язку у цьому випадку береться загальний показник мінливості досліджуваної функції — її повна дисперсія . Повною дисперсією вважатимемо дисперсію змінної у відносно умовного генерального середнього арифметичного всіх дослідів (рис. 3.7).
Вважатимемо, що повна дисперсія є результатом дії досліджуваного факторах та сумарного випадкового фактора—спільної дії всіх інших збурень. Із дисперсійного аналізу відомо, що повна дисперсія може бути розкладена на дві складові, кожна з яких характеризуватиме дію одного із факторів. Тоді отримаємо
де — дисперсія показника у відносно лінії регресії, яка характеризує вплив випадкових факторів на мінливість у; — дисперсія лінії регресії відносно генерального середнього арифметичного , яка характеризує вплив фактора х на мінливість показника y.
Оскільки друга складова повної дисперсії оцінює вплив фактора х на у, то його використовують для оцінки щільності зв’язку між цими величинами. Щоб усунути вплив одиниці вимірювання, щільність зв’язку оцінюється в одиницях загальної дисперсії за допомогою теоретичного кореляційного відношення
де — середнє квадратичне відхилення експериментальних точок від теоретичної лінії регресії; — середнє квадратичне відхилення теоретичної лінії регресії від загальної середньої.
Якщо теоретичне рівняння регресії невідоме, щільність зв’язку оцінюють за допомогою емпіричного кореляційного відношення. В цьому випадку дисперсії замінюють їх оцінками Значення цих дисперсій визначаються за допомогою відомого положення про те, що, якщо ряд із N спостережень складається із к груп спостережень, то дисперсія всього ряду дорівнюватиме сумі внутрішньогрупової і міжгрупової дисперсій, тобто в нашому випадку
де — виміряне значення змінної; Y — середнє всієї сукупності із загальної кількості N дослідів; . — середнє значення у в i-му інтервалі х (i= 1, 2, ..., k); Nx — частота появи значень в i-му інтервалі по х.
Перша складова цього виразу визначає ступінь розсіяння змінної y навколо групових середніх , тобто описує вплив випадкових факторів
на результати досліду. Друга складова, а саме ., описує вплив досліджуваного факторах на зміну функції . У цьому випадку відношення
визначатиме, яка частина повної мінливості функції буде зумовлена зміною аргументу х. Це відношення називається емпіричним кореляційним відношенням. Показник ?2 змінюється від 0 до 1. Коли ?2= 0, то мінливість середніх у відсутня, а лінія регресії паралельна осі абсцис. У цьому випадку вважається, що кореляційного зв’язку між x та у немає взагалі. Якщо ж ?2= 1, то всі дослідні точки лежатимуть на лінії регресії, а зв’язок між змінними х та у перетвориться на функціональний. При збільшенні кількості дослідів емпірична лінія регресії наближається до теоретичної, а емпіричне кореляційне відношення ?2 до теоретичного.
Усі висновки будуть справедливими для аналізу розсіяння експериментальних точок відносно умовного середнього , а показник тісноти зв’язку між х та y матиме аналогічні властивості.
Коефіцієнт кореляції може бути трактований як частковий випадок теоретичного кореляційного відношення, коли зв’язок між змінними є лінійним. За абсолютною величиною він дорівнює а значення набуває в інтервалі від -1 до +1.
Дійсно, розглянемо визначення теоретичного кореляційного відношення для лінійного рівняння регресії між змінними:
Тут коефіцієнт b — кутовий коефіцієнт нахилу прямої регресії до осі X. Він показує, на скільки одиниць змінюється у, якщо х змінюється на одну одиницю, тобто є коефіцієнтом чутливості у до зміни х. Тому було би логічно його використати для виміру тісноти зв’язку між змінними регресії. Однак за такої оцінки слід врахувати те, що коефіцієнт b має розмірність, тому при довільному виборі одиниць виміру його значення буде змінюватися. Для надання незалежності від одиниці виміру коефіцієнт b виражають через середні квадратичні відхилення змінних регресії і називають коефіцієнтом кореляції r, який визначає, на скільки ? змінюється y, коли х змінюється на одну ?. Коефіцієнт кореляції визначається як
Якщо врахувати вираз для b, отриманий методом найменших квадратів, то вираз для визначення коефіцієнта кореляції набуде вигляду, зручного для обчислень при малій кількості експериментальних точок N без попереднього визначення коефіцієнтів рівняння прямої: