Korelācija

Kas ir korelācija:

Korelācija nozīmē līdzību vai attiecības starp divām lietām, cilvēkiem vai idejām . Tā ir līdzība vai līdzvērtība, kas pastāv starp divām dažādām hipotēzēm, situācijām vai objektiem.

Statistikas un matemātikas jomā korelācija attiecas uz pasākumu starp diviem vai vairākiem saistītajiem mainīgajiem lielumiem.

Termins "korelācija" ir sievišķīga lietvārds, kas veidojas no latīņu valodas sakariem.

Vārda korelāciju var aizstāt ar tādiem sinonīmiem kā: saistība, vienādojums, saikne, sarakste, analoģija un savienojums.

Korelācijas koeficients

Statistikā Pearson korelācijas koeficients (r), ko sauc arī par produkta momenta korelācijas koeficientu, mēra attiecību starp diviem mainīgajiem lielumiem tajā pašā metriskajā skalā.

Korelācijas koeficienta funkcija ir noteikt attiecību intensitāti, kas pastāv starp zināmajiem datu vai informācijas kopumiem.

Korelācijas koeficienta vērtība var mainīties no -1 līdz 1, un iegūtais rezultāts nosaka, vai korelācija ir negatīva vai pozitīva.

Lai interpretētu koeficientu, ir jāzina, ka 1 nozīmē, ka korelācija starp mainīgajiem ir pilnīga pozitīva un -1 nozīmē, ka tas ir ideāls negatīvs . Ja koeficients ir vienāds ar 0, tas nozīmē, ka mainīgie lielumi nav atkarīgi viens no otra.

Statistikā ir arī Spearmana korelācijas koeficients, kuram ir šāds nosaukums godinot statistiku Čārlzu Spīrmanu. Šī koeficienta funkcija ir izmērīt attiecību starp diviem mainīgajiem lielumiem, neatkarīgi no tā, vai tie ir lineāri vai ne.

Spearmana korelācija kalpo, lai novērtētu, vai attiecību starp abiem analizētajiem mainīgajiem lielumiem var mērīt ar monotonu funkciju (matemātiska funkcija, kas saglabā vai invertē sākotnējo secību attiecību).

Pearson korelācijas koeficienta aprēķins

1. metode. Pearson korelācijas koeficienta aprēķināšana, izmantojot kovariāciju un standarta novirzi.

Kur

S _XY ir kovarācija;

S _x un S _y apzīmē attiecīgi mainīgo x un y standarta novirzi.

Šajā gadījumā aprēķins ietver vispirms atrast kovarianci starp mainīgajiem lielumiem un katras no tām standarta novirzi. Tad kovariāciju dala ar standarta noviržu reizināšanu.

Bieži vien apgalvojums jau sniedz vai nu mainīgo lielumu standarta novirzes, vai arī kovarāciju starp tām, vienkārši izmantojot formulu.

2. metode) Pearson korelācijas koeficienta aprēķināšana ar neapstrādātiem datiem (bez kovarācijas vai standarta novirzes).

Izmantojot šo metodi, tiešākā formula ir šāda:

Piemēram, pieņemot, ka mums ir dati ar n = 6 divu mainīgo novērojumiem: glikozes līmenis (y) un vecums (x), aprēķins atbilst šādiem soļiem:

1. solis) Izveidojiet tabulu ar esošajiem datiem: i, x, y un pievienojiet tukšas slejas xy, x² un y²:

2. solis: reiziniet x un y, lai aizpildītu kolonnu "xy". Piemēram, 1. rindā būs: x1y1 = 43 × 99 = 4257.

3. solis. Paceliet x slejas vērtības un ierakstiet rezultātus slejā x². Piemēram, pirmajā rindā būs x ₁ 2 = 43 × 43 = 1849.

4. solis: dariet to pašu, kā 3. solī, tagad izmantojiet y kolonnu un ierakstiet savu vērtību kvadrātu kolonnā y². Piemēram, pirmajā rindā mums būs: y ₁ 2 = 99 × 99 = 9801.

5. solis: Iegūstiet visu kolonnu numuru summu un ievietojiet rezultātu kolonnu kājenē. Piemēram, vecuma X kolonnas summa ir vienāda ar 43 + 21 + 25 + 42 + 57 + 59 = 247.

6. solis: izmantojiet iepriekš minēto formulu, lai iegūtu korelācijas koeficientu:

Tādējādi mums ir:

Spearmana korelācijas koeficients

Spearmana korelācijas koeficienta aprēķins ir nedaudz atšķirīgs. Šim nolūkam mums ir jāorganizē mūsu dati šajā tabulā:

1. Ņemot vērā 2 datu pārus, mums tie jāievieš tabulā. Piemēram:

2. Ailē "Ranking A" mēs klasificēsim novērojumus, kas atrodas "Datumā A" arvien biežāk, "1" ir zemākā vērtība kolonnā, en (kopējais novērojumu skaits), augstākā vērtība slejā "Datums A ". Mūsu piemērā tas ir:

3. Mēs darām to pašu, lai iegūtu sleju "Klasifikācija B", tagad izmantojot novērojumus ailē "Dati B":

4. "d" ailē mēs atšķiram starp diviem reitingiem (A - B). Šeit signāls nav svarīgs.

5. Paaugstiniet katru no vērtībām kolonnā "d" un ierakstiet kolonnā d²:

6. Pievienojiet visus datus no kolonnas "d²". Šī vērtība ir Σd². Mūsu piemērā Σd² = 0 + 1 + 0 + 1 = 2

7. Tagad mēs izmantojam Spearmanas formulu:

Mūsu gadījumā n ir vienāds ar 4, jo mēs apskatām datu rindu skaitu (kas atbilst novērojumu skaitam).

8. Visbeidzot, mēs aizvietojam iepriekšējās formulas datus:

Lineārā regresija

Lineārā regresija ir formula, ko izmanto, lai novērtētu mainīgā (y) iespējamo vērtību, kad ir zināmi citu mainīgo (x) vērtības. "X" vērtība ir neatkarīgais vai paskaidrojošais mainīgais, un "y" ir atkarīgais mainīgais vai atbilde.

Lineārā regresija tiek izmantota, lai pārbaudītu, kā "y" vērtība var mainīties kā mainīgā "x" funkcija. Līniju, kas satur dispersijas pārbaudes vērtības, sauc par lineāro regresijas līniju.

Ja paskaidrojošajam mainīgajam "x" ir viena vērtība, regresiju sauc par vienkāršu lineāru regresiju .