16 analiza de regresie. Metode de statistică matematică

16 analiza de regresie.  Metode de statistică matematică
16 analiza de regresie. Metode de statistică matematică

Analiza de regresie examinează dependența unei anumite cantități de o altă cantitate sau de mai multe alte cantități. Analiza de regresie este utilizată în principal în prognoza pe termen mediu, precum și în prognoza pe termen lung. Perioadele pe termen mediu și lung permit stabilirea unor schimbări în mediul de afaceri și luarea în considerare a impactului acestor modificări asupra indicatorului studiat.

Pentru a efectua o analiză de regresie, este necesar:

    disponibilitatea datelor anuale privind indicatorii studiați,

    disponibilitatea previziunilor unice, de ex. previziuni care nu se îmbunătățesc cu date noi.

Analiza de regresie se realizează de obicei pentru obiecte care au o natură complexă, multifactorială, precum volumul investițiilor, profiturile, volumele vânzărilor etc.

La metoda de prognoză normativă se determină modalităţile şi termenii de realizare a stărilor posibile ale fenomenului, luate ca scop. Vorbim despre prezicerea realizării stărilor dorite ale fenomenului pe baza unor norme, idealuri, stimulente și scopuri predeterminate. O astfel de prognoză răspunde la întrebarea: în ce moduri se poate realiza ceea ce s-a dorit? Metoda normativă este folosită mai des pentru prognozele programatice sau țintite. Se utilizează atât o expresie cantitativă a standardului, cât și o anumită scară a posibilităților funcției de evaluare.

În cazul utilizării unei expresii cantitative, de exemplu, a normelor fiziologice și raționale pentru consumul anumitor produse alimentare și nealimentare elaborate de specialiști pentru diferite grupuri ale populației, se poate determina nivelul de consum al acestor bunuri pentru anii precedenți realizării normei specificate. Astfel de calcule se numesc interpolare. Interpolarea este o modalitate de calculare a indicatorilor care lipsesc în seria temporală a unui fenomen, pe baza unei relații stabilite. Luând valoarea reală a indicatorului și valoarea standardelor acestuia ca membri extremi ai seriei dinamice, este posibil să se determine mărimea valorilor din această serie. Prin urmare, interpolarea este considerată o metodă normativă. Formula dată anterior (4), utilizată în extrapolare, poate fi utilizată în interpolare, unde y n nu va mai caracteriza datele reale, ci standardul indicatorului.

În cazul utilizării unei scale (câmp, spectru) a posibilităților funcției de evaluare, adică a funcției de distribuție a preferințelor, în metoda normativă, se indică aproximativ următoarea gradație: nedorit - mai puțin de dorit - mai de dorit - cel mai de dorit - optim (standard).

Metoda de previziune normativă ajută la elaborarea recomandărilor pentru creșterea nivelului de obiectivitate și, prin urmare, a eficacității deciziilor.

Modelare, poate cea mai dificilă metodă de prognoză. Modelarea matematică înseamnă descrierea unui fenomen economic prin formule, ecuații și inegalități matematice. Aparatul matematic ar trebui să reflecte cu acuratețe fundalul prognozei, deși este destul de dificil să reflecte pe deplin întreaga adâncime și complexitate a obiectului prezis. Termenul „model” este derivat din cuvântul latin modelus, care înseamnă „măsură”. Prin urmare, ar fi mai corect să considerăm modelarea nu ca o metodă de prognoză, ci ca o metodă de studiere a unui fenomen similar pe un model.

Într-un sens larg, modelele sunt numite înlocuitori pentru obiectul de studiu, care sunt într-o asemenea similitudine cu acesta, încât vă permite să obțineți noi cunoștințe despre obiect. Modelul trebuie considerat ca o descriere matematică a obiectului. În acest caz, modelul este definit ca un fenomen (subiect, instalație) care se află în oarecare corespondență cu obiectul studiat și îl poate înlocui în procesul de cercetare, prezentând informații despre obiect.

Cu o înțelegere mai restrânsă a modelului, acesta este considerat ca obiect de prognoză, studiul său permite obținerea de informații despre posibilele stări ale obiectului în viitor și modalități de realizare a acestor stări. În acest caz, scopul modelului predictiv este de a obține informații nu despre obiect în general, ci doar despre stările sale viitoare. Apoi, la construirea unui model, poate fi imposibil să se verifice direct corespondența acestuia cu obiectul, deoarece modelul reprezintă doar starea sa viitoare, iar obiectul însuși poate fi în prezent absent sau să aibă o existență diferită.

Modelele pot fi materiale și ideale.

Modelele ideale sunt folosite în economie. Cel mai perfect model ideal pentru o descriere cantitativă a unui fenomen socio-economic (economic) este un model matematic care utilizează numere, formule, ecuații, algoritmi sau o reprezentare grafică. Cu ajutorul modelelor economice determinați:

    relația dintre diverși indicatori economici;

    diverse tipuri de restricții impuse indicatorilor;

    criterii de optimizare a procesului.

O descriere semnificativă a unui obiect poate fi reprezentată sub forma schemei sale formalizate, care indică ce parametri și informații inițiale trebuie colectate pentru a calcula valorile dorite. Un model matematic, spre deosebire de o schemă formalizată, conține date numerice specifice care caracterizează un obiect.Dezvoltarea unui model matematic depinde în mare măsură de ideea prognozatorului despre esența procesului care se modelează. Pe baza ideilor sale, el propune o ipoteză de lucru, cu ajutorul căreia se creează o înregistrare analitică a modelului sub formă de formule, ecuații și inegalități. În urma rezolvării sistemului de ecuații, se obțin parametri specifici funcției, care descriu modificarea variabilelor dorite în timp.

Ordinea și succesiunea lucrărilor ca element al organizării previziunii se determină în funcție de metoda de prognoză utilizată. De obicei, această lucrare se desfășoară în mai multe etape.

Etapa 1 - retrospecția predictivă, adică stabilirea obiectului prognozei și a fundalului prognozei. Lucrarea în prima etapă se desfășoară în următoarea secvență:

    formarea unei descrieri a unui obiect din trecut, care include o analiză pre-prognozată a obiectului, o evaluare a parametrilor acestuia, semnificația lor și relațiile reciproce,

    identificarea și evaluarea surselor de informații, procedura și organizarea lucrului cu acestea, colectarea și plasarea informațiilor retrospective;

    stabilirea obiectivelor cercetării.

Efectuând sarcinile de retrospecție predictivă, prognozatorii studiază istoria dezvoltării obiectului și fundalul prognozei pentru a obține descrierea sistematică a acestora.

Etapa 2 - diagnostic predictiv, în cadrul căreia se studiază o descriere sistematică a obiectului prognozei și a fondului de prognoză pentru a identifica tendințele în dezvoltarea acestora și a selecta modele și metode de prognoză. Lucrarea se realizează în următoarea secvență:

    dezvoltarea unui model de obiect previzionat, inclusiv o descriere formală a obiectului, verificarea gradului de adecvare a modelului la obiect;

    selectarea metodelor de prognoză (principale și auxiliare), elaborarea unui algoritm și a programelor de lucru.

Etapa a 3-a - patronajul, adică procesul de dezvoltare extinsă a prognozei, incluzând: 1) calculul parametrilor preziși pentru o anumită perioadă de timp; 2) sinteza componentelor individuale ale prognozei.

Etapa a 4-a - evaluarea prognozei, inclusiv verificarea acesteia, adică determinarea gradului de fiabilitate, acuratețe și validitate.

În cursul prospectării și evaluării, sarcinile de prognoză și evaluarea acesteia sunt rezolvate pe baza etapelor anterioare.

Etaparea indicată este aproximativă și depinde de metoda principală de prognoză.

Rezultatele prognozei sunt intocmite sub forma unui certificat, raport sau alt material si sunt prezentate clientului.

În prognoză, poate fi indicată abaterea prognozei de la starea reală a obiectului, care se numește eroare de prognoză, care se calculează prin formula:

;
;
. (9.3)

Surse de erori în prognoză

Principalele surse pot fi:

1. Simplu transfer (extrapolare) de date din trecut în viitor (de exemplu, compania nu are alte opțiuni de prognoză, cu excepția unei creșteri de 10% a vânzărilor).

2. Incapacitatea de a determina cu exactitate probabilitatea unui eveniment și impactul acestuia asupra obiectului studiat.

3. Dificultăți neprevăzute (evenimente perturbatoare) care afectează implementarea planului, de exemplu, concedierea bruscă a șefului departamentului de vânzări.

În general, acuratețea prognozării crește odată cu acumularea de experiență în prognoză și dezvoltarea metodelor acesteia.

Analiza regresiei este o metodă de modelare a datelor măsurate și de studiere a proprietăților acestora. Datele constau din perechi de valori ale variabilei dependente (variabila răspuns) și ale variabilei independente (variabila explicativă). Modelul de regresie este o funcție a variabilei independente și a parametrilor cu o variabilă aleatoare adăugată.

Analiza corelației și analiza regresiei sunt subiecte înrudite statistici matematice, și au scopul de a studia dependența statistică a unui număr de cantități pe baza datelor din eșantion; dintre care unele sunt aleatorii. Cu dependența statistică, cantitățile nu sunt legate funcțional, ci ca variabile aleatoare sunt date de distribuția comună de probabilitate.

Cercetarea dependenței variabile aleatoare conduce la modele de regresie și la analiza de regresie bazată pe date eșantionate. Teoria probabilității și statistica matematică sunt doar un instrument pentru studierea dependenței statistice, dar nu urmăresc stabilirea unei relații cauzale. Ideile și ipotezele despre o legătură cauzală trebuie aduse dintr-o altă teorie care să permită o explicație semnificativă a fenomenului studiat.

Datele numerice au de obicei relații explicite (cunoscute) sau implicite (ascunse) între ele.

Indicatorii care se obțin prin metode de numărare directă sunt în mod clar legați, adică sunt calculați după formule cunoscute anterior. De exemplu, procentele de finalizare a planului, nivelurile, gravitație specifică, variații de sumă, variații procentuale, rate de creștere, rate de creștere, indici etc.

Conexiunile de al doilea tip (implicite) nu sunt cunoscute dinainte. Cu toate acestea, este necesar să fii capabil să explici și să prezici (predice) fenomene complexe pentru a le gestiona. Prin urmare, cu ajutorul observațiilor, specialiștii caută să dezvăluie dependențe ascunse și să le exprime sub formă de formule, adică modelează matematic fenomene sau procese. Una dintre aceste posibilități este oferită de analiza corelației-regresiune.

Modelele matematice sunt construite și utilizate în trei scopuri generale:

  • * pentru explicații;
  • * pentru predicție;
  • * Pentru conducere.

Folosind metodele de analiză de corelare și regresie, analiștii măsoară gradul de apropiere a legăturilor dintre indicatori folosind coeficientul de corelație. În același timp, se găsesc conexiuni diferite ca forță (puternic, slab, moderat etc.) și diferite ca direcție (directă, inversă). Dacă relațiile se dovedesc a fi semnificative, atunci ar fi indicat să găsiți expresia lor matematică sub forma unui model de regresie și să evaluați semnificația statistică a modelului.

Analiza regresiei este numită principala metodă a statisticii matematice moderne pentru a identifica relațiile implicite și voalate între datele observaționale.

Enunțul problemei analizei regresiei este formulat după cum urmează.

Există un set de rezultate ale observațiilor. În acest set, o coloană corespunde indicatorului pentru care este necesară stabilirea unei relații funcționale cu parametrii obiectului și mediului reprezentați de coloanele rămase. Necesar: stabilirea unei relații cantitative între indicator și factori. În acest caz, sarcina analizei de regresie este înțeleasă ca sarcina identificării unei astfel de dependențe funcționale y = f (x2, x3, ..., xt), care descrie cel mai bine datele experimentale disponibile.

Ipoteze:

numărul de observații este suficient pentru manifestarea tiparelor statistice privind factorii și relațiile acestora;

datele prelucrate conțin unele erori (zgomot) datorate erorilor de măsurare, impactul unor factori aleatori necontabilizați;

matricea rezultatelor observaționale este singura informație despre obiectul studiat care este disponibilă înainte de începerea studiului.

Funcția f (x2, x3, ..., xt), care descrie dependența indicatorului de parametri, se numește ecuație (funcție) de regresie. Termenul de „regresie” (regresie (lat.) - retragere, întoarcere la ceva) este asociat cu specificul uneia dintre sarcinile specifice rezolvate în stadiul formării metodei.

Este oportun să împărțiți soluția problemei analizei regresiei în mai multe etape:

preprocesarea datelor;

alegerea tipului de ecuații de regresie;

calculul coeficienților ecuației de regresie;

verificarea adecvării funcției construite la rezultatele observațiilor.

Preprocesarea include standardizarea matricei de date, calcularea coeficienților de corelație, verificarea semnificației acestora și excluderea parametrilor nesemnificativi din luare în considerare.

Alegerea tipului de ecuație de regresie Sarcina de a determina dependența funcțională care descrie cel mai bine datele este asociată cu depășirea unui număr de dificultăți fundamentale. În cazul general, pentru datele standardizate, dependența funcțională a indicatorului de parametri poate fi reprezentată ca

y = f(x1, x2, …, xm) + e

unde f este o funcție necunoscută anterior care trebuie determinată;

e - eroare de aproximare a datelor.

Această ecuație se numește ecuație de regresie eșantion. Această ecuație caracterizează relația dintre variația indicatorului și variațiile factorilor. O măsură a corelației măsoară proporția de variație a indicatorului care este asociată cu variația factorilor. Cu alte cuvinte, corelația dintre un indicator și factori nu poate fi interpretată ca o relație între nivelurile acestora, iar analiza de regresie nu explică rolul factorilor în crearea unui indicator.

O altă caracteristică se referă la evaluarea gradului de influență a fiecărui factor asupra indicatorului. Ecuația de regresie nu oferă o evaluare a influenței separate a fiecărui factor asupra indicatorului; o astfel de evaluare este posibilă numai dacă toți ceilalți factori nu sunt legați de cel studiat. Dacă factorul studiat este asociat cu alții care afectează indicatorul, atunci se va obține o caracteristică mixtă a influenței factorului. Această caracteristică conține atât influența directă a factorului, cât și influența indirectă exercitată prin legătura cu alți factori și influența acestora asupra indicatorului.

Nu se recomandă includerea factorilor în ecuația de regresie care sunt slab legați de indicator, dar sunt strâns legați de alți factori. Factorii care sunt legați funcțional între ei nu sunt incluși în ecuație (pentru aceștia, coeficientul de corelație este 1). Includerea unor astfel de factori duce la degenerarea sistemului de ecuații de estimare a coeficienților de regresie și la incertitudinea soluției.

Funcția f trebuie aleasă astfel încât eroarea e să fie într-un anumit sens minimă. Pentru a selecta o conexiune funcțională, se înaintează o ipoteză despre carei clase îi poate aparține funcția f și apoi se selectează „cea mai bună” funcție din această clasă. Clasa de funcții selectată trebuie să aibă o oarecare „netezime”, adică. Modificările „mici” ale valorilor argumentului ar trebui să provoace modificări „mici” ale valorilor funcției.

Un caz special utilizat pe scară largă în practică este un polinom de gradul întâi sau o ecuație de regresie liniară

Pentru a selecta tipul de dependență funcțională, se poate recomanda următoarea abordare:

în spațiul parametrilor, punctele cu valorile indicatoare sunt afișate grafic. Cu un număr mare de parametri, se pot construi puncte pentru fiecare dintre ei, obținându-se distribuții bidimensionale de valori;

prin localizarea punctelor și pe baza analizei esenței relației dintre indicator și parametrii obiectului se face o concluzie despre tipul aproximativ de regresie sau variantele sale posibile;

după calcularea parametrilor se evaluează calitatea aproximării, adică. evaluează gradul de apropiere a valorilor calculate și efective;

dacă valorile calculate și reale sunt apropiate în întreaga zonă de activitate, atunci problema analizei de regresie poate fi considerată rezolvată. În caz contrar, puteți încerca să alegeți un alt tip de polinom sau o altă funcție analitică, cum ar fi una periodică.

Calculul coeficienților ecuației de regresie

Este imposibil să rezolvi unic un sistem de ecuații pe baza datelor disponibile, deoarece numărul de necunoscute este întotdeauna mai mare decât numărul de ecuații. Sunt necesare ipoteze suplimentare pentru a depăși această problemă. Bun simț solicită: este de dorit să se aleagă coeficienții polinomului astfel încât să se asigure o eroare minimă în aproximarea datelor. Se pot aplica diverse măsuri pentru a evalua erorile de aproximare. Ca o astfel de măsură, eroarea pătratică medie și-a găsit o aplicare largă. Pe baza acesteia, a fost dezvoltată o metodă specială de estimare a coeficienților ecuațiilor de regresie, metoda celor mai mici pătrate (LSM). Această metodă vă permite să obțineți estimări de probabilitate maximă ale coeficienților necunoscuți ai ecuației de regresie cu o distribuție normală a variantei, dar poate fi aplicată oricărei alte distribuții a factorilor.

MNC se bazează pe următoarele prevederi:

valorile valorilor și factorilor de eroare sunt independente și, prin urmare, necorelate, adică se presupune că mecanismele de generare a zgomotului nu sunt legate de mecanismul de formare a valorilor factorilor;

așteptarea matematică a erorii e trebuie să fie egală cu zero (componenta constantă este inclusă în coeficientul a0), cu alte cuvinte, eroarea este o valoare centrată;

estimarea eșantionului a varianței erorii ar trebui să fie minimă.

Dacă modelul liniar este inexact sau parametrii sunt măsurați inexact, atunci în acest caz LSM permite găsirea unor astfel de valori ale coeficienților pentru care modelul liniar descrie cel mai bine obiectul real în sensul criteriului de abatere standard ales.

Calitatea ecuației de regresie rezultată este evaluată prin gradul de apropiere dintre rezultatele observațiilor indicatorului și valorile prezise de ecuația de regresie din puncte date spații de parametri. Dacă rezultatele sunt apropiate, atunci problema analizei regresiei poate fi considerată rezolvată. În caz contrar, ar trebui să modificați ecuația de regresie și să repetați calculele pentru a estima parametrii.

Dacă există mai mulți indicatori, problema analizei regresiei este rezolvată independent pentru fiecare dintre ei.

Analizând esența ecuației de regresie, trebuie reținute următoarele prevederi. Abordarea luată în considerare nu oferă o evaluare separată (independentă) a coeficienților - o modificare a valorii unui coeficient implică o modificare a valorilor altora. Coeficienții obținuți nu trebuie considerați ca contribuția parametrului corespunzător la valoarea indicatorului. Ecuația de regresie este doar o bună descriere analitică a datelor disponibile și nu o lege care descrie relația dintre parametri și un indicator. Această ecuație este utilizată pentru a calcula valorile indicatorului într-un interval dat de modificări ale parametrilor. Este de utilizare limitată pentru calcule în afara acestui interval, de exemplu. poate fi folosit pentru rezolvarea problemelor de interpolare și, într-o măsură limitată, pentru extrapolare.

Motivul principal al inexactității prognozei este nu atât incertitudinea extrapolării dreptei de regresie, cât o variație semnificativă a indicatorului din cauza unor factori neluați în considerare în model. Limitarea posibilității de prognozare este condiția de stabilitate a parametrilor neluați în considerare în model și natura influenței factorilor luați în considerare în model. Dacă se schimbă drastic Mediul extern, atunci ecuația de regresie întocmită își va pierde sensul.

Prognoza obținută prin înlocuirea valorii așteptate a parametrului în ecuația de regresie este o prognoză punctuală. Probabilitatea ca o astfel de prognoză să devină realitate este neglijabilă. Este recomandabil să se determine intervalul de încredere al prognozei. Pentru valorile individuale ale indicatorului, intervalul ar trebui să ia în considerare erorile în poziția liniei de regresie și abaterile valorilor individuale de la această linie.

REZULTATE

Tabelul 8.3a. Statistici de regresie
Statistici de regresie
Multiplu R 0,998364
R-pătrat 0,99673
R-pătrat normalizat 0,996321
eroare standard 0,42405
Observatii 10

Să ne uităm mai întâi la partea superioară a calculelor prezentate în Tabelul 8.3a, statisticile de regresie.

Valoarea R-pătrat, numită și măsură a certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în intervalul .

În cele mai multe cazuri, valoarea R-pătratului se află între aceste valori, numite extreme, adică. intre zero si unu.

Dacă valoarea pătratului R este aproape de unu, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. În schimb, o valoare R-pătrat apropiată de zero înseamnă o calitate slabă a modelului construit.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

Multiplu R- coeficientul de corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Multiplu R egal rădăcină pătrată din coeficientul de determinare, această valoare ia valori în intervalul de la zero la unu.

Într-o analiză de regresie liniară simplă, multiplu R este egal cu coeficientul de corelație Pearson. Într-adevăr, multiplu R în cazul nostru este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie
Cote eroare standard t-statistică
Intersecția în Y 2,694545455 0,33176878 8,121757129
Variabila X 1 2,305454545 0,04668634 49,38177965
* Se oferă o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor prezentate în tabelul 8.3b. Aici, sunt date coeficientul de regresie b (2,305454545) și offset-ul de-a lungul axei y, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile este determinată pe baza semnelor (negative sau pozitive) coeficienții de regresie(coeficientul b).

Dacă semnul la coeficient de regresie- pozitivă, relația variabilei dependente cu cea independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul la coeficient de regresie- negativă, relația dintre variabila dependentă și variabila independentă este negativă (inversa).

În tabelul 8.3c. sunt prezentate rezultatele ieșirii reziduurilor. Pentru ca aceste rezultate să apară în raport, este necesar să activați caseta de selectare „Reziduuri” la lansarea instrumentului „Regresie”.

RETRAGERE RĂMÂNĂ

Tabelul 8.3c. Rămășițe
Observare A prezis Y Rămășițe Solduri standard
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută

În lucrările sale datează din 1908. El a descris-o folosind exemplul muncii unui agent care vinde bunuri imobiliare. În notele sale, specialistul în vânzări de locuințe a ținut o evidență a unei game largi de date de intrare pentru fiecare clădire specifică. Pe baza rezultatelor licitației s-a determinat care factor a avut cel mai mare impact asupra prețului tranzacției.

Analiză un numar mare tranzacțiile au dat rezultate interesante. Mulți factori au influențat prețul final, conducând uneori la concluzii paradoxale și chiar la „outliers” definitive atunci când o casă cu potențial inițial ridicat a fost vândută la un indicator de preț mai mic.

Al doilea exemplu de aplicare a unei astfel de analize este munca căreia i-a fost încredințată determinarea remunerației angajaților. Complexitatea sarcinii era că se cerea să nu se distribuie o sumă fixă ​​tuturor, ci să se potrivească strict valoarea acesteia cu munca specifică efectuată. Apariția multor probleme cu soluții practic similare a necesitat un studiu mai detaliat al acestora la nivel matematic.

Un loc semnificativ a fost acordat secțiunii „analiza regresiei”, aceasta a combinat metodele practice folosite pentru studierea dependențelor care se încadrează sub conceptul de regresie. Aceste relații se observă între datele obținute în cursul studiilor statistice.

Printre numeroasele sarcini de rezolvat, el își propune trei obiective principale: definirea ecuației de regresie vedere generala; construirea de estimări ale parametrilor necunoscuți, care fac parte din ecuația de regresie; testarea ipotezelor de regresie statistică. În cursul studierii relației care ia naștere între o pereche de mărimi obținute în urma unor observații experimentale și care constituie o serie (mulțime) de tipul (x1, y1), ..., (xn, yn), acestea se bazează pe prevederile teoriei regresiei și să presupunem că pentru o cantitate Y se observă o anumită distribuție de probabilitate, în timp ce cealaltă X rămâne fixă.

Rezultatul Y depinde de valoarea variabilei X, această dependență poate fi determinată de diverse tipare, în timp ce acuratețea rezultatelor obținute este influențată de natura observațiilor și de scopul analizei. Modelul experimental se bazează pe anumite ipoteze care sunt simpliste, dar plauzibile. Condiția principală este ca parametrul X să fie o valoare controlată. Valorile sale sunt stabilite înainte de începerea experimentului.

Dacă în timpul experimentului se utilizează o pereche de valori XY necontrolate, atunci analiza de regresie se efectuează în același mod, dar pentru interpretarea rezultatelor, în timpul căreia se studiază relația dintre variabilele aleatoare studiate, se folosesc metode. Metodele statisticii matematice nu sunt un subiect abstract. Ei își găsesc aplicația în viață cel mai mult domenii diverse activitate umana.

În literatura științifică, termenul de analiză de regresie liniară a găsit o utilizare largă pentru a defini metoda de mai sus. Pentru variabila X se folosește termenul regresor sau predictor, iar variabilele Y dependente se mai numesc și variabile criteriu. Această terminologie reflectă doar dependența matematică a variabilelor, dar nu și relațiile cauzal-cauzoală.

Analiza de regresie este cea mai comună metodă utilizată în procesarea rezultatelor unei game largi de observații. Dependențele fizice și biologice sunt studiate prin mijloace aceasta metoda, este implementat atât în ​​economie, cât și în tehnologie. O serie de alte domenii utilizează modele de analiză de regresie. analiza dispersiei, analize statistice lucrează îndeaproape multidimensional cu acest mod de studiu.

În prezența unei corelații între factor și semnele rezultate, medicii trebuie adesea să determine cu ce valoare se poate schimba valoarea unui semn atunci când altul este modificat printr-o unitate de măsură general acceptată sau stabilită de către cercetătorul însuși.

De exemplu, cum se va schimba greutatea corporală a școlarilor din clasa I (fete sau băieți) dacă înălțimea lor crește cu 1 cm. În acest scop, se folosește metoda analizei regresiei.

Cel mai adesea, metoda analizei regresiei este utilizată pentru a dezvolta scale normative și standarde. dezvoltarea fizică.

  1. Definiţia regresion. Regresie - o funcție care vă permite să determinați valoarea medie a unui semn valoarea medie o altă caracteristică care este corelată cu prima.

    În acest scop se aplică un coeficient de regresie şi întreaga linie alte optiuni. De exemplu, puteți calcula numărul de răceli în medie la anumite valori ale temperaturii medii lunare a aerului în perioada toamnă-iarnă.

  2. Definirea coeficientului de regresie. Coeficient de regresie - valoare absolută, prin care valoarea unui atribut se modifică în medie atunci când un alt atribut asociat acestuia se modifică după unitatea de măsură stabilită.
  3. Formula coeficientului de regresie. R y / x \u003d r xy x (σ y / σ x)
    unde R y / x - coeficient de regresie;
    r xy - coeficientul de corelație între caracteristicile x și y;
    (σ y și σ x) - abaterile standard ale caracteristicilor x și y.

    În exemplul nostru;
    σ x = 4,6 (abaterea standard a temperaturii aerului în perioada toamnă-iarnă;
    σ y = 8,65 (abaterea standard a numărului de răceli infecțioase).
    Astfel, R y/x este coeficientul de regresie.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, adică cu o scădere a temperaturii medii lunare a aerului (x) cu 1 grad, numărul mediu de răceli infecțioase (y) în perioada toamnă-iarnă se va modifica cu 1,8 cazuri.

  4. Ecuația de regresie. y \u003d M y + R y / x (x - M x)
    unde y este valoarea medie a atributului, care ar trebui determinată atunci când valoarea medie a altui atribut (x) se modifică;
    x - valoarea medie cunoscută a unei alte caracteristici;
    R y/x - coeficientul de regresie;
    M x, M y - valori medii cunoscute ale caracteristicilor x și y.

    De exemplu, numărul mediu de răceli infecțioase (y) poate fi determinat fără măsurători speciale la orice valoare medie a temperaturii medii lunare a aerului (x). Deci, dacă x \u003d - 9 °, R y / x \u003d 1,8 boli, M x \u003d -7 °, M y \u003d 20 boli, atunci y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 boli.
    Această ecuație se aplică în cazul unei relații drepte între două caracteristici (x și y).

  5. Scopul ecuației de regresie. Ecuația de regresie este utilizată pentru a reprezenta linia de regresie. Acesta din urmă permite, fără măsurători speciale, să se determine orice valoare medie (y) a unui atribut, dacă valoarea (x) a altui atribut se modifică. Pe baza acestor date, se construiește un grafic - linie de regresie, care poate fi folosit pentru a determina numărul mediu de răceli la orice valoare a temperaturii medii lunare în intervalul dintre valorile calculate ale numărului de răceli.
  6. Regresie sigma (formula).
    unde σ Ru/x - sigma (deviația standard) a regresiei;
    σ y este abaterea standard a caracteristicii y;
    r xy - coeficientul de corelație între caracteristicile x și y.

    Deci, dacă σ y este abaterea standard a numărului de răceli = 8,65; r xy - coeficientul de corelație dintre numărul de răceli (y) și temperatura medie lunară a aerului în perioada toamnă-iarnă (x) este - 0,96, atunci

  7. Scopul regresiei sigma. Oferă o caracteristică a măsurii diversităţii caracteristicii rezultate (y).

    De exemplu, caracterizează diversitatea numărului de răceli la o anumită valoare a temperaturii medii lunare a aerului în perioada toamnă-iarnă. Deci, numărul mediu de răceli la temperatura aerului x 1 \u003d -6 ° poate varia de la 15,78 boli la 20,62 boli.
    La x 2 = -9°, numărul mediu de răceli poate varia de la 21,18 boli la 26,02 boli etc.

    Regresia sigma este utilizată în construirea unei scale de regresie, care reflectă abaterea valorilor atributului efectiv de la valoarea medie a acestuia reprezentată pe linia de regresie.

  8. Date necesare pentru calcularea și reprezentarea grafică a scalei de regresie
    • coeficient de regresie - Ry/x;
    • ecuația de regresie - y \u003d M y + R y / x (x-M x);
    • regresie sigma - σ Rx/y
  9. Secvența de calcule și reprezentarea grafică a scalei de regresie.
    • determinați coeficientul de regresie prin formulă (vezi paragraful 3). De exemplu, ar trebui să se determine cât de mult se va schimba greutatea corporală în medie (la o anumită vârstă în funcție de sex) dacă înălțimea medie se schimbă cu 1 cm.
    • conform formulei ecuației de regresie (a se vedea paragraful 4), determinați care va fi media, de exemplu, greutatea corporală (y, y 2, y 3 ...) * pentru o anumită valoare de creștere (x, x 2, x 3 ...).
      ________________
      * Valoarea lui „y” trebuie calculată pentru cel puțin trei valori cunoscute ale lui „x”.

      În același timp, se cunosc valorile medii ale greutății corporale și ale înălțimii (M x și M y) pentru o anumită vârstă și sex.

    • calculați sigma regresiei, cunoscând valorile corespunzătoare ale σ y și r xy și substituind valorile acestora în formulă (a se vedea paragraful 6).
    • pe baza valorilor cunoscute x 1, x 2, x 3 și a valorilor medii corespunzătoare lor y 1, y 2 y 3, precum și pe cele mai mici (y - σ ru / x) și mai mari (y + σ ru) / x) valorile (y) construiesc o scară de regresie.

      Pentru o reprezentare grafică a scării de regresie, valorile x, x 2 , x 3 (axa y) sunt mai întâi marcate pe grafic, adică. se construiește o linie de regresie, de exemplu, dependența greutății corporale (y) de înălțimea (x).

      Apoi, la punctele corespunzătoare y 1 , y 2 , y 3 sunt marcate valorile numerice ale sigma de regresie, adică. pe grafic găsiți cel mai mic și cea mai mare valoare y 1 , y 2 , y 3 .

  10. Uz practic scale de regresie. Se dezvoltă scale normative și standarde, în special pentru dezvoltarea fizică. Conform scalei standard, este posibil să se ofere o evaluare individuală a dezvoltării copiilor. În același timp, dezvoltarea fizică este evaluată ca fiind armonioasă dacă, de exemplu, la o anumită înălțime, greutatea corporală a copilului este în limita unei sigma de regresie la unitatea medie calculată a greutății corporale - (y) pentru o anumită înălțime (x) ( y ± 1 σ Ry / x).

    Dezvoltarea fizică este considerată dizarmonică în ceea ce privește greutatea corporală dacă greutatea corporală a copilului pentru o anumită înălțime se află în a doua sigma de regresie: (y ± 2 σ Ry/x)

    Dezvoltarea fizică va fi puternic dizarmonică atât din cauza excesului, cât și a greutății corporale insuficiente, dacă greutatea corporală pentru o anumită înălțime se află în a treia sigma a regresiei (y ± 3 σ Ry/x).

Conform rezultatelor studiu statistic dezvoltarea fizică a băieților de 5 ani, se știe că înălțimea lor medie (x) este de 109 cm, iar greutatea corporală medie (y) este de 19 kg. Coeficientul de corelație între înălțime și greutatea corporală este de +0,9, abaterile standard sunt prezentate în tabel.

Necesar:

  • calculați coeficientul de regresie;
  • folosind ecuația de regresie, determinați care va fi greutatea corporală așteptată a băieților de 5 ani cu o înălțime egală cu x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calculați sigma de regresie, construiți o scală de regresie, prezentați grafic rezultatele soluției acesteia;
  • trage concluziile adecvate.

Starea problemei și rezultatele soluționării acesteia sunt prezentate în tabelul rezumativ.

tabelul 1

Condițiile problemei Rezultate rezolvarea problemei
ecuația de regresie regresie sigma scala de regresie (greutate corporală estimată (în kg))
M σ r xy R y/x X La σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Înălțime (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Greutatea corporală (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluţie.

Concluzie. Astfel, scala de regresie în cadrul valorilor calculate ale greutății corporale vă permite să o determinați pentru orice altă valoare de creștere sau să evaluați dezvoltarea individuală a copilului. Pentru a face acest lucru, restabiliți perpendiculara pe dreapta de regresie.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sănătate publică și asistență medicală. Manual pentru licee. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Un curs de prelegeri despre sănătatea publică și îngrijirea sănătății: Partea 1. Sănătatea publică. - M.: Medicină, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. si etc. medicina socialași Organizația Sănătății (Manual în 2 volume). - Sankt Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. etc. Igiena socială și organizarea asistenței medicale ( Tutorial) - Moscova, 2000. - 432 p.
  6. S. Glantz. Statistica medico-biologică. Per din engleză. - M., Practică, 1998. - 459 p.