Cum se calculează media în excel. Matematică distractivă

Cum se calculează media în excel. Matematică distractivă

În cele mai multe cazuri, datele sunt concentrate în jurul unui punct central. Astfel, pentru a descrie orice set de date, este suficient să indicați valoarea medie. Luați în considerare succesiv trei caracteristici numerice care sunt utilizate pentru estimarea valorii medii a distribuției: media aritmetică, mediana și modul.

In medie

Media aritmetică (denumită adesea pur și simplu medie) este cea mai comună estimare a mediei unei distribuții. Este rezultatul împărțirii sumei tuturor valorilor numerice observate la numărul lor. Pentru un eșantion de numere X 1, X 2, ..., Xn, media eșantionului (notat cu simbolul ) egal \u003d (X 1 + X 2 + ... + Xn) / n, sau

unde este media eșantionului, n- marime de mostra, Xii-lea element mostre.

Descărcați nota în sau format, exemple în format

Luați în considerare calcularea mediei aritmetice a randamentelor medii anuale pe cinci ani a 15 fonduri mutuale cu foarte nivel inalt risc (fig. 1).

Orez. 1. Rentabilitatea anuală medie a 15 fonduri mutuale cu risc foarte ridicat

Media eșantionului se calculează după cum urmează:

Acesta este un randament bun, mai ales în comparație cu randamentul de 3-4% pe care l-au primit deponenții băncii sau uniunii de credit în aceeași perioadă de timp. Dacă sortați valorile randamentului, este ușor de observat că opt fonduri au un randament peste medie și șapte sub medie. Media aritmetică acționează ca un punct de echilibru, astfel încât fondurile cu venituri mici echilibrează fondurile cu venituri mari. Toate elementele eșantionului sunt implicate în calculul mediei. Niciunul dintre ceilalți estimatori ai mediei de distribuție nu are această proprietate.

Când se calculează media aritmetică. Deoarece media aritmetică depinde de toate elementele eșantionului, prezența valorilor extreme afectează în mod semnificativ rezultatul. În astfel de situații, media aritmetică poate distorsiona sensul datelor numerice. Prin urmare, atunci când se descrie un set de date care conține valori extreme, este necesar să se indice mediana sau media aritmetică și mediana. De exemplu, dacă rentabilitatea fondului RS Emerging Growth este eliminată din eșantion, media eșantionului a randamentului celor 14 fonduri scade cu aproape 1% până la 5,19%.

Median

Mediana este valoarea de mijloc a unui tablou ordonat de numere. Dacă matricea nu conține numere care se repetă, atunci jumătate din elementele sale vor fi mai mici și jumătate mai mult decât mediana. Dacă eșantionul conține valori extreme, este mai bine să folosiți mediana mai degrabă decât media aritmetică pentru a estima media. Pentru a calcula mediana unui eșantion, acesta trebuie mai întâi sortat.

Această formulă este ambiguă. Rezultatul depinde dacă numărul este par sau impar. n:

  • Dacă eșantionul conține un număr impar de articole, mediana este (n+1)/2- al-lea element.
  • Dacă eșantionul conține un număr par de elemente, mediana se află între cele două elemente din mijloc ale eșantionului și este egală cu media aritmetică calculată pentru aceste două elemente.

Pentru a calcula mediana pentru un eșantion de 15 fonduri mutuale cu risc foarte mare, trebuie mai întâi să sortăm datele brute (Figura 2). Atunci mediana va fi opusă numărului elementului mijlociu al probei; în exemplul nostru numărul 8. Excel are o funcție specială =MEDIAN() care funcționează și cu tablouri neordonate.

Orez. 2. Median 15 fonduri

Astfel, mediana este 6,5. Aceasta înseamnă că jumătate din fondurile cu risc foarte mare nu depășesc 6,5, în timp ce cealaltă jumătate o fac. Rețineți că mediana de 6,5 este puțin mai mare decât mediana de 6,08.

Dacă eliminăm profitabilitatea fondului RS Emerging Growth din eșantion, atunci mediana celor 14 fonduri rămase va scădea la 6,2%, adică nu la fel de semnificativ ca media aritmetică (Fig. 3).

Orez. 3. Median 14 fonduri

Modă

Termenul a fost introdus pentru prima dată de Pearson în 1894. Moda este numărul care apare cel mai des în eșantion (cel mai la modă). Moda descrie bine, de exemplu, reacția tipică a șoferilor la un semnal de circulație pentru a opri traficul. Un exemplu clasic de utilizare a modei este alegerea mărimii lotului de pantofi produs sau a culorii tapetului. Dacă o distribuție are mai multe moduri, atunci se spune că este multimodală sau multimodală (are două sau mai multe „vârfuri”). Multimodalitatea distribuţiei dă Informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea poate însemna că există mai multe opinii diferite. Multimodalitatea este, de asemenea, un indicator că eșantionul nu este omogen și că observațiile pot fi generate de două sau mai multe distribuții „suprapuse”. Spre deosebire de media aritmetică, valorile aberante nu afectează modul. Pentru variabile aleatoare distribuite continuu, cum ar fi randamentul mediu anual al fondurilor mutuale, modul uneori nu există deloc (sau nu are sens). Deoarece acești indicatori pot lua o varietate de valori, valorile repetate sunt extrem de rare.

Quartile

Quartilele sunt măsuri care sunt utilizate cel mai frecvent pentru a evalua distribuția datelor atunci când descriu proprietățile eșantioanelor numerice mari. În timp ce mediana împarte matricea ordonată în jumătate (50% din elementele matricei sunt mai mici decât mediana și 50% sunt mai mari), quartilele împart setul de date ordonat în patru părți. Valorile Q 1 , mediana și Q 3 sunt percentilele 25, 50 și, respectiv, 75. Prima cuartilă Q 1 este un număr care împarte eșantionul în două părți: 25% dintre elemente sunt mai mici decât și 75% sunt mai mult decât prima cuartilă.

A treia cuartilă Q 3 este un număr care împarte eșantionul în două părți: 75% dintre elemente sunt mai mici decât și 25% sunt mai mult decât a treia cuartilă.

Pentru a calcula quartile în versiunile de Excel anterioare anului 2007, a fost folosită funcția =QUARTILE(array, part). Începând cu Excel 2010, se aplică două funcții:

  • =QUARTILE.ON(matrice, parte)
  • =QUARTILE.EXC(matrice, parte)

Aceste două funcții dau puțin diverse sensuri(Fig. 4). De exemplu, atunci când se calculează quartilele unui eșantion care conține date privind randamentul anual mediu a 15 fonduri mutuale cu risc foarte ridicat, Q 1 = 1,8 sau -0,7 pentru QUARTILE.INC și, respectiv, QUARTILE.EXC. Apropo, funcția QUARTILE folosită mai devreme corespunde funcției moderne QUARTILE.ON. Pentru a calcula quartile în Excel folosind formulele de mai sus, matricea de date poate fi lăsată neordonată.

Orez. 4. Calculați quartile în Excel

Să subliniem din nou. Excel poate calcula quartile pentru univariat serie discretă, cuprinzând valorile variabilă aleatorie. Calculul quartilelor pentru o distribuție bazată pe frecvență este prezentat în secțiunea de mai jos.

medie geometrică

Spre deosebire de media aritmetică, media geometrică măsoară cât de mult s-a schimbat o variabilă în timp. Media geometrică este rădăcina n gradul de la produs n valori (în Excel se folosește funcția = CUGEOM):

G= (X 1 * X 2 * ... * X n) 1/n

Un parametru similar - media geometrică a ratei de rentabilitate - este determinat de formula:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

Unde R i- rata de rentabilitate i-a-a perioadă de timp.

De exemplu, să presupunem că investiția inițială este de 100 000 USD. Până la sfârșitul primului an, aceasta scade la 50 000 USD și, la sfârșitul celui de-al doilea an, se recuperează la 100 000 USD inițial. Rata rentabilității acestei investiții pe o perioadă de doi- perioada anului este egală cu 0, deoarece suma inițială și finală a fondurilor sunt egale între ele. Cu toate acestea, media aritmetică a ratelor anuale de rentabilitate este = (-0,5 + 1) / 2 = 0,25 sau 25%, deoarece rata rentabilității în primul an R 1 = (50.000 - 100.000) / 100.000 = -0,5 și în al doilea R 2 = (100.000 - 50.000) / 50.000 = 1. În același timp, media geometrică a ratei rentabilității pe doi ani este: G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Astfel, media geometrică reflectă mai exact modificarea (mai precis, absența modificării) a volumului investițiilor pe parcursul bienului decât media aritmetică.

Fapte interesante.În primul rând, media geometrică va fi întotdeauna mai mică decât media aritmetică a acelorași numere. Cu excepția cazului în care toate numerele luate sunt egale între ele. În al doilea rând, luând în considerare proprietățile triunghi dreptunghic, puteți înțelege de ce media se numește geometrică. Înălțimea unui triunghi dreptunghic, coborât la ipotenuză, este media proporțională dintre proiecțiile catetelor pe ipotenuză, iar fiecare catete este media proporțională dintre ipotenuză și proiecția acesteia pe ipotenuză (Fig. 5). Asta da mod geometric construirea mediei geometrice a două (lungimi) segmente: trebuie să construiți un cerc pe suma acestor două segmente ca diametru, apoi înălțimea restabilită de la punctul de conectare până la intersecția cu cercul va da valoarea dorită:

Orez. 5. Natura geometrică a mediei geometrice (figura de pe Wikipedia)

A doua proprietate importantă a datelor numerice este lor variație caracterizarea gradului de dispersie a datelor. Două mostre diferite pot diferi atât în ​​ceea ce privește valorile medii, cât și în variații. Totuși, așa cum se arată în fig. 6 și 7, două eșantioane pot avea aceeași variație, dar medii diferite, sau aceeași medie și variație complet diferită. Datele corespunzătoare poligonului B din Fig. 7 se schimbă mult mai puțin decât datele din care a fost construit poligonul A.

Orez. 6. Două distribuții simetrice în formă de clopot cu aceeași răspândire și valori medii diferite

Orez. 7. Două distribuții simetrice în formă de clopot cu aceleași valori medii și dispersie diferită

Există cinci estimări ale variației datelor:

  • span,
  • intervalul intercuartil,
  • dispersie,
  • deviație standard,
  • coeficientul de variație.

domeniul de aplicare

Gama este diferența dintre cel mai mare și cele mai mici elemente mostre:

Glisați = XMax-XMin

Intervalul unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat utilizând o matrice ordonată (vezi Figura 4): interval = 18,5 - (-6,1) = 24,6. Aceasta înseamnă că diferența dintre rentabilitatea medie anuală cea mai mare și cea mai scăzută pentru fondurile cu risc foarte ridicat este de 24,6%.

Intervalul măsoară răspândirea globală a datelor. Deși intervalul de eșantion este o estimare foarte simplă a răspândirii totale a datelor, slăbiciunea sa este că nu ia în considerare exact modul în care datele sunt distribuite între elementele minime și maxime. Acest efect este bine văzut în fig. 8 care ilustrează mostre având același interval. Scala B arată că, dacă eșantionul conține cel puțin o valoare extremă, intervalul eșantionului este o estimare foarte inexactă a dispersării datelor.

Orez. 8. Comparația a trei probe cu același interval; triunghiul simbolizează suportul balanței, iar amplasarea acesteia corespunde valorii medii a probei

Intervalul intercuartil

Intervalul intercuartil, sau media, este diferența dintre a treia și prima cuartilă a eșantionului:

Interval intercuartil \u003d Q 3 - Q 1

Această valoare face posibilă estimarea răspândirii a 50% din elemente și să nu se țină cont de influența elementelor extreme. Intervalul interquartil pentru un eșantion care conține date privind randamentele anuale medii a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind datele din Fig. 4 (de exemplu, pentru funcția QUARTILE.EXC): Interval interquartile = 9,8 - (-0,7) = 10,5. Intervalul dintre 9,8 și -0,7 este adesea denumit jumătatea mijlocie.

Trebuie remarcat faptul că valorile Q 1 și Q 3 și, prin urmare, intervalul intercuartil, nu depind de prezența valorilor aberante, deoarece calculul lor nu ia în considerare nicio valoare care ar fi mai mică decât Q 1 sau mai mare decât Q 3 . Caracteristicile cantitative totale, cum ar fi mediana, primul și al treilea quartile și intervalul intercuartil, care nu sunt afectate de valori aberante, se numesc indicatori robusti.

În timp ce intervalul și intervalul intercuartil oferă o estimare a dispersiei totale și, respectiv, medie a eșantionului, niciuna dintre aceste estimări nu ia în considerare exact modul în care sunt distribuite datele. Varianta si abaterea standard liber de acest neajuns. Acești indicatori vă permit să evaluați gradul de fluctuație a datelor în jurul mediei. Varianta eșantionului este o aproximare a mediei aritmetice calculată din diferențele pătrate dintre fiecare element eșantion și media eșantionului. Pentru un eșantion de X 1 , X 2 , ... X n varianța eșantionului (notat cu simbolul S 2 este dată de următoarea formulă:

În general, varianța eșantionului este suma diferențelor pătrate dintre elementele eșantionului și media eșantionului, împărțită la o valoare egală cu dimensiunea eșantionului minus unu:

Unde - medie aritmetică, n- marime de mostra, X i - i-al-lea element de probă X. În Excel înainte de versiunea 2007, funcția =VAR() a fost folosită pentru a calcula varianța eșantionului, începând cu versiunea 2010, este folosită funcția =VAR.V().

Cea mai practică și larg acceptată estimare a împrăștierii datelor este deviație standard. Acest indicator este notat cu simbolul S și este egal cu rădăcină pătrată din varianța eșantionului:

În Excel înainte de versiunea 2007, se folosea funcția =STDEV() pentru a calcula abaterea standard, din versiunea 2010 se folosește funcția =STDEV.B(). Pentru a calcula aceste funcții, matricea de date poate fi neordonată.

Nici varianța eșantionului și nici abaterea standard a eșantionului nu pot fi negative. Singura situație în care indicatorii S 2 și S pot fi zero este dacă toate elementele eșantionului sunt egale. În acest complet caz incredibil intervalul și intervalul intercuartil sunt, de asemenea, zero.

Datele numerice sunt în mod inerent volatile. Orice variabilă poate prelua un set valori diferite. De exemplu, diferite fonduri mutuale au rate diferite de rentabilitate și pierdere. Datorită variabilității datelor numerice, este foarte important să se studieze nu numai estimări ale mediei, care sunt de natură sumativă, ci și estimări ale varianței, care caracterizează împrăștierea datelor.

Varianța și abaterea standard ne permit să estimăm răspândirea datelor în jurul mediei, cu alte cuvinte, să determinăm câte elemente ale eșantionului sunt mai mici decât media și câte sunt mai mari. Dispersia are unele proprietăți matematice valoroase. Cu toate acestea, valoarea sa este pătratul unei unități de măsură - un procent pătrat, un dolar pătrat, un inch pătrat etc. Prin urmare, o estimare naturală a varianței este abaterea standard, care este exprimată în unitățile obișnuite de măsură - procente din venit, dolari sau inci.

Abaterea standard vă permite să estimați cantitatea de fluctuație a elementelor eșantionului în jurul valorii medii. În aproape toate situațiile, majoritatea valorilor observate se află în plus sau minus o abatere standard de la medie. Prin urmare, cunoscând media aritmetică a elementelor eșantionului și abaterea standard a eșantionului, este posibil să se determine intervalul căruia îi aparține cea mai mare parte a datelor.

Abaterea standard a randamentelor a 15 fonduri mutuale cu risc foarte ridicat este de 6,6 (Figura 9). Aceasta înseamnă că profitabilitatea majorității fondurilor diferă de valoarea medie cu cel mult 6,6% (adică fluctuează în intervalul de la – S= 6,2 – 6,6 = –0,4 până la +S= 12,8). De fapt, acest interval conține o rentabilitate anuală medie pe cinci ani de 53,3% (8 din 15) din fonduri.

Orez. 9. Abaterea standard

Rețineți că în procesul de însumare a diferențelor pătrate, articolele care sunt mai departe de medie câștigă mai multă greutate decât articolele care sunt mai apropiate. Această proprietate este principalul motiv pentru care media aritmetică este folosită cel mai adesea pentru a estima media unei distribuții.

Coeficientul de variație

Spre deosebire de estimările anterioare de dispersie, coeficientul de variație este o estimare relativă. Este întotdeauna măsurată ca procent, nu în unitățile de date originale. Coeficientul de variație, notat cu simbolurile CV, măsoară împrăștierea datelor în jurul mediei. Coeficientul de variație este egal cu abaterea standard împărțită la media aritmetică și înmulțită cu 100%:

Unde S- abaterea standard a probei, - medie eșantionului.

Coeficientul de variație vă permite să comparați două eșantioane, ale căror elemente sunt exprimate în unități de măsură diferite. De exemplu, managerul unui serviciu de livrare poștă intenționează să modernizeze flota de camioane. La încărcarea pachetelor, există două tipuri de restricții de luat în considerare: greutatea (în lire sterline) și volumul (în picioare cubi) ale fiecărui pachet. Să presupunem că, într-un eșantion de 200 de saci, greutatea medie este de 26,0 lire sterline, abaterea standard a greutății este de 3,9 lire sterline, volumul mediu al pachetului este de 8,8 picioare cubi, iar abaterea standard a volumului este de 2,2 picioare cubi. Cum să comparăm răspândirea greutății și volumului pachetelor?

Deoarece unitățile de măsură pentru greutate și volum diferă între ele, managerul trebuie să compare răspândirea relativă a acestor valori. Coeficientul de variație a greutății este CV W = 3,9 / 26,0 * 100% = 15%, iar coeficientul de variație a volumului CV V = 2,2 / 8,8 * 100% = 25%. Astfel, împrăștierea relativă a volumelor de pachete este mult mai mare decât împrăștierea relativă a greutăților lor.

Formular de distribuire

A treia proprietate importantă a eșantionului este forma distribuției sale. Această distribuție poate fi simetrică sau asimetrică. Pentru a descrie forma unei distribuții, este necesar să se calculeze media și mediana acesteia. Dacă aceste două măsuri sunt aceleași, se spune că variabila este distribuită simetric. Dacă valoarea medie a unei variabile este mai mare decât mediana, distribuția ei are o asimetrie pozitivă (Fig. 10). Dacă mediana este mai mare decât media, distribuția variabilei este denaturată negativ. Deformarea pozitivă apare atunci când media crește la valori neobișnuit de ridicate. Deformarea negativă apare atunci când media scade la valori neobișnuit de mici. O variabilă este distribuită simetric dacă nu ia valori extreme în nicio direcție, astfel încât valorile mari și mici ale variabilei se anulează reciproc.

Orez. 10. Trei tipuri de distribuții

Datele prezentate pe scara A au o asimetrie negativă. Această figură arată o coadă lungă și o oblică la stânga cauzate de valori neobișnuit de mici. Aceste valori extrem de mici schimbă valoarea medie spre stânga și devine mai mică decât mediana. Datele prezentate pe scara B sunt distribuite simetric. Jumătățile stânga și dreapta ale distribuției sunt imaginile lor în oglindă. Valorile mari și mici se echilibrează reciproc, iar media și mediana sunt egale. Datele prezentate pe scara B au o asimetrie pozitivă. Această figură arată o coadă lungă și înclinată spre dreapta, cauzată de prezența unor valori neobișnuit de ridicate. Acestea sunt și ele cantitati mari deplasați valoarea medie la dreapta și devine mai mare decât mediana.

În Excel, statisticile descriptive pot fi obținute folosind programul de completare Pachet de analize. Treceți prin meniu DateAnaliza datelor, în fereastra care se deschide, selectați linia Statisticile descriptiveși faceți clic Bine. La fereastră Statisticile descriptive asigurați-vă că indicați interval de intrare(Fig. 11). Dacă doriți să vedeți statistici descriptive pe aceeași foaie cu datele originale, selectați butonul radio interval de ieșireși specificați celula în care doriți să plasați colțul din stânga sus al statisticilor afișate (în exemplul nostru, $C$1). Dacă doriți să trimiteți date către frunză nouă sau în carte noua pur și simplu selectați butonul radio corespunzător. Bifați caseta de lângă Statistici finale. Opțional, puteți alege și Nivel de dificultate,k-a cel mai mic șik-a cea mai mare.

Dacă în depozit Dateîn zonă Analiză nu vezi pictograma Analiza datelor, mai întâi trebuie să instalați suplimentul Pachet de analize(vezi, de exemplu,).

Orez. 11. Statistici descriptive ale randamentelor medii anuale pe cinci ani ale fondurilor cu niveluri foarte ridicate de risc, calculate folosind add-on-ul Analiza datelor programe Excel

Excel calculează întreaga linie statistici discutate mai sus: medie, mediană, mod, abatere standard, varianță, interval ( interval), minim, maxim și dimensiunea eșantionului ( Verifica). În plus, Excel calculează câteva statistici noi pentru noi: eroare standard, curtoză și asimetrie. eroare standard este egal cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Asimetrie caracterizează abaterea de la simetria distribuţiei şi este o funcţie care depinde de cubul de diferenţe dintre elementele probei şi valoarea medie. Kurtosis este o măsură a concentrației relative a datelor în jurul mediei față de cozile distribuției și depinde de diferențele dintre eșantion și media ridicată la a patra putere.

Calculul statisticilor descriptive pentru populația generală

Media, împrăștierea și forma distribuției discutate mai sus sunt caracteristici bazate pe eșantion. Cu toate acestea, dacă setul de date conține măsurători numerice ale întregii populații, atunci parametrii acestuia pot fi calculați. Acești parametri includ media, varianța și abaterea standard a populației.

Valorea estimata este egal cu suma tuturor valorilor populației generale împărțită la volumul populației generale:

Unde µ - valorea estimata, Xi- i-a-a observație variabilă X, N- volumul populaţiei generale. În Excel, pentru a calcula așteptările matematice, se folosește aceeași funcție ca și pentru media aritmetică: =AVERAGE().

Varianta populatiei egală cu suma diferențelor pătrate dintre elementele populației generale și mat. așteptări împărțite la dimensiunea populației:

Unde σ2 este varianța populației generale. Excel înainte de versiunea 2007 folosește funcția =VAR() pentru a calcula varianța populației, începând cu versiunea 2010 =VAR.G().

abaterea standard a populației este egală cu rădăcina pătrată a varianței populației:

Excel înainte de versiunea 2007 folosește =STDEV() pentru a calcula abaterea standard a populației, începând cu versiunea 2010 =STDEV.Y(). Rețineți că formulele pentru varianța populației și abaterea standard sunt diferite de formulele pentru varianța eșantionului și abaterea standard. La calcularea statisticilor eșantionului S2Și S numitorul fracției este n - 1, iar la calcularea parametrilor σ2Și σ - volumul populaţiei generale N.

regula generală

În majoritatea situațiilor, o mare parte a observațiilor sunt concentrate în jurul mediei, formând un cluster. În seturile de date cu asimetrie pozitivă, acest cluster este situat la stânga (adică, dedesubt) așteptării matematice, iar în seturile cu asimetrie negativă, acest cluster este situat la dreapta (adică, deasupra) așteptării matematice. Datele simetrice au aceeași medie și mediană, iar observațiile se grupează în jurul mediei, formând o distribuție în formă de clopot. Dacă distribuția nu are o asimetrie pronunțată, iar datele sunt concentrate în jurul unui anumit centru de greutate, se poate folosi o regulă generală pentru a estima variabilitatea, care spune: dacă datele au o distribuție în formă de clopot, atunci aproximativ 68% dintre observații sunt mai mici de o abatere standard de la așteptările matematice, Aproximativ 95% dintre observații sunt în două abateri standard ale valorii așteptate și 99,7% dintre observații sunt în trei deviații standard ale valorii așteptate.

Astfel, abaterea standard, care este o estimare a fluctuației medii în jurul așteptărilor matematice, ajută la înțelegerea modului în care sunt distribuite observațiile și la identificarea valorii aberante. Din regula generală rezultă că, pentru distribuțiile în formă de clopot, doar o valoare din douăzeci diferă de așteptarea matematică cu mai mult de două abateri standard. Prin urmare, valori în afara intervalului µ ± 2σ, pot fi considerate valori aberante. În plus, doar trei din 1000 de observații diferă de așteptările matematice cu mai mult de trei abateri standard. Astfel, valorile în afara intervalului µ ± 3σ sunt aproape întotdeauna valori aberante. Pentru distribuțiile care sunt foarte denaturate sau nu au formă de clopot, se poate aplica regula generală Biename-Chebyshev.

În urmă cu peste o sută de ani, matematicienii Bienamay și Chebyshev au descoperit în mod independent proprietate utilă deviație standard. Ei au descoperit că pentru orice set de date, indiferent de forma distribuției, procentul de observații care se află la o distanță care nu depășește k abateri standard de la așteptările matematice, nu mai puțin (1 – 1/ 2)*100%.

De exemplu, dacă k= 2, regula Biename-Chebyshev prevede că cel puțin (1 - (1/2) 2) x 100% = 75% din observații trebuie să se situeze în interval µ ± 2σ. Această regulă este valabilă pentru orice k depășind unul. Regula Biename-Chebyshev este foarte caracter generalși este valabil pentru distribuții de orice fel. Indică numărul minim de observații, distanța de la care până la așteptarea matematică nu depășește o valoare dată. Cu toate acestea, dacă distribuția este în formă de clopot, regula generală estimează mai precis concentrația datelor în jurul valorii medii.

Calcularea statisticilor descriptive pentru o distribuție bazată pe frecvență

Dacă datele originale nu sunt disponibile, distribuția frecvenței devine singura sursă de informații. În astfel de situații, se pot calcula valori aproximative indicatori cantitativi distribuții precum media aritmetică, deviația standard, quartilele.

Dacă datele eșantionului sunt prezentate ca o distribuție de frecvență, se poate calcula o valoare aproximativă a mediei aritmetice, presupunând că toate valorile din fiecare clasă sunt concentrate la mijlocul clasei:

Unde - medie eșantion, n- numărul de observații sau dimensiunea eșantionului, Cu- numărul de clase din distribuția de frecvență, mj- punctul de mijloc j- clasa a-a, fj- frecventa corespunzatoare j- clasa a-a.

Pentru a calcula abaterea standard de la distribuția frecvenței, se presupune, de asemenea, că toate valorile din cadrul fiecărei clase sunt concentrate la mijlocul clasei.

Pentru a înțelege cum se determină quartilele seriei pe baza frecvențelor, să luăm în considerare calculul quartilei inferioare pe baza datelor pentru 2013 privind distribuția populației ruse în funcție de venitul în numerar mediu pe cap de locuitor (Fig. 12).

Orez. 12. Ponderea populației Rusiei cu venit monetar pe cap de locuitor în medie pe lună, ruble

Pentru a calcula prima quartila a seriei de variații de interval, puteți utiliza formula:

unde Q1 este valoarea primului cuartil, xQ1 este limita inferioară a intervalului care conține primul cuartil (intervalul este determinat de frecvența acumulată, prima depășind 25%); i este valoarea intervalului; Σf este suma frecvențelor întregului eșantion; probabil întotdeauna egal cu 100%; SQ1–1 este frecvența cumulativă a intervalului care precede intervalul care conține quartila inferioară; fQ1 este frecvența intervalului care conține quartila inferioară. Formula pentru a treia cuartilă diferă prin aceea că în toate locurile, în loc de Q1, trebuie să utilizați Q3 și să înlocuiți ¾ în loc de ¼.

În exemplul nostru (Fig. 12), quartila inferioară se află în intervalul 7000,1 - 10.000, a cărei frecvență cumulată este de 26,4%. Limita inferioară a acestui interval este de 7000 de ruble, valoarea intervalului este de 3000 de ruble, frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară este de 13,4%, frecvența intervalului care conține quartila inferioară este de 13,0%. Astfel: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 ruble.

Capcane asociate cu statisticile descriptive

În această notă, am analizat cum să descriem un set de date folosind diverse statistici care estimează media, dispersia și distribuția acestuia. urmatorul pas este analiza și interpretarea datelor. Până acum, am studiat proprietățile obiective ale datelor, iar acum ne întoarcem la interpretarea subiectivă a acestora. Două greșeli îl așteaptă pe cercetător: un subiect de analiză ales incorect și o interpretare incorectă a rezultatelor.

O analiză a performanței a 15 fonduri mutuale cu risc foarte ridicat este destul de imparțială. El a condus la concluzii complet obiective: toate fondurile mutuale au randamente diferite, spread-ul randamentelor fondurilor variază de la -6,1 la 18,5, iar randamentul mediu este de 6,08. Obiectivitatea analizei datelor este asigurată alegerea corecta indicatori cantitativi totali de distribuţie. Au fost luate în considerare mai multe metode de estimare a mediei și dispersării datelor și au fost indicate avantajele și dezavantajele acestora. Cum să alegi statisticile potrivite care să ofere o analiză obiectivă și imparțială? Dacă distribuția datelor este ușor denaturată, ar trebui să fie aleasă mediana față de media aritmetică? Care indicator caracterizează mai exact răspândirea datelor: abaterea standard sau intervalul? Ar trebui indicată asimetria pozitivă a distribuției?

Pe de altă parte, interpretarea datelor este un proces subiectiv. Oameni diferiți ajunge la concluzii diferite, interpretând aceleași rezultate. Fiecare are punctul lui de vedere. Cineva consideră că randamentele totale medii anuale a 15 fonduri cu un nivel de risc foarte ridicat sunt bune și este destul de mulțumit de veniturile primite. Alții pot crede că aceste fonduri au randamente prea mici. Astfel, subiectivitatea ar trebui compensată de onestitate, neutralitate și claritatea concluziilor.

Probleme etice

Analiza datelor este indisolubil legată de problemele etice. Ar trebui să fim critici cu privire la informațiile difuzate de ziare, radio, televiziune și internet. De-a lungul timpului, vei învăța să fii sceptic nu numai în ceea ce privește rezultatele, ci și în ceea ce privește obiectivele, subiectul și obiectivitatea cercetării. Celebrul politician britanic Benjamin Disraeli a spus-o cel mai bine: „Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici”.

După cum se menționează în notă, la alegerea rezultatelor care ar trebui prezentate în raport apar probleme etice. Ar trebui publicate atât rezultatele pozitive, cât și cele negative. În plus, la realizarea unui raport sau raport scris, rezultatele trebuie prezentate onest, neutru și obiectiv. Faceți distincția între prezentările proaste și necinstite. Pentru a face acest lucru, este necesar să se determine care au fost intențiile vorbitorului. Uneori, vorbitorul omite informații importante din ignoranță și alteori în mod deliberat (de exemplu, dacă folosește media aritmetică pentru a estima media datelor clar denaturate pentru a obține rezultatul dorit). De asemenea, este necinstit să suprimi rezultate care nu corespund punctului de vedere al cercetătorului.

Sunt folosite materiale din cartea Levin et al. Statistici pentru manageri. - M.: Williams, 2004. - p. 178–209

Funcția QUARTILE reținută pentru a se alinia cu versiunile anterioare de Excel

    Programul Excel are mai multe fațete, așa că există mai multe opțiuni care vă vor permite să găsiți media:

    Prima varianta. Pur și simplu însumați toate celulele și împărțiți la numărul lor;

    A doua varianta. Folosiți o comandă specială, scrieți în celula necesară formula = MEDIE (și aici specificați intervalul de celule);

    A treia opțiune. Dacă selectați intervalul necesar, atunci rețineți că în pagina de mai jos este afișată și valoarea medie din aceste celule.

    Astfel, există o mulțime de modalități de a găsi valoarea medie, trebuie doar să o alegi pe cea mai bună pentru tine și să o folosești constant.

    Să începem de la început și în ordine. Ce înseamnă medie?

    Valoarea medie este valoarea care este media aritmetică, adică. se calculează adunând un set de numere și apoi împărțind suma totală a numerelor la numărul lor. De exemplu, pentru numerele 2, 3, 6, 7, 2 va fi 4 (suma numerelor 20 se împarte la numărul lor 5)

    Într-o foaie de calcul Excel, pentru mine personal, cel mai simplu mod a fost să folosesc formula =AVERAGE. Pentru a calcula valoarea medie, trebuie să introduceți date în tabel, să scrieți funcția =AVERAGE() sub coloana de date, iar între paranteze indicați intervalul de numere din celule, evidențiind coloana cu datele. După aceea, apăsați ENTER sau pur și simplu faceți clic stânga pe orice celulă. Rezultatul va fi afișat în celula de sub coloană. Pe față, descrierea este de neînțeles, dar de fapt este o chestiune de câteva minute.

    În Excel, folosind funcția MEDIE, puteți calcula media aritmetică simplă. Pentru a face acest lucru, trebuie să introduceți un număr de valori. Apăsați egal și selectați în categoria Statistică, dintre care selectați funcția MEDIE

    De asemenea, folosind formule statistice, puteți calcula media ponderată aritmetică, care este considerată mai precisă. Pentru a-l calcula, avem nevoie de valorile indicatorului și ale frecvenței.

    Acest lucru este foarte ușor dacă datele sunt deja introduse în celule. Dacă sunteți doar interesat de un număr, trebuie doar să selectați intervalul / intervalele dorite, iar valoarea sumei acestor numere, media lor aritmetică și numărul lor vor apărea în bara de stare din dreapta jos.

    Puteți selecta o celulă goală, faceți clic pe triunghiul (lista derulantă) AutoSum și selectați Medie acolo, după care veți fi de acord cu intervalul propus pentru calcul sau alegeți-l pe al dvs.

    În cele din urmă, puteți utiliza formulele direct făcând clic pe Inserare funcție de lângă bara de formule și adresa celulei. Funcția AVERAGE se află în categoria Statistică și ia ca argumente atât numere, cât și referințe de celule etc. Acolo puteți selecta și mai multe opțiuni complexe, de exemplu, AVERAGEIF - calculul mediei în funcție de condiție.

    La fel de ușor ca o plăcintă. Pentru a găsi valoarea medie în excel, aveți nevoie doar de 3 celule. În primul scriem un număr, în al doilea - altul. Și în a treia celulă, vom nota o formulă care ne va oferi valoarea medie dintre aceste două numere din prima și a doua celulă. Dacă celula 1 se numește A1, celula 2 se numește B1, atunci în celula cu formula trebuie să scrieți astfel:

    Această formulă calculează media aritmetică a două numere.

    Pentru frumusețea calculelor noastre, putem evidenția celulele cu linii, sub formă de plăcuță.

    Există și o funcție în Excel în sine pentru a determina valoarea medie, dar folosesc metoda de modă veche și introdu formula de care am nevoie. Astfel, sunt sigur că Excel va calcula exact așa cum am nevoie și nu va veni cu un fel de rotunjire proprie.

    Aici poți oferi o mulțime de sfaturi, dar cu fiecare sfat nou vei avea o întrebare nouă, se poate și bine, pe de o parte, va fi un stimulent pentru a-ți îmbunătăți nivelul pe acest site, așa că nu îți voi da o grămadă de sfaturi, dar voi da un link către YouTube un canal cu un curs de stăpânire a unei aplicații atât de necesare precum Excel, dreptul tău de a o folosi sau nu, vei avea un link către un curs detaliat unde vei găsi întotdeauna răspuns la întrebarea dvs. pe Excel

    încercuiți valorile care vor fi implicate în calcul, faceți clic pe fila Formule, acolo veți vedea AutoSum în stânga și lângă ea un triunghi îndreptat în jos. Faceți clic pe acest triunghi și alegeți Medie. Voila, gata) în partea de jos a coloanei vei vedea valoarea medie :)

Răspuns: toată lumea a primit un 4 pere.

Exemplul 2. Pentru cursuri în limba engleză luni au venit 15 persoane, marți - 10, miercuri - 12, joi - 11, vineri - 7, sâmbătă - 14, duminică - 8. Aflați frecvența medie a cursurilor pe săptămână.
Soluţie: Să găsim media aritmetică:

15 + 10 + 12 + 11 + 7 + 14 + 8 = 77 = 11
7 7
Răspuns:în medie, au venit cursuri de limba engleză 11 persoană pe zi.

Exemplul 3. Un șofer a condus două ore cu o viteză de 120 km/h și o oră cu o viteză de 90 km/h. Găsiți viteza medie a mașinii în timpul cursei.
Soluţie: Să găsim media aritmetică a vitezei mașinii pentru fiecare oră de călătorie:

120 + 120 + 90 = 330 = 110
3 3
Răspuns: viteza medie masina in timpul cursei 110 km/h

Exemplul 4. Media aritmetică a 3 numere este 6, iar media aritmetică a altor 7 numere este 3. Care este media aritmetică a acestor zece numere?
Soluţie: Deoarece media aritmetică a 3 numere este 6, atunci suma lor este 6 3 = 18, în mod similar, suma celor 7 numere rămase este 7 3 = 21.
Deci suma tuturor celor 10 numere va fi 18 + 21 = 39, iar media aritmetică este

39 = 3.9
10
Răspuns: media aritmetică a 10 numere este 3.9 .

În matematică, media aritmetică a numerelor (sau pur și simplu media) este suma tuturor numerelor dintr-o mulțime dată împărțită la numărul lor. Acesta este conceptul cel mai generalizat și răspândit. mărime medie. După cum ați înțeles deja, pentru a găsi trebuie să însumați toate numerele date și să împărțiți rezultatul la numărul de termeni.

Care este media aritmetică?

Să ne uităm la un exemplu.

Exemplul 1. Sunt date numere: 6, 7, 11. Trebuie să găsiți valoarea lor medie.

Soluţie.

Mai întâi, să găsim suma tuturor numerelor date.

Acum împărțim suma rezultată la numărul de termeni. Deoarece avem trei termeni, respectiv, vom împărți la trei.

Prin urmare, media 6, 7 și 11 este 8. De ce 8? Da, pentru că suma 6, 7 și 11 va fi aceeași cu trei opturi. Acest lucru se vede clar în ilustrație.

Valoarea medie amintește oarecum de „alinierea” unei serii de numere. După cum puteți vedea, mormanele de creioane au devenit un nivel.

Luați în considerare un alt exemplu pentru a consolida cunoștințele acumulate.

Exemplul 2 Sunt date numere: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Trebuie să găsiți media lor aritmetică.

Soluţie.

Găsim suma.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Împărțiți la numărul de termeni (în acest caz, 15).

Prin urmare, valoarea medie a acestei serii de numere este 22.

Acum luați în considerare numerele negative. Să ne amintim cum să le rezumam. De exemplu, aveți două numere 1 și -4. Să le găsim suma.

1 + (-4) = 1 - 4 = -3

Știind acest lucru, luați în considerare un alt exemplu.

Exemplul 3 Aflați valoarea medie a unei serii de numere: 3, -7, 5, 13, -2.

Soluţie.

Aflarea sumei numerelor.

3 + (-7) + 5 + 13 + (-2) = 12

Deoarece există 5 termeni, împărțim suma rezultată la 5.

Prin urmare, media aritmetică a numerelor 3, -7, 5, 13, -2 este 2,4.

În timpul nostru progres tehnologic mult mai convenabil de utilizat pentru a găsi valoarea medie programe de calculator. Microsoft Office Excel este unul dintre ele. Găsirea mediei în Excel este rapidă și ușoară. Mai mult, acest program este inclus în pachetul software de la Microsoft Office. Să luăm în considerare o scurtă instrucțiune, valoare folosind acest program.

Pentru a calcula valoarea medie a unei serii de numere, trebuie să utilizați funcția MEDIE. Sintaxa pentru această funcție este:
=Medie(argument1, argument2, ... argument255)
unde argument1, argument2, ... argument255 sunt fie numere, fie referințe de celule (celulele înseamnă intervale și matrice).

Pentru a fi mai clar, haideți să testăm cunoștințele acumulate.

  1. Introduceți numerele 11, 12, 13, 14, 15, 16 în celulele C1 - C6.
  2. Selectați celula C7 făcând clic pe ea. În această celulă, vom afișa valoarea medie.
  3. Faceți clic pe fila „Formule”.
  4. Selectați Mai multe funcții > Statistică pentru a deschide
  5. Selectați MEDIE. După aceea, ar trebui să se deschidă o casetă de dialog.
  6. Selectați și trageți celulele C1-C6 acolo pentru a seta intervalul în caseta de dialog.
  7. Confirmați acțiunile dvs. cu butonul „OK”.
  8. Dacă ați făcut totul corect, în celula C7 ar trebui să aveți răspunsul - 13.7. Când faceți clic pe celula C7, funcția (=Medie(C1:C6)) va fi afișată în bara de formule.

Este foarte util să folosiți această funcție pentru contabilitate, facturi sau atunci când trebuie doar să găsiți media unui interval foarte lung de numere. Prin urmare, este adesea folosit în birouri și companii mari. Acest lucru vă permite să păstrați evidențele în ordine și face posibilă calcularea rapidă a ceva (de exemplu, venitul mediu pe lună). De asemenea, puteți utiliza Excel pentru a găsi media unei funcții.

Când lucrezi cu expresii numerice uneori este nevoie să se calculeze valoarea medie a acestora. numită medie aritmetică. În Excel, un editor de foi de calcul de la Microsoft, este posibil să nu îl calculați manual, ci să folosiți instrumente speciale. În acest articol vor fi prezentate metode care vă permit să aflați și să afișați media aritmetică.

Metoda 1: standard

În primul rând, să analizăm metoda de calcul a mediei aritmetice în Excel, care implică utilizarea unui instrument standard pentru aceasta. Metoda este cea mai simplă și mai convenabilă de utilizat, dar are și unele dezavantaje. Dar despre ei mai târziu, dar acum să trecem la sarcină.

  1. Selectați celulele din coloana sau rândul care conțin valorile numerice de calculat.
  2. Accesați fila „Acasă”.
  3. Pe bara de instrumente din categoria „Editare”, faceți clic pe butonul „Suma automată”, dar trebuie să faceți clic pe săgeata de lângă acesta, astfel încât să apară o listă derulantă.
  4. În ea trebuie să faceți clic pe elementul „Medie”.

De îndată ce faceți acest lucru, rezultatul calculului mediei aritmetice a valorilor selectate va apărea în celula de lângă acesta. Locația acestuia va depinde de blocul de date, dacă ați selectat un rând, atunci rezultatul va fi în dreapta selecției, dacă coloana este mai jos.

Dar, după cum am menționat mai devreme, aceasta metoda exista si dezavantaje. Deci, nu veți putea calcula valoarea dintr-un interval de celule sau celule situate în locuri diferite. De exemplu, dacă tabelul dvs. are două coloane cu valori numerice adiacente acestora, atunci selectându-le și efectuând pașii de mai sus, veți obține rezultatul pentru fiecare coloană separat.

Metoda 2: Utilizarea Expertului Funcție

Există multe modalități de a găsi media aritmetică în Excel și este firesc ca cu ajutorul lor să se poată ocoli limitările pe care le presupune metoda anterioară. Vom vorbi acum despre efectuarea calculelor utilizând Expertul pentru funcții. Deci, iată ce trebuie să faceți.

  1. Făcând clic pe butonul stâng al mouse-ului, selectați celula în care doriți să vedeți rezultatul calculului.
  2. Deschideți fereastra Function Wizard făcând clic pe butonul „Insert Function” situat în stânga barei de formule sau utilizând tastele rapide Shift+F3.
  3. În fereastra care apare, găsiți linia „MEDIA” din listă, selectați-o și faceți clic pe butonul „OK”.
  4. Va apărea o nouă fereastră pentru introducerea argumentelor funcției. În el veți vedea două câmpuri: „Număr1” și „Număr2”.
  5. În primul câmp, introduceți adresele celulelor în care se află valorile numerice pentru calcul. Acest lucru se poate face fie manual, fie cu instrument special. În al doilea caz, faceți clic pe butonul situat în partea dreaptă a câmpului de introducere. Fereastra Expertului se va restrânge și va trebui să selectați celulele pentru calcul cu mouse-ul.
  6. Dacă un alt interval de celule cu date se află în altă parte pe foaie, atunci specificați-l în câmpul „Număr2”.
  7. Introduceți datele până când le-ați introdus pe toate cele necesare.
  8. Faceți clic pe butonul OK.

După finalizarea introducerii, fereastra Expertului se va închide, iar rezultatul calculului va apărea în celula pe care ați selectat-o ​​la început. Acum știți a doua modalitate de a calcula media aritmetică în Excel. Dar nu ultimul, așa că mergem mai departe.

Metoda 3: Prin bara de formule

Această metodă, cum se calculează media aritmetică în Excel, nu este mult diferită de cea anterioară, dar în unele cazuri poate părea mai convenabilă, așa că merită să o rezolvi. Mai ales, aceasta metoda doar oferte Opțiune alternativă apelarea Expertului de funcții.


De îndată ce toate acțiunile listei sunt finalizate, va apărea în fața ta fereastra Function Wizard, unde trebuie să introduci argumentele. Știți deja cum să faceți acest lucru din metoda anterioară, toate acțiunile ulterioare nu sunt diferite.

Metoda 4: introducerea manuală a unei funcții

Dacă doriți, puteți evita interacțiunea cu Expertul funcție dacă cunoașteți formula medie aritmetică din Excel. În unele situații, introducerea manuală a acestuia va accelera de multe ori procesul de calcul.

Pentru a înțelege toate nuanțele, trebuie să vă uitați la sintaxa formulei, arată astfel:

MEDIE(adresă_celulă(număr), adresa_celulă(număr))

Din sintaxă rezultă că în argumentele funcției este necesar să se prescrie fie adresa intervalului de celule în care se află numerele de numărat, fie numerele în sine care trebuie calculate direct. În practică, utilizarea acestei metode este următoarea:

MEDIE(C4:D6;C8:D9)

Metoda 5: calculul după condiție

  • selectați celula în care se va efectua calculul;
  • faceți clic pe butonul „inserare funcție”;
  • în fereastra expertului care apare, în listă, selectați linia „când”;
  • faceți clic pe OK.

După aceea, va apărea o fereastră pentru introducerea argumentelor funcției. Este foarte asemănător cu ceea ce a fost demonstrat mai devreme, doar că acum există un câmp suplimentar - „Condiție”. În ea trebuie introdusă condiția. Deci, introducând „> 1500”, vor fi luate în considerare doar acele valori care sunt mai mari decât cele specificate.