Comment calculer une moyenne sur excel. Mathématiques ludiques

Comment calculer une moyenne sur excel. Mathématiques ludiques

Dans la plupart des cas, les données sont concentrées autour d'un point central. Ainsi, pour décrire n'importe quel ensemble de données, il suffit d'indiquer la valeur moyenne. Considérons successivement trois caractéristiques numériques qui servent à estimer la valeur moyenne de la distribution : moyenne arithmétique, médiane et mode.

Moyen

La moyenne arithmétique (souvent appelée simplement la moyenne) est l'estimation la plus courante de la moyenne d'une distribution. C'est le résultat de la division de la somme de toutes les valeurs numériques observées par leur nombre. Pour un échantillon de nombres X 1, X 2, ..., Xn, la moyenne de l'échantillon (désignée par le symbole ) équivaut à \u003d (X 1 + X 2 + ... + Xn) / n, ou

où est la moyenne de l'échantillon, n- taille de l'échantillon, Xje– ième élément de l'échantillon.

Télécharger note au format ou, exemples au format

Envisagez de calculer la moyenne arithmétique des rendements annuels moyens sur cinq ans de 15 fonds communs de placement à très haut risque (figure 1).

Riz. 1. Rendement annuel moyen de 15 fonds communs de placement à très haut risque

La moyenne de l'échantillon est calculée comme suit :

Il s'agit d'un bon rendement, surtout si on le compare au rendement de 3 à 4 % que les déposants des banques ou des coopératives de crédit ont reçu au cours de la même période. Si vous triez les valeurs de rendement, il est facile de voir que huit fonds ont un rendement supérieur et sept - inférieur à la moyenne. La moyenne arithmétique agit comme un point d'équilibre, de sorte que les fonds à faible revenu compensent les fonds à revenu élevé. Tous les éléments de l'échantillon interviennent dans le calcul de la moyenne. Aucun des autres estimateurs de la moyenne de distribution n'a cette propriété.

Quand calculer la moyenne arithmétique.Étant donné que la moyenne arithmétique dépend de tous les éléments de l'échantillon, la présence de valeurs extrêmes affecte considérablement le résultat. Dans de telles situations, la moyenne arithmétique peut fausser la signification des données numériques. Par conséquent, lors de la description d'un ensemble de données contenant des valeurs extrêmes, il est nécessaire d'indiquer la médiane ou la moyenne arithmétique et la médiane. Par exemple, si le rendement du fonds RS Emerging Growth est retiré de l'échantillon, la moyenne de l'échantillon du rendement des 14 fonds diminue de près de 1 % à 5,19 %.

Médian

La médiane est la valeur médiane d'un tableau ordonné de nombres. Si le tableau ne contient pas de nombres répétés, alors la moitié de ses éléments seront inférieurs et l'autre moitié supérieurs à la médiane. Si l'échantillon contient des valeurs extrêmes, il est préférable d'utiliser la médiane plutôt que la moyenne arithmétique pour estimer la moyenne. Pour calculer la médiane d'un échantillon, il faut d'abord le trier.

Cette formule est ambiguë. Son résultat dépend si le nombre est pair ou impair. n:

  • Si l'échantillon contient un nombre impair d'items, la médiane est (n+1)/2-ème élément.
  • Si l'échantillon contient un nombre pair d'éléments, la médiane se situe entre les deux éléments médians de l'échantillon et est égale à la moyenne arithmétique calculée sur ces deux éléments.

Pour calculer la médiane d'un échantillon de 15 fonds communs de placement à très haut risque, il faut d'abord trier les données brutes (figure 2). Alors la médiane sera opposée au numéro de l'élément médian de l'échantillon ; dans notre exemple numéro 8. Excel a une fonction spéciale =MEDIAN() qui fonctionne également avec des tableaux non ordonnés.

Riz. 2. Médiane 15 fonds

Ainsi, la médiane est de 6,5. Cela signifie que la moitié des fonds à très haut risque ne dépasse pas 6,5, tandis que l'autre moitié le dépasse. Notez que la médiane de 6,5 est légèrement supérieure à la médiane de 6,08.

Si nous supprimons la rentabilité du fonds RS Emerging Growth de l'échantillon, la médiane des 14 fonds restants diminuera à 6,2 %, c'est-à-dire moins significativement que la moyenne arithmétique (Fig. 3).

Riz. 3. Médiane 14 fonds

Mode

Le terme a été introduit pour la première fois par Pearson en 1894. La mode est le nombre qui apparaît le plus souvent dans l'échantillon (le plus à la mode). La mode décrit bien, par exemple, la réaction typique des conducteurs à un feu de circulation pour arrêter la circulation. Un exemple classique de l'utilisation de la mode est le choix de la taille du lot de chaussures produit ou de la couleur du papier peint. Si une distribution a plusieurs modes, on dit alors qu'elle est multimodale ou multimodale (a deux "pics" ou plus). La distribution multimodale fournit des informations importantes sur la nature de la variable étudiée. Par exemple, dans les enquêtes sociologiques, si une variable représente une préférence ou une attitude envers quelque chose, alors la multimodalité pourrait signifier qu'il existe plusieurs opinions distinctement différentes. La multimodalité est également un indicateur que l'échantillon n'est pas homogène et que les observations peuvent être générées par deux ou plusieurs distributions "chevauchées". Contrairement à la moyenne arithmétique, les valeurs aberrantes n'affectent pas le mode. Pour les variables aléatoires distribuées en continu, telles que les rendements annuels moyens des fonds communs de placement, le mode n'existe parfois pas du tout (ou n'a pas de sens). Étant donné que ces indicateurs peuvent prendre une variété de valeurs, les valeurs répétitives sont extrêmement rares.

quartiles

Les quartiles sont des mesures les plus couramment utilisées pour évaluer la distribution des données lors de la description des propriétés de grands échantillons numériques. Alors que la médiane divise le tableau ordonné en deux (50 % des éléments du tableau sont inférieurs à la médiane et 50 % sont supérieurs), les quartiles divisent l'ensemble de données ordonné en quatre parties. Les valeurs Q 1 , médiane et Q 3 sont respectivement les 25e, 50e et 75e centiles. Le premier quartile Q 1 est un nombre qui divise l'échantillon en deux parties : 25 % des éléments sont inférieurs à et 75 % sont supérieurs au premier quartile.

Le troisième quartile Q 3 est un nombre qui divise également l'échantillon en deux parties : 75 % des éléments sont inférieurs à et 25 % sont supérieurs au troisième quartile.

Pour calculer les quartiles dans les versions d'Excel antérieures à 2007, la fonction = QUARTILE (tableau, partie) a été utilisée. A partir d'Excel 2010, deux fonctions s'appliquent :

  • =QUARTILE.ON(tableau, partie)
  • =QUARTILE.EXC(tableau, partie)

Ces deux fonctions donnent des valeurs légèrement différentes (Figure 4). Par exemple, lors du calcul des quartiles d'un échantillon contenant des données sur le rendement annuel moyen de 15 fonds communs de placement à très haut risque, Q 1 = 1,8 ou -0,7 pour QUARTILE.INC et QUARTILE.EXC, respectivement. Soit dit en passant, la fonction QUARTILE utilisée précédemment correspond à la fonction moderne QUARTILE.ON. Pour calculer les quartiles dans Excel à l'aide des formules ci-dessus, le tableau de données peut être laissé non ordonné.

Riz. 4. Calculer les quartiles dans Excel

Insistons à nouveau. Excel peut calculer des quartiles pour univarié série discrète, contenant les valeurs d'une variable aléatoire. Le calcul des quartiles pour une distribution basée sur la fréquence est donné dans la section ci-dessous.

Moyenne géométrique

Contrairement à la moyenne arithmétique, la moyenne géométrique mesure l'évolution d'une variable au fil du temps. La moyenne géométrique est la racine nème degré du produit n valeurs (dans Excel, la fonction = CUGEOM est utilisée) :

g= (X 1 * X 2 * ... * X n) 1/n

Un paramètre similaire - la moyenne géométrique du taux de rendement - est déterminé par la formule :

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

R je- taux de retour je-ème période de temps.

Par exemple, supposons que l'investissement initial est de 100 000 $. À la fin de la première année, il tombe à 50 000 $ et, à la fin de la deuxième année, il retrouve les 100 000 $ d'origine. Le taux de rendement de cet investissement sur une période de deux ans la période de l'année est égale à 0, puisque le montant initial et le montant final des fonds sont égaux l'un à l'autre. Cependant, la moyenne arithmétique des taux de rendement annuels est = (-0,5 + 1) / 2 = 0,25 ou 25 %, puisque le taux de rendement de la première année R 1 = (50 000 - 100 000) / 100 000 = -0,5 , et dans le second R 2 = (100 000 - 50 000) / 50 000 = 1. Dans le même temps, la moyenne géométrique du taux de rendement sur deux ans est : G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Ainsi, la moyenne géométrique reflète plus fidèlement l'évolution (plus précisément, l'absence de variation) du volume des investissements au cours de l'exercice biennal que la moyenne arithmétique.

Faits intéressants. Premièrement, la moyenne géométrique sera toujours inférieure à la moyenne arithmétique des mêmes nombres. Sauf dans le cas où tous les nombres pris sont égaux entre eux. Deuxièmement, après avoir considéré les propriétés d'un triangle rectangle, on peut comprendre pourquoi la moyenne est appelée géométrique. La hauteur d'un triangle rectangle, abaissé à l'hypoténuse, est la moyenne proportionnelle entre les projections des jambes sur l'hypoténuse, et chaque jambe est la moyenne proportionnelle entre l'hypoténuse et sa projection sur l'hypoténuse (Fig. 5). Cela donne une manière géométrique de construire la moyenne géométrique de deux (longueurs) segments : il faut construire un cercle sur la somme de ces deux segments comme diamètre, puis la hauteur, restituée du point de leur raccordement à l'intersection avec le cercle, donnera la valeur requise :

Riz. 5. La nature géométrique de la moyenne géométrique (figure de Wikipedia)

La deuxième propriété importante des données numériques est leur variation caractérisant le degré de dispersion des données. Deux échantillons différents peuvent différer à la fois en valeurs moyennes et en variations. Cependant, comme le montre la fig. 6 et 7, deux échantillons peuvent avoir la même variation mais des moyennes différentes, ou la même moyenne et une variation complètement différente. Les données correspondant au polygone B de la Fig. 7 changent beaucoup moins que les données à partir desquelles le polygone A a été construit.

Riz. 6. Deux distributions symétriques en forme de cloche avec le même écart et des valeurs moyennes différentes

Riz. 7. Deux distributions symétriques en forme de cloche avec les mêmes valeurs moyennes et une dispersion différente

Il existe cinq estimations de la variation des données :

  • envergure,
  • gamme interquartile,
  • dispersion,
  • écart-type,
  • le coefficient de variation.

portée

La plage est la différence entre les éléments les plus grands et les plus petits de l'échantillon :

Glisser = XMax-XMin

La fourchette d'un échantillon contenant les rendements annuels moyens de 15 fonds communs de placement à très haut risque peut être calculée à l'aide d'un tableau ordonné (voir la figure 4) : fourchette = 18,5 - (-6,1) = 24,6. Cela signifie que la différence entre les rendements annuels moyens les plus élevés et les plus bas pour les fonds à très haut risque est de 24,6 %.

La plage mesure la répartition globale des données. Bien que la plage d'échantillonnage soit une estimation très simple de la dispersion totale des données, sa faiblesse est qu'elle ne tient pas compte exactement de la manière dont les données sont réparties entre les éléments minimum et maximum. Cet effet est bien visible sur la Fig. 8 qui illustre des échantillons ayant la même gamme. L'échelle B montre que si l'échantillon contient au moins une valeur extrême, la plage de l'échantillon est une estimation très imprécise de la dispersion des données.

Riz. 8. Comparaison de trois échantillons avec la même gamme ; le triangle symbolise le support de la balance, et son emplacement correspond à la valeur moyenne de l'échantillon

Gamme interquartile

La plage interquartile, ou moyenne, est la différence entre le troisième et le premier quartile de l'échantillon :

Intervalle interquartile \u003d Q 3 - Q 1

Cette valeur permet d'estimer l'étalement de 50% des éléments et de ne pas tenir compte de l'influence des éléments extrêmes. L'intervalle interquartile pour un échantillon contenant des données sur les rendements annuels moyens de 15 fonds communs de placement à très haut risque peut être calculé à l'aide des données de la Fig. 4 (par exemple, pour la fonction QUARTILE.EXC) : Etendue interquartile = 9,8 - (-0,7) = 10,5. L'intervalle entre 9,8 et -0,7 est souvent appelé la moitié médiane.

Il est à noter que les valeurs de Q 1 et Q 3, et donc l'écart interquartile, ne dépendent pas de la présence d'outliers, puisque leur calcul ne prend en compte aucune valeur qui serait inférieure à Q 1 ou supérieure à Q 3 . Les caractéristiques quantitatives totales, telles que la médiane, les premier et troisième quartiles et l'intervalle interquartile, qui ne sont pas affectées par les valeurs aberrantes, sont appelées indicateurs robustes.

Bien que la plage et la plage interquartile fournissent une estimation de la dispersion totale et moyenne de l'échantillon, respectivement, aucune de ces estimations ne tient compte exactement de la manière dont les données sont distribuées. Variance et écart type libre de ce défaut. Ces indicateurs permettent d'évaluer le degré de fluctuation des données autour de la moyenne. Écart d'échantillon est une approximation de la moyenne arithmétique calculée à partir des différences au carré entre chaque élément de l'échantillon et la moyenne de l'échantillon. Pour un échantillon de X 1 , X 2 , ... X n la variance de l'échantillon (notée par le symbole S 2 est donnée par la formule suivante :

En général, la variance de l'échantillon est la somme des différences au carré entre les éléments de l'échantillon et la moyenne de l'échantillon, divisée par une valeur égale à la taille de l'échantillon moins un :

- moyenne arithmétique, n- taille de l'échantillon, X je - je-ème élément échantillon X. Dans Excel avant la version 2007, la fonction =VAR() était utilisée pour calculer la variance de l'échantillon, depuis la version 2010, la fonction =VAR.V() est utilisée.

L'estimation la plus pratique et la plus largement acceptée de la dispersion des données est écart-type. Cet indicateur est désigné par le symbole S et est égal à la racine carrée de la variance de l'échantillon :

Dans Excel avant la version 2007, la fonction =STDEV() était utilisée pour calculer l'écart type, à partir de la version 2010 la fonction =STDEV.B() est utilisée. Pour calculer ces fonctions, le tableau de données peut être non ordonné.

Ni la variance de l'échantillon ni l'écart-type de l'échantillon ne peuvent être négatifs. La seule situation dans laquelle les indicateurs S 2 et S peuvent être nuls est celle où tous les éléments de l'échantillon sont égaux. Dans ce cas totalement improbable, l'intervalle et l'intervalle interquartile sont également nuls.

Les données numériques sont par nature volatiles. Toute variable peut prendre plusieurs valeurs différentes. Par exemple, différents fonds communs de placement ont des taux de rendement et de perte différents. En raison de la variabilité des données numériques, il est très important d'étudier non seulement les estimations de la moyenne, qui sont de nature sommative, mais aussi les estimations de la variance, qui caractérisent la dispersion des données.

La variance et l'écart-type nous permettent d'estimer la dispersion des données autour de la moyenne, c'est-à-dire de déterminer combien d'éléments de l'échantillon sont inférieurs à la moyenne et combien sont supérieurs. La dispersion a des propriétés mathématiques intéressantes. Cependant, sa valeur est le carré d'une unité de mesure - un pourcentage carré, un dollar carré, un pouce carré, etc. Par conséquent, une estimation naturelle de la variance est l'écart type, qui est exprimé dans les unités de mesure habituelles - pourcentage du revenu, dollars ou pouces.

L'écart type vous permet d'estimer la quantité de fluctuation des éléments de l'échantillon autour de la valeur moyenne. Dans presque toutes les situations, la majorité des valeurs observées se situent à plus ou moins un écart type de la moyenne. Par conséquent, connaissant la moyenne arithmétique des éléments de l'échantillon et l'écart type de l'échantillon, il est possible de déterminer l'intervalle auquel appartient la majeure partie des données.

L'écart-type des rendements de 15 fonds communs de placement à très haut risque est de 6,6 (figure 9). Cela signifie que la rentabilité de la majeure partie des fonds ne diffère pas de la valeur moyenne de plus de 6,6 % (c'est-à-dire qu'elle fluctue dans la plage allant de –S= 6,2 – 6,6 = –0,4 à +S= 12,8). En fait, cet intervalle contient un rendement annuel moyen sur cinq ans de 53,3 % (8 sur 15) des fonds.

Riz. 9. Écart type

Notez que lors du processus d'addition des différences au carré, les éléments les plus éloignés de la moyenne gagnent plus de poids que les éléments les plus proches. Cette propriété est la principale raison pour laquelle la moyenne arithmétique est le plus souvent utilisée pour estimer la moyenne d'une distribution.

Le coefficient de variation

Contrairement aux estimations de dispersion précédentes, le coefficient de variation est une estimation relative. Il est toujours mesuré en pourcentage, et non dans les unités de données d'origine. Le coefficient de variation, désigné par les symboles CV, mesure la dispersion des données autour de la moyenne. Le coefficient de variation est égal à l'écart type divisé par la moyenne arithmétique et multiplié par 100 % :

S- écart-type de l'échantillon, - moyenne de l'échantillon.

Le coefficient de variation permet de comparer deux échantillons dont les éléments sont exprimés dans des unités de mesure différentes. Par exemple, le responsable d'un service de livraison de courrier a l'intention de moderniser la flotte de camions. Lors du chargement des colis, il y a deux types de restrictions à considérer : le poids (en livres) et le volume (en pieds cubes) de chaque colis. Supposons que dans un échantillon de 200 sacs, le poids moyen est de 26,0 livres, l'écart type du poids est de 3,9 livres, le volume moyen du colis est de 8,8 pieds cubes et l'écart type du volume est de 2,2 pieds cubes. Comment comparer la répartition du poids et du volume des colis ?

Étant donné que les unités de mesure du poids et du volume diffèrent les unes des autres, le gestionnaire doit comparer la répartition relative de ces valeurs. Le coefficient de variation de poids est CV W = 3,9 / 26,0 * 100 % = 15 %, et le coefficient de variation de volume CV V = 2,2 / 8,8 * 100 % = 25 %. Ainsi, la dispersion relative des volumes de paquets est beaucoup plus grande que la dispersion relative de leurs poids.

Formulaire de distribution

La troisième propriété importante de l'échantillon est la forme de sa distribution. Cette distribution peut être symétrique ou asymétrique. Pour décrire la forme d'une distribution, il est nécessaire de calculer sa moyenne et sa médiane. Si ces deux mesures sont identiques, la variable est dite symétriquement distribuée. Si la valeur moyenne d'une variable est supérieure à la médiane, sa distribution a une asymétrie positive (Fig. 10). Si la médiane est supérieure à la moyenne, la distribution de la variable est asymétrique négativement. Une asymétrie positive se produit lorsque la moyenne augmente jusqu'à des valeurs anormalement élevées. Une asymétrie négative se produit lorsque la moyenne diminue jusqu'à des valeurs anormalement petites. Une variable est distribuée symétriquement si elle ne prend aucune valeur extrême dans les deux sens, de sorte que les grandes et les petites valeurs de la variable s'annulent.

Riz. 10. Trois types de distributions

Les données représentées sur l'échelle A ont une asymétrie négative. Cette figure montre une longue traîne et une inclinaison vers la gauche causées par des valeurs anormalement petites. Ces valeurs extrêmement petites déplacent la valeur moyenne vers la gauche et celle-ci devient inférieure à la médiane. Les données présentées sur l'échelle B sont réparties symétriquement. Les moitiés gauche et droite de la distribution sont leurs images miroir. Les grandes et les petites valeurs s'équilibrent, et la moyenne et la médiane sont égales. Les données affichées sur l'échelle B ont une asymétrie positive. Cette figure montre une longue traîne et un biais vers la droite, causés par la présence de valeurs anormalement élevées. Ces valeurs trop grandes déplacent la moyenne vers la droite, et celle-ci devient plus grande que la médiane.

Dans Excel, des statistiques descriptives peuvent être obtenues à l'aide du complément Forfait d'analyse. Parcourez le menu DonnéesL'analyse des données, dans la fenêtre qui s'ouvre, sélectionnez la ligne Statistiques descriptives et cliquez D'accord. Dans la fenêtre Statistiques descriptives n'oubliez pas d'indiquer intervalle d'entrée(Fig. 11). Si vous souhaitez voir les statistiques descriptives sur la même feuille que les données d'origine, sélectionnez le bouton radio intervalle de sortie et spécifiez la cellule où vous souhaitez placer le coin supérieur gauche des statistiques affichées (dans notre exemple, $C$1). Si vous souhaitez exporter des données vers une nouvelle feuille ou un nouveau classeur, sélectionnez simplement le bouton radio approprié. Cochez la case à côté de Statistiques finales. En option, vous pouvez également choisir Niveau de difficulté,k-ième plus petit etke plus grand.

Si en dépôt Données dans la région de Une analyse vous ne voyez pas l'icône L'analyse des données, vous devez d'abord installer le module complémentaire Forfait d'analyse(voir, par exemple,).

Riz. 11. Statistiques descriptives des rendements annuels moyens sur cinq ans des fonds présentant des niveaux de risque très élevés, calculés à l'aide de l'add-on L'analyse des données Programmes Excel

Excel calcule un certain nombre de statistiques discutées ci-dessus : moyenne, médiane, mode, écart type, variance, plage ( intervalle), minimum, maximum et taille d'échantillon ( Chèque). De plus, Excel calcule pour nous de nouvelles statistiques : erreur standard, aplatissement et asymétrie. erreur standard est égal à l'écart type divisé par la racine carrée de la taille de l'échantillon. asymétrie caractérise l'écart à la symétrie de la distribution et est une fonction qui dépend du cube des différences entre les éléments de l'échantillon et la valeur moyenne. L'aplatissement est une mesure de la concentration relative des données autour de la moyenne par rapport aux queues de la distribution, et dépend des différences entre l'échantillon et la moyenne élevée à la quatrième puissance.

Calcul de statistiques descriptives pour la population générale

La moyenne, la dispersion et la forme de la distribution décrites ci-dessus sont des caractéristiques basées sur un échantillon. Cependant, si l'ensemble de données contient des mesures numériques de l'ensemble de la population, ses paramètres peuvent être calculés. Ces paramètres comprennent la moyenne, la variance et l'écart type de la population.

Valeur attendue est égal à la somme de toutes les valeurs de la population générale divisée par le volume de la population générale :

µ - valeur attendue, Xje- je-ième observation variable X, N- le volume de la population générale. Dans Excel, pour calculer l'espérance mathématique, on utilise la même fonction que pour la moyenne arithmétique : =AVERAGE().

Écart démographiqueégale à la somme des écarts au carré entre les éléments de la population générale et mat. espérance divisée par la taille de la population :

σ2 est la variance de la population générale. Excel avant la version 2007 utilise la fonction =VAR() pour calculer la variance de la population, à partir de la version 2010 =VAR.G().

écart-type de la population est égal à la racine carrée de la variance de la population :

Excel avant la version 2007 utilise =STDEV() pour calculer l'écart type de la population, à partir de la version 2010 =STDEV.Y(). Notez que les formules pour la variance de la population et l'écart type sont différentes des formules pour la variance de l'échantillon et l'écart type. Lors du calcul des statistiques d'échantillon S2 et S le dénominateur de la fraction est n-1, et lors du calcul des paramètres σ2 et σ - le volume de la population générale N.

règle d'or

Dans la plupart des situations, une grande partie des observations sont concentrées autour de la médiane, formant un cluster. Dans les ensembles de données avec une asymétrie positive, ce groupe est situé à gauche (c'est-à-dire en dessous) de l'espérance mathématique, et dans les ensembles avec une asymétrie négative, ce groupe est situé à droite (c'est-à-dire au-dessus) de l'espérance mathématique. Les données symétriques ont la même moyenne et la même médiane, et les observations se regroupent autour de la moyenne, formant une distribution en forme de cloche. Si la distribution n'a pas une asymétrie prononcée et que les données sont concentrées autour d'un certain centre de gravité, une règle empirique peut être utilisée pour estimer la variabilité, qui dit : si les données ont une distribution en forme de cloche, alors environ 68 % des observations sont à moins d'un écart-type de l'espérance mathématique, environ 95 % des observations sont à moins de deux écarts-types de la valeur attendue, et 99,7 % des observations sont à moins de trois écarts-types de la valeur attendue.

Ainsi, l'écart-type, qui est une estimation de la fluctuation moyenne autour de l'espérance mathématique, aide à comprendre comment les observations sont distribuées et à identifier les valeurs aberrantes. Il découle de la règle empirique que pour les distributions en forme de cloche, seule une valeur sur vingt diffère de l'espérance mathématique de plus de deux écarts-types. Par conséquent, les valeurs en dehors de l'intervalle µ ± 2σ, peuvent être considérés comme des valeurs aberrantes. De plus, seules trois observations sur 1000 diffèrent de l'espérance mathématique de plus de trois écarts-types. Ainsi, les valeurs en dehors de l'intervalle µ ± 3σ sont presque toujours des valeurs aberrantes. Pour les distributions fortement asymétriques ou non en forme de cloche, la règle empirique de Biename-Chebyshev peut être appliquée.

Il y a plus de cent ans, les mathématiciens Bienamay et Chebyshev ont découvert indépendamment une propriété utile de l'écart type. Ils ont constaté que pour tout ensemble de données, quelle que soit la forme de la distribution, le pourcentage d'observations situées à une distance ne dépassant pas kécarts-types par rapport à l'espérance mathématique, pas moins (1 – 1/ 2)*100 %.

Par exemple, si k= 2, la règle de Biename-Chebyshev stipule qu'au moins (1 - (1/2) 2) x 100 % = 75 % des observations doivent se situer dans l'intervalle µ ± 2σ. Cette règle est vraie pour tout k dépassant un. La règle de Biename-Chebyshev est de nature très générale et est valable pour les distributions de toute nature. Il indique le nombre minimum d'observations, la distance à partir de laquelle l'espérance mathématique ne dépasse pas une valeur donnée. Cependant, si la distribution est en forme de cloche, la règle empirique estime plus précisément la concentration de données autour de la moyenne.

Calcul de statistiques descriptives pour une distribution basée sur la fréquence

Si les données d'origine ne sont pas disponibles, la distribution de fréquence devient la seule source d'information. Dans de telles situations, vous pouvez calculer les valeurs approximatives des indicateurs quantitatifs de la distribution, tels que la moyenne arithmétique, l'écart type, les quartiles.

Si les données de l'échantillon sont présentées sous forme de distribution de fréquence, une valeur approximative de la moyenne arithmétique peut être calculée, en supposant que toutes les valeurs de chaque classe sont concentrées au milieu de la classe :

- moyenne de l'échantillon, n- nombre d'observations, ou taille de l'échantillon, Avec- le nombre de classes dans la distribution de fréquence, mj- point médian j-ème classe, Fj- fréquence correspondant à j-ème classe.

Pour calculer l'écart type à partir de la distribution de fréquence, on suppose également que toutes les valeurs de chaque classe sont concentrées au milieu de la classe.

Pour comprendre comment les quartiles de la série sont déterminés en fonction des fréquences, considérons le calcul du quartile inférieur basé sur les données de 2013 sur la répartition de la population russe par revenu monétaire moyen par habitant (Fig. 12).

Riz. 12. La part de la population de la Russie avec un revenu monétaire par habitant en moyenne par mois, en roubles

Pour calculer le premier quartile de la série de variation d'intervalle, vous pouvez utiliser la formule :

où Q1 est la valeur du premier quartile, xQ1 est la borne inférieure de l'intervalle contenant le premier quartile (l'intervalle est déterminé par la fréquence cumulée, la première dépassant 25 %) ; i est la valeur de l'intervalle ; Σf est la somme des fréquences de l'ensemble de l'échantillon ; probablement toujours égal à 100 % ; SQ1–1 est la fréquence cumulée de l'intervalle précédant l'intervalle contenant le quartile inférieur ; fQ1 est la fréquence de l'intervalle contenant le quartile inférieur. La formule pour le troisième quartile diffère en ce que partout, au lieu de Q1, vous devez utiliser Q3 et remplacer ¾ au lieu de ¼.

Dans notre exemple (Fig. 12), le quartile inférieur est compris entre 7 000,1 et 10 000, dont la fréquence cumulée est de 26,4 %. La limite inférieure de cet intervalle est de 7000 roubles, la valeur de l'intervalle est de 3000 roubles, la fréquence cumulée de l'intervalle précédant l'intervalle contenant le quartile inférieur est de 13,4%, la fréquence de l'intervalle contenant le quartile inférieur est de 13,0%. Ainsi: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 roubles.

Les pièges associés aux statistiques descriptives

Dans cette note, nous avons examiné comment décrire un ensemble de données à l'aide de diverses statistiques qui estiment sa moyenne, sa dispersion et sa distribution. L'étape suivante consiste à analyser et interpréter les données. Jusqu'à présent, nous avons étudié les propriétés objectives des données, et nous nous tournons maintenant vers leur interprétation subjective. Deux erreurs guettent le chercheur : un sujet d'analyse mal choisi et une mauvaise interprétation des résultats.

L'analyse de la performance de 15 fonds communs de placement à très haut risque est assez impartiale. Il a abouti à des conclusions tout à fait objectives : tous les fonds communs de placement ont des rendements différents, l'écart des rendements des fonds varie de -6,1 à 18,5 et le rendement moyen est de 6,08. L'objectivité de l'analyse des données est assurée par le choix correct des indicateurs quantitatifs totaux de la distribution. Plusieurs méthodes d'estimation de la moyenne et de la dispersion des données ont été envisagées, et leurs avantages et inconvénients ont été indiqués. Comment choisir les bonnes statistiques qui fournissent une analyse objective et impartiale ? Si la distribution des données est légèrement asymétrique, faut-il choisir la médiane plutôt que la moyenne arithmétique ? Quel indicateur caractérise le plus précisément la dispersion des données : écart-type ou fourchette ? Faut-il indiquer l'asymétrie positive de la distribution ?

D'autre part, l'interprétation des données est un processus subjectif. Différentes personnes arrivent à des conclusions différentes, interprétant les mêmes résultats. Chacun a son propre point de vue. Quelqu'un considère que les rendements annuels moyens totaux de 15 fonds avec un niveau de risque très élevé sont bons et est assez satisfait des revenus perçus. D'autres peuvent penser que ces fonds ont des rendements trop faibles. Ainsi, la subjectivité devrait être compensée par l'honnêteté, la neutralité et la clarté des conclusions.

Questions éthiques

L'analyse des données est inextricablement liée aux questions éthiques. Il faut être critique vis-à-vis des informations diffusées par les journaux, la radio, la télévision et Internet. Au fil du temps, vous apprendrez à être sceptique non seulement sur les résultats, mais aussi sur les objectifs, le sujet et l'objectivité de la recherche. Le célèbre politicien britannique Benjamin Disraeli l'a dit le mieux : « Il y a trois sortes de mensonges : les mensonges, les maudits mensonges et les statistiques.

Comme indiqué dans la note, des questions éthiques se posent lors du choix des résultats qui doivent être présentés dans le rapport. Les résultats positifs et négatifs doivent être publiés. De plus, lors de la rédaction d'un rapport ou d'un rapport écrit, les résultats doivent être présentés de manière honnête, neutre et objective. Faites la distinction entre les présentations mauvaises et malhonnêtes. Pour ce faire, il est nécessaire de déterminer quelles étaient les intentions du locuteur. Parfois, le locuteur omet des informations importantes par ignorance, et parfois délibérément (par exemple, s'il utilise la moyenne arithmétique pour estimer la moyenne de données clairement biaisées afin d'obtenir le résultat souhaité). Il est également malhonnête de supprimer des résultats qui ne correspondent pas au point de vue du chercheur.

Les matériaux du livre Levin et al Statistiques pour les gestionnaires sont utilisés. - M. : Williams, 2004. - p. 178–209

Fonction QUARTILE conservée pour s'aligner sur les versions antérieures d'Excel

    Le programme Excel est multi-facettes, il existe donc plusieurs options qui vous permettront de trouver la moyenne :

    Première possibilité. Vous additionnez simplement toutes les cellules et divisez par leur nombre;

    Deuxième option. Utilisez une commande spéciale, écrivez dans la cellule requise la formule = MOYENNE (et spécifiez ici la plage de cellules);

    Troisième possibilité. Si vous sélectionnez la plage requise, notez que sur la page ci-dessous, la valeur moyenne dans ces cellules est également affichée.

    Ainsi, il existe de nombreuses façons de trouver la valeur moyenne, il vous suffit de choisir celle qui vous convient le mieux et de l'utiliser constamment.

    Commençons par le début et dans l'ordre. Que signifie moyenne ?

    La valeur moyenne est la valeur qui est la moyenne arithmétique, c'est-à-dire est calculé en ajoutant un ensemble de nombres, puis en divisant la somme totale des nombres par leur nombre. Par exemple, pour les nombres 2, 3, 6, 7, 2 ce sera 4 (la somme des nombres 20 est divisée par leur nombre 5)

    Dans une feuille de calcul Excel, pour moi personnellement, le moyen le plus simple était d'utiliser la formule = MOYENNE. Pour calculer la valeur moyenne, vous devez entrer des données dans le tableau, écrire la fonction =AVERAGE() sous la colonne de données et, entre parenthèses, indiquer la plage de nombres dans les cellules, en mettant en surbrillance la colonne avec les données. Après cela, appuyez sur ENTREE ou cliquez simplement sur n'importe quelle cellule. Le résultat sera affiché dans la cellule sous la colonne. A première vue, la description est incompréhensible, mais en fait c'est une question de minutes.

    Dans Excel, en utilisant la fonction MOYENNE, vous pouvez calculer la moyenne arithmétique simple. Pour ce faire, vous devez entrer un certain nombre de valeurs. Appuyez sur égal et sélectionnez dans la catégorie Statistique, parmi lesquels sélectionnez la fonction MOYENNE

    De plus, à l'aide de formules statistiques, vous pouvez calculer la moyenne pondérée arithmétique, qui est considérée comme plus précise. Pour le calculer, nous avons besoin des valeurs de l'indicateur et de la fréquence.

    C'est très facile si les données sont déjà saisies dans les cellules. Si vous êtes juste intéressé par un nombre, sélectionnez simplement la plage/les plages souhaitées, et la valeur de la somme de ces nombres, leur moyenne arithmétique et leur nombre apparaîtront dans la barre d'état en bas à droite.

    Vous pouvez sélectionner une cellule vide, cliquer sur le triangle (liste déroulante) Somme automatique et y sélectionner Moyenne, après quoi vous serez d'accord avec la plage proposée pour le calcul, ou choisissez la vôtre.

    Enfin, vous pouvez utiliser des formules directement en cliquant sur Insérer une fonction à côté de la barre de formule et de l'adresse de la cellule. La fonction MOYENNE se trouve dans la catégorie Statistique et prend comme arguments à la fois des nombres et des références de cellules, etc. Là, vous pouvez également choisir des options plus complexes, par exemple MOYENNESI - calcul de la moyenne par condition.

    Très facile. Pour trouver la valeur moyenne dans Excel, vous n'avez besoin que de 3 cellules. Dans le premier, nous écrivons un numéro, dans le second - un autre. Et dans la troisième cellule, nous marquerons une formule qui nous donnera la valeur moyenne entre ces deux nombres des première et deuxième cellules. Si la cellule 1 s'appelle A1, la cellule 2 s'appelle B1, alors dans la cellule avec la formule, vous devez écrire comme ceci :

    Cette formule calcule la moyenne arithmétique de deux nombres.

    Pour la beauté de nos calculs, nous pouvons mettre en évidence les cellules avec des lignes, sous forme de plaque.

    Il existe également une fonction dans Excel lui-même pour déterminer la valeur moyenne, mais j'utilise la méthode à l'ancienne et j'entre la formule dont j'ai besoin. Ainsi, je suis sûr qu'Excel calculera exactement ce dont j'ai besoin et ne proposera pas une sorte d'arrondi.

    Ici tu peux donner plein de conseils, mais à chaque nouveau conseil tu auras une nouvelle question, ça peut et bien, d'une part, ça va être une incitation à améliorer ton niveau sur ce site, donc je ne vais pas te donner un tas de conseils, mais je donnerai un lien vers YouTube une chaîne avec un cours sur la maîtrise d'une application aussi nécessaire qu'Excel, votre droit de l'utiliser ou non, vous aurez un lien vers un cours détaillé où vous trouverez toujours le réponse à votre question sur Excel

    encerclez les valeurs qui seront impliquées dans le calcul, cliquez sur l'onglet Formules, vous y verrez Somme automatique à gauche et à côté un triangle pointant vers le bas. Cliquez sur ce triangle et choisissez Moyenne. Voila, c'est fait) en bas de la colonne vous verrez la valeur moyenne :)

Réponse: tout le monde a un 4 des poires.

Exemple 2. 15 personnes ont suivi des cours d'anglais le lundi, 10 le mardi, 12 le mercredi, 11 le jeudi, 7 le vendredi, 14 le samedi et 8 le dimanche. Trouvez la fréquentation moyenne des cours pour la semaine.
La solution: Trouvons la moyenne arithmétique :

15 + 10 + 12 + 11 + 7 + 14 + 8 = 77 = 11
7 7
Réponse: en moyenne, les cours d'anglais sont venus 11 personne par jour.

Exemple 3. Un conducteur a conduit pendant deux heures à une vitesse de 120 km/h et une heure à une vitesse de 90 km/h. Trouver la vitesse moyenne de la voiture pendant la course.
La solution: Trouvons la moyenne arithmétique des vitesses des voitures pour chaque heure de trajet :

120 + 120 + 90 = 330 = 110
3 3
Réponse: la vitesse moyenne de la voiture pendant la course était 110 km/h

Exemple 4. La moyenne arithmétique de 3 nombres est 6, et la moyenne arithmétique de 7 autres nombres est 3. Quelle est la moyenne arithmétique de ces dix nombres ?
La solution: Puisque la moyenne arithmétique de 3 nombres est 6, alors leur somme est 6 3 = 18, de même, la somme des 7 nombres restants est 7 3 = 21.
Ainsi, la somme des 10 nombres sera 18 + 21 = 39, et la moyenne arithmétique est

39 = 3.9
10
Réponse: la moyenne arithmétique de 10 nombres est 3.9 .

En mathématiques, la moyenne arithmétique des nombres (ou simplement la moyenne) est la somme de tous les nombres d'un ensemble donné divisée par leur nombre. C'est le concept le plus généralisé et répandu de la valeur moyenne. Comme vous l'avez déjà compris, pour trouver, vous devez additionner tous les nombres qui vous sont donnés et diviser le résultat par le nombre de termes.

Quelle est la moyenne arithmétique ?

Prenons un exemple.

Exemple 1. Des nombres sont donnés : 6, 7, 11. Vous devez trouver leur valeur moyenne.

La solution.

Trouvons d'abord la somme de tous les nombres donnés.

Maintenant, nous divisons la somme obtenue par le nombre de termes. Puisque nous avons trois termes, respectivement, nous allons diviser par trois.

Par conséquent, la moyenne de 6, 7 et 11 est 8. Pourquoi 8 ? Oui, car la somme de 6, 7 et 11 sera la même que trois huit. Cela se voit clairement sur l'illustration.

La valeur moyenne rappelle quelque peu "l'alignement" d'une série de nombres. Comme vous pouvez le voir, les piles de crayons sont devenues un niveau.

Prenons un autre exemple pour consolider les connaissances acquises.

Exemple 2 Les nombres sont donnés : 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Vous devez trouver leur moyenne arithmétique.

La solution.

On trouve la somme.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Divisez par le nombre de termes (dans ce cas, 15).

Par conséquent, la valeur moyenne de cette série de nombres est 22.

Considérons maintenant les nombres négatifs. Rappelons-nous comment les résumer. Par exemple, vous avez deux nombres 1 et -4. Trouvons leur somme.

1 + (-4) = 1 - 4 = -3

Sachant cela, considérons un autre exemple.

Exemple 3 Trouver la valeur moyenne d'une série de nombres : 3, -7, 5, 13, -2.

La solution.

Trouver la somme de nombres.

3 + (-7) + 5 + 13 + (-2) = 12

Puisqu'il y a 5 termes, nous divisons la somme obtenue par 5.

Par conséquent, la moyenne arithmétique des nombres 3, -7, 5, 13, -2 est 2,4.

À notre époque de progrès technologique, il est beaucoup plus pratique d'utiliser des programmes informatiques pour trouver la valeur moyenne. Microsoft Office Excel en fait partie. Trouver la moyenne dans Excel est simple et rapide. De plus, ce programme est inclus dans le progiciel de Microsoft Office. Considérons une brève instruction, valeur en utilisant ce programme.

Pour calculer la valeur moyenne d'une série de nombres, vous devez utiliser la fonction MOYENNE. La syntaxe de cette fonction est :
=Moyenne(argument1, argument2, ... argument255)
où argument1, argument2, ... argument255 sont soit des nombres, soit des références de cellules (les cellules désignent des plages et des tableaux).

Pour que ce soit plus clair, testons les connaissances acquises.

  1. Entrez les nombres 11, 12, 13, 14, 15, 16 dans les cellules C1 - C6.
  2. Sélectionnez la cellule C7 en cliquant dessus. Dans cette cellule, nous afficherons la valeur moyenne.
  3. Cliquez sur l'onglet "Formules".
  4. Sélectionnez Plus de fonctions > Statistiques pour ouvrir
  5. Sélectionnez MOYENNE. Après cela, une boîte de dialogue devrait s'ouvrir.
  6. Sélectionnez et faites glisser les cellules C1-C6 pour définir la plage dans la boîte de dialogue.
  7. Confirmez vos actions avec le bouton "OK".
  8. Si vous avez tout fait correctement, dans la cellule C7, vous devriez avoir la réponse - 13,7. Lorsque vous cliquez sur la cellule C7, la fonction (=Moyenne(C1:C6)) s'affiche dans la barre de formule.

Il est très utile d'utiliser cette fonction pour la comptabilité, les factures ou lorsque vous avez simplement besoin de trouver la moyenne d'une très longue plage de nombres. Par conséquent, il est souvent utilisé dans les bureaux et les grandes entreprises. Cela vous permet de garder les dossiers en ordre et de calculer rapidement quelque chose (par exemple, le revenu moyen par mois). Vous pouvez également utiliser Excel pour trouver la moyenne d'une fonction.

Lorsque vous travaillez avec des expressions numériques, il est parfois nécessaire de calculer leur valeur moyenne. appelée la moyenne arithmétique. Dans Excel, un éditeur de tableur de Microsoft, il est possible de ne pas le calculer manuellement, mais d'utiliser des outils spéciaux. Dans cet article, des méthodes seront présentées pour vous permettre de connaître et d'afficher la moyenne arithmétique.

Méthode 1 : standard

Tout d'abord, analysons la méthode de calcul de la moyenne arithmétique dans Excel, ce qui implique d'utiliser un outil standard pour cela. La méthode est la plus simple et la plus pratique à utiliser, mais elle présente également certains inconvénients. Mais à leur sujet plus tard, mais passons maintenant à la tâche.

  1. Sélectionnez les cellules de la colonne ou de la ligne qui contiennent les valeurs numériques à calculer.
  2. Allez dans l'onglet "Accueil".
  3. Dans la barre d'outils de la catégorie "Édition", cliquez sur le bouton "Somme automatique", mais vous devez cliquer sur la flèche à côté pour qu'une liste déroulante apparaisse.
  4. Dans celui-ci, vous devez cliquer sur l'élément "Moyenne".

Dès que vous faites cela, le résultat du calcul de la moyenne arithmétique des valeurs sélectionnées apparaîtra dans la cellule à côté. Son emplacement dépendra du bloc de données, si vous avez sélectionné une ligne, alors le résultat sera à droite de la sélection, si la colonne est en dessous.

Mais comme mentionné précédemment, cette méthode a ses inconvénients. Ainsi, vous ne pourrez pas calculer la valeur à partir d'une plage de cellules ou de cellules situées à différents endroits. Par exemple, si votre tableau comporte deux colonnes avec des valeurs numériques adjacentes, alors en les sélectionnant et en effectuant les étapes ci-dessus, vous obtiendrez le résultat pour chaque colonne séparément.

Méthode 2 : Utilisation de l'assistant de fonction

Il existe de nombreuses façons de trouver la moyenne arithmétique dans Excel, et il est naturel qu'avec leur aide, il soit possible de contourner les limitations que la méthode précédente implique. Nous allons maintenant parler de l'exécution de calculs à l'aide de l'assistant de fonction. Voici donc ce que vous devez faire.

  1. En cliquant sur le bouton gauche de la souris, sélectionnez la cellule dans laquelle vous souhaitez voir le résultat du calcul.
  2. Ouvrez la fenêtre de l'assistant de fonction en cliquant sur le bouton "Insérer une fonction" situé à gauche de la barre de formule ou en utilisant les raccourcis clavier Shift + F3.
  3. Dans la fenêtre qui apparaît, recherchez la ligne "MOYENNE" dans la liste, sélectionnez-la et cliquez sur le bouton "OK".
  4. Une nouvelle fenêtre apparaîtra pour entrer les arguments de la fonction. Vous y verrez deux champs : "Number1" et "Number2".
  5. Dans le premier champ, entrez les adresses des cellules dans lesquelles se trouvent les valeurs numériques pour le calcul. Cela peut être fait à la fois manuellement et à l'aide d'un outil spécial. Dans le second cas, cliquez sur le bouton situé à droite du champ de saisie. La fenêtre de l'assistant se réduira et vous devrez sélectionner les cellules pour le calcul avec la souris.
  6. Si une autre plage de cellules contenant des données se trouve ailleurs sur la feuille, spécifiez-la dans le champ "Numéro2".
  7. Effectuez la saisie des données jusqu'à ce que vous ayez saisi toutes les données nécessaires.
  8. Cliquez sur le bouton OK.

Une fois la saisie terminée, la fenêtre de l'assistant se fermera et le résultat du calcul apparaîtra dans la cellule que vous avez sélectionnée au tout début. Vous connaissez maintenant la deuxième façon de calculer la moyenne arithmétique dans Excel. Mais pas le dernier, alors on continue.

Méthode 3 : via la barre de formule

Cette méthode, comment calculer la moyenne arithmétique dans Excel, n'est pas très différente de la précédente, mais dans certains cas, elle peut sembler plus pratique, il vaut donc la peine de la trier. Pour la plupart, cette méthode offre uniquement une autre façon d'invoquer l'assistant de fonction.


Dès que toutes les actions de la liste sont terminées, la fenêtre de l'assistant de fonction apparaît devant vous, où vous devez entrer les arguments. Vous savez déjà comment procéder à partir de la méthode précédente, toutes les actions suivantes ne sont pas différentes.

Méthode 4 : saisie manuelle d'une fonction

Si vous le souhaitez, vous pouvez éviter d'interagir avec l'assistant de fonction si vous connaissez la formule de la moyenne arithmétique dans Excel. Dans certaines situations, le saisir manuellement accélérera considérablement le processus de calcul.

Pour comprendre toutes les nuances, il faut regarder la syntaxe de la formule, ça ressemble à ça :

MOYENNE(adresse_cellule(nombre), adresse_cellule(nombre))

Il découle de la syntaxe que dans les arguments de la fonction, il est nécessaire de prescrire soit l'adresse de la plage de cellules dans laquelle se trouvent les nombres à compter, soit les nombres eux-mêmes à calculer directement. En pratique, l'utilisation de cette méthode est la suivante :

MOYENNE(C4:D6;C8:D9)

Méthode 5 : calcul par condition

  • sélectionnez la cellule dans laquelle le calcul sera effectué ;
  • cliquez sur le bouton "insérer une fonction" ;
  • dans la fenêtre de l'assistant qui apparaît, dans la liste, sélectionnez la ligne "quand" ;
  • cliquez sur OK.

Après cela, une fenêtre pour entrer les arguments de la fonction apparaîtra. C'est très similaire à ce qui a été démontré plus tôt, seulement maintenant il y a un champ supplémentaire - "Condition". C'est dans celui-ci que la condition doit être inscrite. Ainsi, en saisissant "> 1500", seules les valeurs supérieures à celles spécifiées seront prises en compte.