Statistique1



STATISTIQUE

INTRODUCTION

Pour mieux comprendre le pourquoi et le comment des statistiques, voici quelques définitions données dans Larousse:

  1. Ensemble de données d’observation relatives à un groupe d’individus ou d’unités (souvent pluriel).
  2. Ensemble des méthodes qui ont pour objet la collecte, le traitement et l’interprétation de ces données.
  3. Ensemble des données numériques concernant un phénomène quelconque et dont on tire certaines conclusions.
  4. Variable aléatoire, fonction des observations, construite à partir d’un échantillon. (Ainsi, la moyenne d’un échantillon est une statistique.)

Déroulé du cours

Ce cours de statistique est composé de théorie, suivi d’exemples d’application et de Code en langage R (dans statistique2). Les données qu’on va utiliser proviennent des données ouvertes du site data.gouv.fr.

Le jeu de données utilisé pour illustrer notre cours a été pris dans les données concernant la carte des loyers des appartements en France en 2022.

i Nom de la commune (\(x_i\)) Loyer en euro par \(m^2\)
1 Sélestat 10,250
2 Veaugues 6,375
3 Varreddes 12,209
4 Sainte-Hélène 6,616
5 Villeneau 8,056
6 Merigny 6,816
7 Saint-André-sur-Orne 9,096
8 Estaing 5,715
9 Montigny-la-Resle 7,729
10 Les Mureaux 12,859

PARAMETRES DE POSITION

Moyenne arithmétique

La moyenne arithmétique est connue comme étant la moyenne à laquelle tout le monde pense lorsqu’on parle de moyenne. Elle est notée \(\bar{x}\) . Elle se calcule en additionnant les produits de chaque valeur par son effectif et en divisant le tout par le total des effectifs. \[\bar{x}=\frac{1}{n}\sum_{i=1}^{n}{n_i}{x_i}\]

AN: \(\bar{x}=\frac{(10,250 + 6,375 + 12,209 + 6,616 + 8,056 + 6,816 + 9,096 + 5,715+7,729+12,859)}{10}=8,572\)

Le loyer moyen dans les 10 communes est donc de 8,572 euros par \(m^2\)

Moyenne géométrique

La moyenne géométrique notée \(\bar{x}_g\) est souvent utilisée lorsque les données suivent une loi log normale. La moyenne géométrique est égale à la racine n-ième du produit des valeurs de la série de donmnées.

\[\bar{x}_g=(\prod_{i=1}^nx_i)^{\frac{1}{n}}\] AN: \(\bar{x}_g=(10,250 * 6,375 * 12,209 * 6,616 * 8,056*6,816*9,096*5,715*7,729*12,859)^\frac{1}{10}=8,271\)

Propriété:

La moyenne géométrique est inférieure ou égale à la moyenne arithmétique.

Remarque:

Le logarithme d’une moyenne géométrique est égale à la moyenne arithmétique des log des données. \[log(\bar{x}_g)=\frac{1}{n}\sum_{i=1}^{n}{log(x_i)}\]

Moyenne harmonique

La moyenne harmonique notée \(\bar{x}_h\) est l’inverse de la moyenne arithmétique des inverse des valeurs. \[\bar{x}_h=\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}\] On peut aussi écire \[\frac{1}{\bar{x}_h}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{x_i}\] Elle est surtout utilisée lorsqu’il y a des liens de proportionnalité inverse entre les données. Par exemple pour des vitesses exprimées en km/h, on peut utiliser la moyenne arithmétique ou la moyenne harmonique pour calculer sa moyenne, selon l’objectif et la situation d’une étude.

Médiane

La médiane noté \(\tilde{x}\) est la valeurs qui divise les observations en deux. C’est à dire que la moitiés des observations ont des valeurs inférieures à la médiane, el l’autre moitié supérieures à la médiane.

Pour nos données sur les loyers par \(m^2\), après les avoir trié par ordre croissant

\(x_8\) \(x_4\) \(x_2\) \(x_6\) \(x_9\) \(x_5\) \(x_7\) \(x_1\) \(x_3\) \(x_{10}\)
5,715 6,616 6,375 6,816 7,729 8,056 9,096 10,250 12,209 12,859

On note que les observations \(x_9\)=7,729 et \(x_5\)=8,056 divise les observations en deux. Comme on a un nombre pair d’observations, il y a deux valeurs qui divisent les observations en deux groupes. Dans ce cas, la médiane est obtenue en calculant la moyenne arithmétique de \(x_9\) et \(x_5\).

AN: \(\tilde{x}\)=7,893

Quartiles

Il y a trois quartiles notés \(q_1\), \(q_2\) et \(q_3\).

La première quartile \(q_1\) est la valeur telle que 25% des observations lui sont inférieures. La deuxième quartile \(q_2\) est la valeur telle que 50% des observations lui sont inférieures. Elle est égale à la médiane. La troisième quartile \(q_3\) est la valeur telle que 25% des observations lui sont supérieures. En prenant notre cas d’étude:

  • \(q_1\)=6,375
  • \(q_2\)=7,893
  • \(q_3\)=10,250

Les extrèmes

Ce sont les valeurs minimum et maximum des observations. Pour notre échnatillon:

  • \(x_{max}\)=12,859
  • \(x_{min}\)=5,715

Le mode

Le mode est la valeur pour laquelle les effectifs sont les plus élevés. Le mode sera surtout observé pour des achantillons de grande taille

PARAMETRES DE DISPERSION

Ecart-type

Variance

Etendue

Distance inter-quartile

summary(cars)
     speed           dist       
 Min.   : 4.0   Min.   :  2.00  
 1st Qu.:12.0   1st Qu.: 26.00  
 Median :15.0   Median : 36.00  
 Mean   :15.4   Mean   : 42.98  
 3rd Qu.:19.0   3rd Qu.: 56.00  
 Max.   :25.0   Max.   :120.00