summary(cars)
speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00
Pour mieux comprendre le pourquoi et le comment des statistiques, voici quelques définitions données dans Larousse:
Ce cours de statistique est composé de théorie, suivi d’exemples d’application et de Code en langage R (dans statistique2). Les données qu’on va utiliser proviennent des données ouvertes du site data.gouv.fr.
Le jeu de données utilisé pour illustrer notre cours a été pris dans les données concernant la carte des loyers des appartements en France en 2022.
i | Nom de la commune | (\(x_i\)) Loyer en euro par \(m^2\) |
---|---|---|
1 | Sélestat | 10,250 |
2 | Veaugues | 6,375 |
3 | Varreddes | 12,209 |
4 | Sainte-Hélène | 6,616 |
5 | Villeneau | 8,056 |
6 | Merigny | 6,816 |
7 | Saint-André-sur-Orne | 9,096 |
8 | Estaing | 5,715 |
9 | Montigny-la-Resle | 7,729 |
10 | Les Mureaux | 12,859 |
La moyenne arithmétique est connue comme étant la moyenne à laquelle tout le monde pense lorsqu’on parle de moyenne. Elle est notée \(\bar{x}\) . Elle se calcule en additionnant les produits de chaque valeur par son effectif et en divisant le tout par le total des effectifs. \[\bar{x}=\frac{1}{n}\sum_{i=1}^{n}{n_i}{x_i}\]
AN: \(\bar{x}=\frac{(10,250 + 6,375 + 12,209 + 6,616 + 8,056 + 6,816 + 9,096 + 5,715+7,729+12,859)}{10}=8,572\)
Le loyer moyen dans les 10 communes est donc de 8,572 euros par \(m^2\)
La moyenne géométrique notée \(\bar{x}_g\) est souvent utilisée lorsque les données suivent une loi log normale. La moyenne géométrique est égale à la racine n-ième du produit des valeurs de la série de donmnées.
\[\bar{x}_g=(\prod_{i=1}^nx_i)^{\frac{1}{n}}\] AN: \(\bar{x}_g=(10,250 * 6,375 * 12,209 * 6,616 * 8,056*6,816*9,096*5,715*7,729*12,859)^\frac{1}{10}=8,271\)
La moyenne géométrique est inférieure ou égale à la moyenne arithmétique.
Le logarithme d’une moyenne géométrique est égale à la moyenne arithmétique des log des données. \[log(\bar{x}_g)=\frac{1}{n}\sum_{i=1}^{n}{log(x_i)}\]
La moyenne harmonique notée \(\bar{x}_h\) est l’inverse de la moyenne arithmétique des inverse des valeurs. \[\bar{x}_h=\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}\] On peut aussi écire \[\frac{1}{\bar{x}_h}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{x_i}\] Elle est surtout utilisée lorsqu’il y a des liens de proportionnalité inverse entre les données. Par exemple pour des vitesses exprimées en km/h, on peut utiliser la moyenne arithmétique ou la moyenne harmonique pour calculer sa moyenne, selon l’objectif et la situation d’une étude.
La médiane noté \(\tilde{x}\) est la valeurs qui divise les observations en deux. C’est à dire que la moitiés des observations ont des valeurs inférieures à la médiane, el l’autre moitié supérieures à la médiane.
Pour nos données sur les loyers par \(m^2\), après les avoir trié par ordre croissant
\(x_8\) | \(x_4\) | \(x_2\) | \(x_6\) | \(x_9\) | \(x_5\) | \(x_7\) | \(x_1\) | \(x_3\) | \(x_{10}\) |
---|---|---|---|---|---|---|---|---|---|
5,715 | 6,616 | 6,375 | 6,816 | 7,729 | 8,056 | 9,096 | 10,250 | 12,209 | 12,859 |
On note que les observations \(x_9\)=7,729 et \(x_5\)=8,056 divise les observations en deux. Comme on a un nombre pair d’observations, il y a deux valeurs qui divisent les observations en deux groupes. Dans ce cas, la médiane est obtenue en calculant la moyenne arithmétique de \(x_9\) et \(x_5\).
AN: \(\tilde{x}\)=7,893
Il y a trois quartiles notés \(q_1\), \(q_2\) et \(q_3\).
La première quartile \(q_1\) est la valeur telle que 25% des observations lui sont inférieures. La deuxième quartile \(q_2\) est la valeur telle que 50% des observations lui sont inférieures. Elle est égale à la médiane. La troisième quartile \(q_3\) est la valeur telle que 25% des observations lui sont supérieures. En prenant notre cas d’étude:
Ce sont les valeurs minimum et maximum des observations. Pour notre échnatillon:
Le mode est la valeur pour laquelle les effectifs sont les plus élevés. Le mode sera surtout observé pour des achantillons de grande taille
Les paramètres de dispersion mesurent la dispersion des données statistiques
On peut dire que l’écart-type mesure la dispersion des données autour de la moyenne. C’est la moyenne des carrés des écarts par rapport à la moyenne. \[\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\] L’écart-type est toujours positif. Pour deux données statistiques ayant la même moyenne, les données de celle qui a un écart-type plus petit sont moyns dispersées que celle qui a un écart-type plus grand.
L’écart-type est très utilisé dans les sondages, en physique, en biologie et en économie.
C’est le carré de l’écart-type
\[V=\sigma^2\]
C’est la différence entre le maximum et le minimum. On pet aussi l’appelé l’amplitude des données statistiques. Pour notre cas:
\(x_{max}\)-\(x_{min}\)=12,859 - 5,715
\(x_{max}\)-\(x_{min}\)=7,144
C’est la distance entre la première et la troisième quartile. Elle se calcule en fesant la différence entre \(q_3\) et \(q_1\) .
\(q_3\)-\(q_1\)=10,250-6,375 \(q_3\)-\(q_1\)=3,875