summary(cars)
speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00
Pour mieux comprendre le pourquoi et le comment des statistiques, voici quelques définitions données dans Larousse:
Ce cours de statistique est composé de théorie, suivi d’exemples d’application et de Code en langage R (dans statistique2). Les données qu’on va utiliser proviennent des données ouvertes du site data.gouv.fr.
Le jeu de données utilisé pour illustrer notre cours a été pris dans les données concernant la carte des loyers des appartements en France en 2022.
i | Nom de la commune | (\(x_i\)) Loyer en euro par \(m^2\) |
---|---|---|
1 | Sélestat | 10,250 |
2 | Veaugues | 6,375 |
3 | Varreddes | 12,209 |
4 | Sainte-Hélène | 6,616 |
5 | Villeneau | 8,056 |
6 | Merigny | 6,816 |
7 | Saint-André-sur-Orne | 9,096 |
8 | Estaing | 5,715 |
9 | Montigny-la-Resle | 7,729 |
10 | Les Mureaux | 12,859 |
La moyenne arithmétique est connue comme étant la moyenne à laquelle tout le monde pense lorsqu’on parle de moyenne. Elle est notée \(\bar{x}\) . Elle se calcule en additionnant les produits de chaque valeur par son effectif et en divisant le tout par le total des effectifs. \[\bar{x}=\frac{1}{n}\sum_{i=1}^{n}{n_i}{x_i}\]
AN: \(\bar{x}=\frac{(10,250 + 6,375 + 12,209 + 6,616 + 8,056 + 6,816 + 9,096 + 5,715+7,729+12,859)}{10}=8,572\)
Le loyer moyen dans les 10 communes est donc de 8,572 euros par \(m^2\)
La moyenne géométrique notée \(\bar{x}_g\) est souvent utilisée lorsque les données suivent une loi log normale. La moyenne géométrique est égale à la racine n-ième du produit des valeurs de la série de donmnées.
\[\bar{x}_g=(\prod_{i=1}^nx_i)^{\frac{1}{n}}\] AN: \(\bar{x}_g=(10,250 * 6,375 * 12,209 * 6,616 * 8,056*6,816*9,096*5,715*7,729*12,859)^\frac{1}{10}=8,271\)
La moyenne géométrique est inférieure ou égale à la moyenne arithmétique.
Le logarithme d’une moyenne géométrique est égale à la moyenne arithmétique des log des données. \[log(\bar{x}_g)=\frac{1}{n}\sum_{i=1}^{n}{log(x_i)}\]
La moyenne harmonique notée \(\bar{x}_h\) est l’inverse de la moyenne arithmétique des inverse des valeurs. \[\bar{x}_h=\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}\] On peut aussi écire \[\frac{1}{\bar{x}_h}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{x_i}\] Elle est surtout utilisée lorsqu’il y a des liens de proportionnalité inverse entre les données. Par exemple pour des vitesses exprimées en km/h, on peut utiliser la moyenne arithmétique ou la moyenne harmonique pour calculer sa moyenne, selon l’objectif et la situation d’une étude.
La médiane noté \(\tilde{x}\) est la valeurs qui divise les observations en deux. C’est à dire que la moitiés des observations ont des valeurs inférieures à la médiane, el l’autre moitié supérieures à la médiane.
Pour nos données sur les loyers par \(m^2\), après les avoir trié par ordre croissant
\(x_8\) | \(x_4\) | \(x_2\) | \(x_6\) | \(x_9\) | \(x_5\) | \(x_7\) | \(x_1\) | \(x_3\) | \(x_{10}\) |
---|---|---|---|---|---|---|---|---|---|
5,715 | 6,616 | 6,375 | 6,816 | 7,729 | 8,056 | 9,096 | 10,250 | 12,209 | 12,859 |
On note que les observations \(x_9\)=7,729 et \(x_5\)=8,056 divise les observations en deux. Comme on a un nombre pair d’observations, il y a deux valeurs qui divisent les observations en deux groupes. Dans ce cas, la médiane est obtenue en calculant la moyenne arithmétique de \(x_9\) et \(x_5\).
AN: \(\tilde{x}\)=7,893
Il y a trois quartiles notés \(q_1\), \(q_2\) et \(q_3\).
La première quartile \(q_1\) est la valeur telle que 25% des observations lui sont inférieures. La deuxième quartile \(q_2\) est la valeur telle que 50% des observations lui sont inférieures. Elle est égale à la médiane. La troisième quartile \(q_3\) est la valeur telle que 25% des observations lui sont supérieures. En prenant notre cas d’étude:
Ce sont les valeurs minimum et maximum des observations. Pour notre échnatillon:
Le mode est la valeur pour laquelle les effectifs sont les plus élevés. Le mode sera surtout observé pour des achantillons de grande taille