Vocabulaire statistique :
Les statistiques : se sont des données chiffrées
relative à un phénomène étudié.
·
La statistique : c’est une méthode
scientifique dont l’objet est de recueillir, d’organiser, de résumer et
d’analyser les données d’une enquête, d’une étude ou d’une expérience, aussi
bien que de tirer les conclusions logiques et de prendre les décisions qui
s’imposent à partir des analyses effectuées,
·
Une population : c’est l’ensemble des
individus sur lesquels porte l’étude statistique, Elle peut être un ensemble
d’être humains, d’objets …
Ex : ensemble des factures d’une
entreprise, ensemble des stagiaires de l’ISTA
·
Une unité statistique
ou individu statistique : c’est chaque élément constituant la population.
Ex : chaque facture, chaque stagiaire
·
Un Echantillon : c’est un sous ensemble de la
population
Ex : les factures de l’année
actuelle, les stagiaires de la filière TSC
·
Une Variable statistique ou un caractère : c’est
l’aspect particulier que l’on veut étudier, en général c’est le tait commun à
tous les individus de la population.
Ex : le montant TTC des
factures, le niveau d’étude des stagiaires
Le caractère peut prendre différentes
valeurs appelées : modalités.
Ex : pour les stagiaires :
bac, bac+1année économie…
Le caractère peut être soit :
- Qualitatif : les modalités ne sont pas mesurables, ne s’expriment
pas par un nombre. Ex : nationalité, niveau d’études…
- Quantitatif : les modalités sont mesurables et numériques. Le
caractère quantitatif peut prendre :
§ Soit des valeurs
isolées, entières (1,2,3…), dans ce cas il est dit caractère discret ou discontinu. Ex : nombre
d’enfants, nombre d’habitants….
§ Soit n’importe
quel valeur numérique dans un intervalle donné, le caractère est dit continu. Ex : CA, âge,…
ü un recensement : Si l’enquête porte sur l’ensemble des individus de la
population statistique, il s’agit d’un
recensement.
ü un sondage : Si l’enquête ne porte que sur une partie de la
population appelée échantillon, il s’agit d’un
sondage.
E- Moyenne harmonique :
Si xi sont les observations d'une
variable quantitative, la moyenne harmonique est égale à
Il n'est pas évident d'utiliser ce
type de moyenne.
Elle intervient lorsqu'on demande une
moyenne de valeurs se présentant sous forme de
Quotient de deux variables x/y (km/h,
km/litre,...). Attention, il faut cependant bien
Décortiquer le problème car il peut
aussi s'agir d'une moyenne arithmétique.
A- Moyenne
quadratique :
Si xi sont les observations d'une
variable quantitative, la moyenne quadratique est égale à
G-
Quantiles :
Ce sont des caractéristiques de
position.
Il y a une médiane Me qui sépare les
observations en 2 groupes d’effectifs égaux
3
quartiles Q1 Q2 Q3
qui séparent les observations en 4 groupes d’effectifs égaux.
9
déciles D1, D2,… D9
qui séparent les observations en 10 groupes d’effectifs égaux
99
centiles C1, C2,…, C99
qui séparent les observations en 100 groupes d’effectifs égaux
La détermination de ces
caractéristiques est identique à celle de la médiane.
Les quartiles sont obtenus
lorsqu’on a cumulé 25, 50, 75% de la population
Les déciles sont obtenus
lorsqu’on a cumulé 10, 20,…, 90% de la population
Les centiles sont obtenus
lorsqu’on a cumulé 1. 2……99% de la population
IV-
Caractéristiques de dispersion :
A-
Etendue :
C’est la différence entre la plus
grande et la plus petite observation
B- Ecart interquartile :
C’est la différence entre le
troisième et le premier quartile
EI = Q3 – Q1
C-
Ecart absolu moyen (eam)
C’est
la moyenne arithmétique des valeurs absolues des écarts des valeurs
d’une série à leur moyenne
Arithmétique.
eam = Σ | xi - x|
ni
Σ ni
D- Variance et écart-type :
Si xi sont les observations d’une
variable discrète ou les centres de classe d’une variable classée, la variance
V est
V (x) = Σ | xi - x|2 ni
Σ ni
On plus simplement V(x)= Σ ni xi2
- x2
Σ ni
A – Définition
Ajuster un ensemble
des points d’abscisse x et d’ordonné y consiste à déterminer une courbe (C)
aussi proche que possible de l’ensemble de ces points.
Ajustement
linéaire : c’est le cas ou la courbe (C) est une droite. Cette droite est
appelée droite d’ajustement linéaire ou droite de régression ou droite
d’estimation.
y
= ax +b
avec :
a= Ʃ(xi
– x)(yi – y)
Ʃ(xi –x)2
Et b= y - ax
B
– Coefficient de corrélation
La
décision d’effectuer un ajustement linéaire dépend de la qualité de la liaison
entre les deux variables x et :
r= Ʃ(xi – x)(yi – y)
√Ʃ(xi –x)2(yi – y)2
Ce
coefficient est toujours compris entre +1 et -1 il indique le signe de la pente
de la droite.
C)
Covariance :
Cov
(x,y) = 1/n Ʃ(xi –x)(yi- y)
Cov
(x ;y) >0 x
et y varient dans le même sens
Cov(x ;y)<0 x et y
varient en sens contraire
Cov(x ;y)
= Cov(y,x)
B- Variable quantitative
1/
Variable discrète
§ Diagramme
des effectifs : le diagramme en bâtons
2/
Variable continue
§ diagramme
des effectifs : l’histogramme
§ Polygone
des effectifs
C’est
ligne brisé qui rejoint les points d’abscisses les centres de classe et
d’ordonnés ni
III- caractéristiques de tendance
centrale et de position :
A- Mode :
Le
mode MO est la valeur du caractère qui correspond à l’effectif maximum (ou à la
frèquence la plus grande).
B-
Médiane
Les valeurs étant rangées par
ordre croissant, la médiane Me est la valeur de la variable statistique qui
sépare les observations en deux groupes d’effectifs égaux.
C-
Moyenne arithmétique :
Si xi sont les observations d’une
variable discrête ou les centres de classe d’une variable continue.
La moyenne arithmétique x est donné
par la formule :
X= Σ ni xi
Σ ni
La moyenne arithmétique est un
paramêtre de tendance centrale plus utilisé que les autres par ses propriétés
algébriques.
D- Moyenne géométrique :
Si xi sont
les observations d'une variable quantitative, la moyenne géométrique est égale
à
Ce type de moyenne est surtout
utilisé pour calculer des pourcentages moyens.
E- Moyenne harmonique :
Si xi sont les observations d'une
variable quantitative, la moyenne harmonique est égale à
Il n'est pas évident d'utiliser ce
type de moyenne.
Elle intervient lorsqu'on demande une
moyenne de valeurs se présentant sous forme de
Quotient de deux variables x/y (km/h,
km/litre,...). Attention, il faut cependant bien
Décortiquer le problème car il peut
aussi s'agir d'une moyenne arithmétique.
A- Moyenne
quadratique :
Si xi sont les observations d'une
variable quantitative, la moyenne quadratique est égale à
G-
Quantiles :
Ce sont des caractéristiques de
position.
Il y a une médiane Me qui sépare les
observations en 2 groupes d’effectifs égaux
3
quartiles Q1 Q2 Q3
qui séparent les observations en 4 groupes d’effectifs égaux.
9
déciles D1, D2,… D9
qui séparent les observations en 10 groupes d’effectifs égaux
99
centiles C1, C2,…, C99
qui séparent les observations en 100 groupes d’effectifs égaux
La détermination de ces
caractéristiques est identique à celle de la médiane.
Les quartiles sont obtenus
lorsqu’on a cumulé 25, 50, 75% de la population
Les déciles sont obtenus
lorsqu’on a cumulé 10, 20,…, 90% de la population
Les centiles sont obtenus
lorsqu’on a cumulé 1. 2……99% de la population
IV-
Caractéristiques de dispersion :
A-
Etendue :
C’est la différence entre la plus
grande et la plus petite observation
B- Ecart interquartile :
C’est la différence entre le
troisième et le premier quartile
EI = Q3 – Q1
C-
Ecart absolu moyen (eam)
C’est
la moyenne arithmétique des valeurs absolues des écarts des valeurs
d’une série à leur moyenne
Arithmétique.
eam = Σ | xi - x|
ni
Σ ni
D- Variance et écart-type :
Si xi sont les observations d’une
variable discrète ou les centres de classe d’une variable classée, la variance
V est
V (x) = Σ | xi - x|2 ni
Σ ni
On plus simplement V(x)= Σ ni xi2
- x2
Σ ni
On
utilise plus couramment l’écart type σ(x) qui est la racine carrée
de la variance et qui a l’avantage d’être un nombre de même dimension que les
données ( contrairement à la variance qui en est le carré).
σ(x) = √ V (x)
Plus
l’ecart type est grand, plus la distribution est dispersée
Plus
l’écart est petit, plus elle est rassemblée autour de la moyenne
D- Coefficient de variation :
CV= σ(x)/ x
C’est
un coefficient qui permet de relativiser l’écart type en fonction de la taille
des valeurs. Il permet ainsi de comparer la dispersion de séries de mesures
exprimées dans des unités différentes.
Plus
le CV est proche de1, la série est fortement dispersée.
Plus
le CV est proche de 0, la série est faiblement dispersée.
V) la
concentration :
L’objectif est de
mesurer les inégalités dans la répartition d’une variable à l’intérieur d’une
population. Cette notion n’a d’intérêt que dans la mesure où les valeurs
globales suivantes ont une signification concrète.
Le statisticien
« CORRADO GINI » a été le premier à introduire cette notion de
concentration d’où le nom de carré de Gini au graphique dans lequel s’inscrit
la courbe de concentration.
A)
Valeurs globales :
Xi représentent les valeurs
ponctuelles ou les centres de classes, ni les effectifs correspondants.
Les valeurs globales de la série
(xi, ni) est la médiane de la série (xi, gi).
B)
Médiale :
La médiale de la série (xi, ni) est
la médiane de la série (xi, gi)
C)
Détermination par calcul :
On adopte la démarche
suivante :
1)
On calcule la médiane
2)
Ensuite on calcul la médiale
3)
On mesure l’écart entre la
médiale et la médiane
4)
Enfin, on compare cet écart à
l’intervalle de variation de la série.
VI) l’Ajustement
linéaire :
Lorsqu’on observe deux
variable quantitatives x et y sur les mêmes individus, on peut s’intéresser à
une liaison éventuelle entre ces deux variables.
Exemple :
-
Relation entre le prix d’un
article et la quantité vendue
-
Relation entre le chiffre
d’affaires et les charges.
-
Relation entre les revenus des
consommateurs et les montants des achats effectués.
Cette liaison peut
être mis sous la forme d’une fonction mathématique qui donne x en fonction de y
ou l’inverse.
hadchi s3ib a tbi
ردحذف