Rappel : ce petit cours, réalisé en HTML5/JS/SVG,
n'est visible que sur des navigateurs internet récents
(Firefox vivement recommandé pour un rendu optimal).
Les probabilités
Si vous jouez au loto, passer votre chemin car ce qui suit ne va pas vous faire plaisir...
Les factorielles
Commencez par imaginez une urne contenant 5 boules numérotées de 1 à 5. Essayez de trouver le nombre de tirages sans remise, en tenant compte de l'ordre de sortie des boules.
Pas bien difficile : on a 5x4x3x2x1 = 120 possibilités/permutations. Le calcul que nous venons de faire implicitement s'appelle «factorielle 5» et se note 5! (noté bien le point d'exclamation).
Les arrangements
Reprenons notre jeu précédent, et imaginons maintenant que notre jeu consiste à tirer maintenant 3 boules au lieu de 5. Là encore, en raisonnant sous forme d'arbre, on obtient immédiatement 5x4x3 = 60 possibilités. Ce que nous venons de faire s'appelle un arrangement de 3 parmi 5, et plus globalement, on parle d'un arrangement de p parmi n, avec p≤n.
La formule des arrangements modélise donc un tirage sans remise ou l'ordre compte. Elle se note :
Le numérateur est le nombre de possibilités de l'arbre au total, divisé par le nombre de branches que l'on retire à chaque extrémité.
Avec le calcul précédent, on retrouve ainsi nos 60 possibilités :
Les combinaisons
Quand vous jouez aux cartes, que vous ayez valet+dame+roi ou roi+dame+valet dans votre jeu, votre «main» restera la même (vous aurez les mêmes possibilités de jeu).
Dans ces conditions, quand l'ordre ne compte pas, nos arrangements prédécents ne tiennent plus la route puisque 123 = 132 = 213 = 231 = 312 = 321. Cependant, on remarque qu'avec 3 chiffres, on retrouve 6 permutations possibles, qui correspondent tout simplement à 3!. Avec 4 chiffres, on aurait eu 4! permutations possibles. Et avec p chiffres, on aurait bien p! permutations, comme nous l'avons vu plus haut.
L'idée ici avec 3 chiffres est donc de reprendre notre arrangement de 3 parmi 5, et de diviser tout simplement le nombre de possibilités par 6, puisqu'il y a bien 6 doublons possibles à chaque fois...
Autrement dit, pour obtenir notre combinaison de 3 parmi 5, il suffit de diviser notre arrangement de 3 parmi 5 (=60) par 3! (=6), ce qui va nous donner 10 possibilités.
Toujours pas convaincu ? Voilà la liste des 10 combinaisons obtenues...
Combinaison 01 : 123 = 132 = 213 = 231 = 312 = 321 Combinaison 02 : 124 = 142 = 214 = 241 = 412 = 421 Combinaison 03 : 125 = 152 = 215 = 251 = 512 = 521 Combinaison 04 : 134 = 143 = 314 = 341 = 413 = 432 Combinaison 05 : 135 = 153 = 315 = 351 = 513 = 531 Combinaison 06 : 145 = 154 = 415 = 451 = 514 = 541 Combinaison 07 : 234 = 243 = 324 = 342 = 423 = 432 Combinaison 08 : 235 = 253 = 325 = 352 = 523 = 532 Combinaison 09 : 245 = 254 = 425 = 452 = 524 = 542 Combinaison 10 : 345 = 354 = 435 = 453 = 534 = 543
Comme on le voit, ça marche, et on peut donc sereinement conclure dans le cas général que :
qui est la formule des combinaisons de p parmi n, avec p≤n.
Les probabilités conditionnelles
Dans la vie courante, un gestionnaire doit bien souvent manipuler des statistiques pour mesurer un processus. Prenez votre proviseur par exemple. La première chose qu'il doit prévoir est le nombre de classes de S, ES ou L (pour ne prendre que ces filiaires là) chaque année. Mais il doit aussi présenter des résultats, et notamment le pourcentage annuel de réussite au BAC pour chaque filaire...
Il va donc matérialiser les événements suivants:
- S: l'élève choisit la filiaire S
- ES: l'élève choisit la filiaire ES
- L: l'élève choisit la filiaire L
- B: l'élève a eu le BAC
- B: l'élève n'a pas eu le BAC
Remarquez la barre au dessus du second B : elle indique un événement contraire, et se note «B barre».
En ce mois de juin 2019, dernier mois avant le changement des filières, les élèves du lycée se sont répartis comme suit : 30% des élèves ont pris S, 45% ont pris L et 25% ont pris ES. Chez les S, 83% ont eu le bac. Chez les L, 85% ont eu le bac. Et enfin chez les ES, 87% ont eu le bac.
Avec ces données brutes, il s'agit ensuite de construire un arbre, et de distribuer les pourcentages sur les différentes branches comme suit.
Remarque : la somme des branches attachées à un même noeud parent doit toujours être égale à 1 (100%).
Traduit sous forme de probabilité, on a:
Le PS(B) se lit «P de B sachant S», et matérialise la probabilité de la branche entre les événements S et B.
Dès lors, notre proviseur peut calculer la probabilité des élèves ayant eu le BAC dans son lycée. Pour cela, il additionne les probabilités des 3 branches conduisant à B, soit pour la première branche :
Le sigle ∩ se prononce «inter». On a donc ici «P de B inter S», qui représente le chemin du point de départ à gauche jusqu'à l'extrémité de la première branche en haut à droite de notre arbre. On remarquera la multiplication entre sous-branches qui donne le pourcentage/la probabilité finale.
Pour les deux autres branches :
Il suffit ensuite d'aditionner les branches entre elles pour obtenir P(B) :
Notre proviseur peut être content : son lycée a dépassé les 80% de réussite au BAC ! (si ça, c'était pas des bons élèves...)
Mais comme il est (très) curieux, il se pose maintenant une autre question, celle de savoir quelle est la probabilité qu'un élève pris au hasard était en S, sachant qu'il a eu le BAC ? (question existencielle s'il en est...)
Autrement dit, il veut inverser l'arbre de départ pour calculer la probabilité correspondante (celle avec le point d'interrogation ci-dessous), c'est-à-dire PB(S) ou «P de S sachant B».
Et c'est là que nous allons pouvoir utiliser une formule sympathique, qui nous dit que P(S∩B) = P(B∩S). Autrement dit, que l'arbre soit inversé ou non, la probabilité d'un chemin reste la même.
On peut donc écrire que :
et finalement que :
Notre proviseur a donc, parmi les élèves qui ont eu le BAC, 29,33% de chance de tomber sur un élève qui était en S !
Le schéma de Bernouilli
On se place ici dans le cadre d'un tirage indépendant avec remise, aboutissant toujours à la même probabilité de succès, et donc à la même probabité d'échec.
On prend ici S l'événement succès, et E l'événement échec. On en déduit aussitôt que P(S)+P(E)=1 pour chaque branche issue d'un même parent, soit P(S)=1-P(E), ou P(E)=1-P(S). On appellera X la variable aléatoire donnant le nombre de succès, et on considère ici trois tirages successifs, ce qui signifie donc que X peut prendre les valeurs entières comprises entre X=0 (trois échecs) ou X=3 (trois succès - c'est mieux...).
Dès lors, on remarque immédiatement que :
- P(X=0)=P(E∩E∩E) - soit une branche menant à trois échecs
- P(X=1)=P(S∩E∩E)+P(E∩S∩E)+P(E∩E∩S) - soit 3 branches menant à un succès
- P(X=2)=P(S∩S∩E)+P(S∩E∩S)+P(E∩S∩S) - soit 3 branches menant à deux succès
- P(X=3)=P(S∩S∩S) - soit une branche menant à trois succès
et que :
- P(S∩E∩E)=P(E∩S∩E)=P(E∩E∩S) - on retrouve ici l'idée d'une combinaison de 1 succès parmi 3
- P(S∩S∩E)=P(S∩E∩S)=P(E∩S∩S) - on retrouve ici l'idée d'une combinaison de 2 succès parmi 3
C'est ce dernier raisonnement qui nous fait comprendre la formule de Bernoulli, matérialisée dans la calculatrice par la fonction binomFdP(). Dès lors qu'on rentre dans une expérience de Bernouilli, la formule des combinaisons nous donne directement le nombre de branches aboutissant à la même probabilité de succès, ce qui simplifie les calculs, plutôt que de calculer chaque branche indépendamment, et d'en faire ensuite la somme...
La formule finale est donc :
À noter que l'espérance de X est E(X)=np, ce qui assez intuitif en soi. Imagineons en effet, que la probabilité de succès de l'expérience soit de 25%, et que vous fassiez 100 tirages. On en déduit tout de suite qu'on peut espérer 25 succès sur les 100...
Mathématiquement, on utilise le tableau suivant :
xi | 0 | 1 |
---|---|---|
P(X=xi) | 1-p | p |
Pour un tirage, on a alors E(X)=0.(1-p)+1.p=p. Répéter n fois, on obtient bien np.
Toujours pour un tirage, la variance s'exprime par V(X)=E((X-E(X))2), soit V(X)=(0-p)2.(1-p)+(1-p)2.p=p2.(1-p)+(1-2p+p2).p=p2-p3+p-2.p2+p3=p-p2=p.(1-p)=pq avec q=(1-p). Soit pour n tirages, V(X)=npq.
Petit rappel : la variance et l'écart type (=racine carrée de la variance) sont des mesures de dispersion des données autour de la moyenne. Plus la variance/l'écart type sont faibles, et plus les données sont reserrées autour de la moyenne.