Leçon 4 : Analyse Statistique

Leçon 4 : Analyse Statistique

L'analyse statistique est une composante essentielle de la Data Science. Elle permet de résumer, d'explorer et de tirer des conclusions à partir des données. Dans ce cours, nous explorerons les principaux concepts de l'analyse statistique, en fournissant des exemples et des exercices pour une meilleure compréhension.

Les données peuvent être catégorisées en deux types principaux : les données quantitatives (mesurables numériquement) et les données qualitatives (descriptives sans valeur numérique). Les données quantitatives peuvent être continues (mesures précises) ou discrètes (valeurs distinctes).

4.1 Statistiques Descriptives

Les statistiques descriptives sont une étape cruciale de l'analyse de données, car elles permettent de résumer et de présenter les caractéristiques clés des données. Voici quelques concepts importants :

Mesures de Tendance centrale

  • Moyenne : La somme de toutes les valeurs divisée par le nombre d'observations.

  • Médiane : La valeur centrale d'un ensemble de données triées par ordre croissant.

  • Mode : La valeur qui apparaît le plus fréquemment dans un ensemble de données.

Mesures de Dispersion

  • Écart-type : Mesure de la dispersion des données autour de la moyenne.

  • Étendue : La différence entre la plus grande et la plus petite valeur d'un ensemble de données.

  • Variance : La moyenne des carrés des écarts par rapport à la moyenne.

Exemple :

Supposons que nous ayons un jeu de données représentant les notes d'un groupe d'étudiants :

Notes : [85, 90, 78, 92, 88, 76, 85, 89, 94, 80]

La moyenne est (85 + 90 + 78 + 92 + 88 + 76 + 85 + 89 + 94 + 80) / 10 = 867 / 10 = 86,7.

La médiane est 85 (la cinquième valeur lorsqu'on les trie).

Le mode est 85 (car c'est la valeur la plus fréquente).

L'écart-type est une mesure de la dispersion autour de la moyenne.

4.2 Visualisation des Données

Histogrammes

Les histogrammes sont des graphiques utilisés pour représenter la distribution des données quantitatives. Ils regroupent les données en intervalles (bins) et montrent la fréquence de chaque intervalle.

import matplotlib.pyplot as plt
import numpy as np

# Créez un ensemble de données fictif (remplacez ceci par vos données réelles)
data = np.random.normal(0, 1, 1000)  # Exemple de données normalement distribuées

# Tracer un histogramme
plt.hist(data, bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Valeurs des Données')
plt.ylabel('Fréquence')
plt.title('Histogramme')
plt.grid(True)

plt.show()

Diagrammes en Boîte (Box Plots)

Les box plots permettent de visualiser la distribution des données, y compris la médiane, les quartiles, les valeurs aberrantes et la dispersion.

import matplotlib.pyplot as plt
import numpy as np

# Créez un ensemble de données fictif (remplacez ceci par vos données réelles)
data = np.random.normal(0, 1, 100)  # Exemple de données normalement distribuées

# Tracer un box plot
plt.boxplot(data, vert=False, widths=0.6, patch_artist=True, boxprops=dict(facecolor='lightblue'))
plt.xlabel('Valeurs des Données')
plt.title('Box Plot')
plt.grid(True)

plt.show()

Diagrammes de Dispersion (Scatter Plots)

Les scatter plots montrent la relation entre deux variables quantitatives en plaçant chaque paire de valeurs sur un graphique à deux dimensions.

import matplotlib.pyplot as plt
import numpy as np

# Créez un ensemble de données fictif (remplacez ceci par vos données réelles)
x = np.random.rand(50)
y = 2 * x + 1 + np.random.randn(50)  # Exemple de relation linéaire

# Tracer un scatter plot
plt.scatter(x, y, color='green', marker='o')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatter Plot')
plt.grid(True)

plt.show()

Ces exemples vous montrent comment créer un histogramme, un box plot et un scatter plot en utilisant Matplotlib.

4.3 Probabilités et Distributions

Les probabilités sont essentielles en statistiques. Elles permettent de quantifier l'incertitude et de prendre des décisions basées sur des données aléatoires. Voici quelques concepts importants :

Probabilité

La probabilité est une mesure de la chance qu'un événement se produise. Voici quelques termes clés associés à la probabilité :

  • Événement : Un résultat spécifique ou une observation d'un processus.

  • Espace d'échantillonnage : L'ensemble de tous les résultats possibles d'un processus.

  • Probabilité d'un événement : La chance que cet événement se produise, notée P(A).

  • Probabilité d'un Événement : Mesure de la chance qu'un événement se produise.

  • Probabilité Conditionnelle : Probabilité qu'un événement se produise sachant que l'autre événement s'est déjà produit.

Distributions de Probabilité

Les distributions de probabilité décrivent comment les valeurs d'une variable aléatoire sont réparties. Voici quelques distributions de probabilité courantes :

  • Distribution Normale : Elle est symétrique et a une forme de cloche. Beaucoup de phénomènes naturels suivent cette distribution.

  • Distribution Binomiale : Utilisée pour modéliser le nombre de succès dans une séquence d'essais indépendants.

  • Distribution de Poisson : Utilisée pour modéliser le nombre d'événements se produisant dans un intervalle de temps donné.

Exemple :

Lors d'un lancer de dé équilibré à six faces, la probabilité de chaque face est de 1/6 (distribution uniforme).

La distribution normale est souvent utilisée pour modéliser des phénomènes tels que la taille des individus dans une population.

4.4 Tests d'Hypothèses

Processus de Test d'Hypothèses

Le test d'hypothèses est un processus statistique permettant de prendre des décisions basées sur des données observées. Le processus comporte plusieurs étapes, notamment :

  1. Formuler des hypothèses nulles (H0) et alternatives (H1).

  2. Sélectionner un niveau de signification (alpha) qui détermine le seuil pour rejeter H0.

  3. Calculer une statistique de test appropriée (par exemple, le test t).

  4. Comparer la statistique de test à une distribution de probabilité pour déterminer si H0 doit être rejetée.

Tests Statistiques

Il existe de nombreux tests statistiques, chacun conçu pour résoudre des types spécifiques de problèmes. Voici quelques-uns des tests les plus couramment utilisés :

  • Test t de Student : Comparaison des moyennes de deux groupes.

  • Test Chi-carré : Détermination de l'indépendance entre deux variables catégorielles.

  • Tests ANOVA : Comparaison des moyennes de trois groupes ou plus.

Exemple :

Supposons que nous voulions tester si un nouveau médicament réduit la pression artérielle par rapport à un placebo. Notre hypothèse nulle (H0) serait que le médicament n'a pas d'effet (pas de différence de pression artérielle entre le groupe sous médicament et le groupe sous placebo).

Nous collectons des données, effectuons un test t de Student et calculons une valeur P. Si la valeur P est inférieure à notre niveau de signification α (par exemple, 0,05), nous pouvons rejeter l'hypothèse nulle et conclure que le médicament a un effet significatif sur la pression artérielle.

Exercices Pratiques :

  1. Prenez un jeu de données (par exemple, les notes des étudiants) et calculez la moyenne, la médiane, le mode et l'écart-type.

  2. Lancez un dé équilibré à six faces 100 fois et enregistrez les résultats. Calculez la probabilité de chaque face.

  3. Imaginez une expérience scientifique et formulez une hypothèse nulle et une hypothèse alternative. Effectuez un test d'hypothèses fictif en utilisant des données imaginaires.

L'analyse statistique est une étape essentielle pour comprendre les données et prendre des décisions éclairées. Les statistiques sont omniprésentes dans la Data Science et aident à révéler des informations cachées dans les données. Dans la prochaine section, nous aborderons l'analyse exploratoire des données, qui complète cette leçon en mettant en pratique les concepts statistiques.