3 septembre 2025

Matrice variance-covariance : définition, calcul et interprétation

Entraîne-toi en Maths CPGE

Analyse et Probabilités - Année 1
Les exercices

La matrice variance-covariance est l’outil clé pour résumer les dépendances linéaires entre plusieurs variables. Elle regroupe les variances sur la diagonale et les covariances hors diagonale. En 2025, cet objet est central en analyse multivariée, en finances et en apprentissage automatique. Elle permet d’évaluer le risque, d’orienter les reductions de dimension et de comprendre comment les variables évoluent ensemble.

Notions clés sur la covariance et la matrice de covariance

La covariance mesure la tendance des deviations conjointes entre deux variables. Si X et Y augmentent ensemble, la covariance est positive; si l’une monte pendant que l’autre baisse, elle est négative. Une covariance nulle n’indique pas nécessairement l’indépendance, mais l’absence de liaison linéaire simple. Pour deux variables X et Y, la covariance se calcule par Cov(X,Y) = (1/n) ∑ (X_i - X̄)(Y_i - Ȳ), où n est le nombre d’observations. Cette définition s’étend ensuite à p variables via la matrice Σ = Cov(X) = E[(X − E[X])(X − E[X])^T].

Pour construire Σ à partir d’un jeu de données organisé en n observations et p variables, suivre ces étapes :

  1. Préparer les données : rassembler les n observations et les p variables sous forme matricielle.
  2. Calculer les moyennes μ_j pour chaque variable j.
  3. Soustraire les moyennes et obtenir les déviations (X_i,j − μ_j).
  4. Calculer Cov(X_j, X_k) pour chaque paire j, k et remplir la matrice X.
  5. Vérifier la symétrie et l’interprétation : diagonale = variances, hors diagonale = covariances.
  6. Utiliser Σ : ACP, régression multivariée, estimation du risque, et analyse des dépendances.

Exemple central entièrement résolu ci-dessous illustre le calcul et l’interprétation. Considérez deux variables faciles à appréhender : taille et poids d’individus. En 2025, cet exemple montre aussi comment on peut évaluer rapidement la corrélation linéaire et les directions dominantes de la variabilité.

Exemple résolu (données sur 5 observations):

  • Observations (Taille en cm; Poids en kg) : (160;50), (170;60), (180;70), (190;80), (200;90).

Étape 1 — Moyennes : X̄ = 180, Ȳ = 70.

Étape 2 — Déviations : X_dev = (−20, −10, 0, 10, 20), Y_dev = (−20, −10, 0, 10, 20).

Étape 3 — Produits des déviations et covariance : (1/n) ∑ X_dev_i Y_dev_i = (1/5)(400 + 100 + 0 + 100 + 400) = 200.

Étape 4 — Variances individuelles : Var(Taille) = (1/5) ∑ X_dev_i^2 = 200; Var(Poids) = (1/5) ∑ Y_dev_i^2 = 200.

Étape 5 — Matrice de covariance :

Σ = [ [Var(Taille), Cov(Taille, Poids)]; [Cov(Taille, Poids), Var(Poids)] ] = [ [200, 200], [200, 200] ].

Étape 6 — Interprétation : Cov(Taille, Poids) = 200 et Var(Taille) = Var(Poids) = 200 donnent une corrélation r = Cov/(√(Var(Taille) Var(Poids))) = 1. Les deux variables évoluent parfaitement ensemble dans ce jeu de données.

Propriétés associées :

  • Σ est semi-définit positive et symétrique. Ici, l’un des vecteurs propres a une valeur propre égale à 400 et l’autre vaut 0.
  • La direction principale est le vecteur propre v1 = (1, 1)/√2, indiquant une croissance simultanée des deux variables.
  • En pratique, cette structure conduit à une ACP qui ne conserve qu’une seule composante décrivant toute la variance.

Cette structure se retrouve dans des cadres concrets : en analyse de portefeuille, on peut trouver que des actifs comme BNP Paribas, AXA et L’Oréal présentent des covariances élevées lorsque des facteurs macroéconomiques les touchent tous de la même façon. Dans l’industrie du luxe et de la cosmétique, des entreprises telles que Hermès et Lancôme peuvent aussi être corrélées par des cycles de demande communs. En 2025, comprendre ces liens aide à optimiser les portfolios et à anticiper les réactions du marché.

Entre deux variables, la covariance peut être interprétée de manière simple : signe positif = les variables progressent ensemble; signe négatif = elles évoluent en sens opposé. La diagonale renvoie les variances de chaque variable, et les paires hors diagonales mesurent les dépendances. Pour évaluer la force de la relation, on utilise le coefficient de corrélation de Pearson ρ(X,Y) = Cov(X,Y)/(σ_X σ_Y). Dans l’exemple, σ_X = σ_Y = √200 et ρ = 1.

En pratique, la matrice de covariance sert aussi à des techniques comme l’analyse en composantes principales (ACP) et la régression linéaire multivariée. L’ACP utilise les valeurs propres et vecteurs propres de Σ pour identifier les directions de variance maximale. Dans un portefeuille, elle permet d’estimer le risque total et la diversification nécessaire pour atteindre un niveau de rendement cible.

Cas d’usage : dans une simulation de portefeuille, les responsabilités incluent BNP Paribas, AXA et L’Oréal comme actifs typiques. On peut aussi inclure Capgemini, Dassault Systèmes, Orange, Accor, Hermès, Saint Laurent et Lancôme pour étudier comment des secteurs variés réagissent ensemble à des chocs macroéconomiques. L’objectif est de comprendre les dépendances et de réduire l’incertitude globale.

découvrez la matrice variance-covariance : définition simple, méthodes de calcul et conseils pour bien interpréter cet outil essentiel en statistiques et finance.

Partie 2 : précisions secondaires

Cas limites et variantes :

  • Interprétation du signe et de l’amplitude : une covariance positive indique une liaison directe; négative, une liaison inverse. Une covariance proche de zéro peut masquer des relations non linéaires.
  • Relation avec la corrélation : le coefficient de corrélation de Pearson standardise Cov par les écarts types et varie entre −1 et 1. Il permet de comparer des paires de variables sur des échelles différentes.
  • Propriétés matricielles : Σ est symétrique et semi-définie positive ; ses valeurs propres renseignent sur les directions dominantes de la variance. Les diag. reflètent Var(X_j).
  • Limites : la covariance capte uniquement les dépendances linéaires et peut être sensible aux valeurs aberrantes ou à des distributions non normales.

Tableau synthétique (teinté de texte) pour l’exemple précédent :

- Var(Taille) = 200 ; Var(Poids) = 200 ; Cov(Taille, Poids) = 200

- Σ = [[200, 200], [200, 200]]

Erreurs fréquentes :

  • Confondre covariance et corrélation sans standardisation.
  • Calculer Cov sur des données centrées mais sans diviser par le bon dénominateur.
  • Ignorer que des valeurs aberrantes peuvent fausser Cov et Σ.
  • Oublier que la covariance n’informe pas sur les relations non linéaires.

Exercice type avec corrigé bref

Exercice : données X = [2, 4, 6, 8], Y = [4, 6, 8, 10]. Calculer :

  • μ_X et μ_Y ;
  • Cov(X,Y) ;
  • Var(X) et Var(Y) ;
  • Σ et la corrélation ρ(X,Y).

Corrigé bref :

  1. μ_X = 5, μ_Y = 7.
  2. Déviations X_dev = (−3, −1, 1, 3); Y_dev = (−3, −1, 1, 3).
  3. Cov(X,Y) = (1/4)∑ X_dev_i Y_dev_i = (1/4)(9 + 1 + 1 + 9) = 5.
  4. Var(X) = Var(Y) = (1/4)∑ X_dev_i^2 = (1/4)(9 + 1 + 1 + 9) = 5.
  5. Σ = [ [5, 5], [5, 5] ]; ρ(X,Y) = 5/(√(5·5)) = 1.

Tableau synthèse (à retenir) avec les notions essentielles :

  • Covariance mesure l’association linéaire entre deux variables.
  • Matrice de covariance Σ comprend les variances sur la diagonale et les covariances hors diagonale.
  • La corrélation est Cov divisé par les produits des écarts-types. ρ ∈ [−1,1].
  • Les valeurs propres et vecteurs propres de Σ identifient les directions dominantes de la variance.
  • Utilisez Σ pour ACP, régression multivariée et estimation du risque dans les portefeuilles.
  • En 2025, les considérations de covariances guident aussi les choix entre actifs (BNP Paribas, AXA, L’Oréal, Capgemini, Dassault Systèmes, Orange, Accor, Hermès, Saint Laurent, Lancôme).

À retenir

La covariance décrit la liaison linéaire entre deux variables; elle se normalise en corrélation pour comparer des paires différentes. La matrice de covariance résume les relations entre toutes les variables d’un vecteur aléatoire et sert de base à l’ACP et à la régression multivariée. Elle est symétrique et semi-définie positive; ses valeurs propres indiquent les directions où la variance est concentrée. Le calcul s’effectue via les déviations par rapport aux moyennes, puis par moyenne des produits des écarts. En 2025, ces notions guident aussi l’analyse de portefeuilles et l’évaluation des dépendances entre grandes sociétés (ex. Hermès, L’Oréal, BNP Paribas).

Pour approfondir, utilisez les ressources YouTube et testez-vous sur des jeux de données réels ou simulés. Des exercices similaires renforcent la maîtrise des manipulations et des interprétations, indispensables en concours et en évaluations orales.

Plus de ressources Prepa.guide

Prepa.guide

Que ce soit pour vous orienter, naviguer dans les démarches d’admission, gérer votre quotidien ou préparer votre avenir, nous sommes là pour vous accompagner à chaque étape décisive. En bénéficiant de l’expertise de nos professionnels et des expériences partagées par d’anciens préparationnaires, vous aurez tous les atouts pour exceller dans votre parcours en prépa et atteindre vos objectifs.
crosslistchevron-down