Votre navigateur n'accepte pas le Javascript. La navigation sur ce site risque de ne pas fonctionner correctement.

093. Meilleure approximation et orthogonalité

Le contexte

Dans cet article, on se place dans un espace vectoriel $V$ réel ou complexe muni d’un produit scalaire, appellé aussi espace préhilbertien. Ce produit scalaire sera noté $(.|.)$, dans le cas complexe ce produit scalaire sera linéaire pour la première variable et anti-linéaire vis-à-vis de la seconde variable. La norme associée à ce produit scalaire sera notée $||.||.$

Considérez un sous-espace vectoriel de $V$ que vous noterez $W.$

Soit $x$ un vecteur quelconque de $V$. Il s’agit d’approximer le mieux possible le vecteur $x$ parmi tous les vecteurs de $W$. Vous considérez la borne inférieure $\inf_{w\in W} ||x-w||$ qui est bien définie. En effet, puisque $W$ contient toujours le vecteur nul et $\forall w\in W, ||x-w||\geq 0$, l’ensemble $\{||x-w||, w\in W\}$ est non vide et minoré par $0.$

Que se passe-t-il s’il existe une meilleure approximation ?

Lorsque la borne inférieure $\inf_{w\in W} ||x-w||$ est atteinte, il existe un vecteur $y\in W$ de sorte que $\forall w\in W, ||x-y||\leq ||x-w||.$ Cette dernière inégalité permet de justifier l’appellation « meilleure approximation. »

Comment localiser un tel vecteur $y$, réalisant une meilleure approximation ?

Dans cette partie sera étudié le lien entre orthogonalité et meilleure approximation.

Supposez qu’il existe un vecteur $y\in W$ réalisant une meilleure approximation de $x$ parmi tous les vecteurs $w\in W.$ Autrement dit, supposez qu’il existe un vecteur $y\in W$ tel que $\forall w\in W, ||x-y||\leq ||x-w||.$

Maintenant les calculs débutent. Fixez un vecteur $w\in W.$ Dans le cas où l’espace $V$ est complexe, notez qu’on n’a pas, en général, la commutativité du produit scalaire et qu’il convient d’être vigilant sur l’ordre dans le développement.

$\begin{align*}
||x-y||&\leq ||x-w|| \\
||x-y||^2 &\leq ||x-w||^2 \\
(x-y|x-y) &\leq (x-w|x-w)\\
||x||^2+||y||^2-(x|y)-(y|x)&\leq ||x||^2+||w||^2-(x|w)-(w|x) \\
0&\leq ||w||^2-||y||^2+(x|y-w)+(y-w|x)
\end{align*}$

Comment aller plus loin ?

Regardez ce qui se passe quand $V$ est de dimension $2$ et que $W$ est de dimension $1$. Il apparaît géométriquement que le vecteur $y$ est tel que $x-y$ est orthogonal à tous les vecteurs de $W.$ Ce vecteur joue un rôle important, vous allez le faire apparaître dans vos calculs.

Vous allez donc écrire que $x = x-y + y$ dans les deux produits scalaires du dessus.

En développant, vous obtenez :

$\begin{align*}
(x|y-w)&= (x-y | y-w)+(y|y-w)\\
&=(x-y|y-w)+||y||^2-(y|w).
\end{align*}$

$\begin{align*}
(y-w|x)&= (y-w|x-y)+(y-w|y)\\
&=(y-w|x-y)+||y||^2-(w|y).
\end{align*}$

$\begin{align*}
0&\leq ||w||^2-||y||^2+(x|w-y)+(w-y|x) \\
0&\leq ||w||^2-||y||^2+2||y||^2+(x-y|w-y)+(w-y|x-y)-(y|w)-(w|y)\\
0&\leq ||w||^2+||y||^2+(x-y|w-y)+(w-y|x-y)-(y|w)-(w|y)\\
0&\leq (w-y|w-y)+(x-y|w-y)+(w-y|x+y)\\
0&\leq ||w-y||^2+(x-y|w-y)+(w-y|x-y).
\end{align*}$

Il a été établi que :

$\forall w\in W, 0\leq ||w-y||^2+(x-y|w-y)+(w-y|x-y).$

Note. Les lecteurs avertis réussiront à établir à cette inégalité beaucoup plus rapidement.

Soit $r\in W$. Posez $w=r+y.$ Alors $w\in W$ du coup, comme $r=w-y$ :

$0\leq ||r||^2+(x-y|r)+(r|x-y).$

Ainsi :

$\forall r\in W, 0\leq ||r||^2+(x-y|r)+(r|x-y).$

Cette propriété est trop forte : soit $w$ un vecteur quelconque de $W$.

$\forall k\in\R^{*}, k^2w\in W$
$\forall k\in\R^{*}, 0\leq ||k^2w||^2+(x-y|k^2w)+(k^2w|x-y)$
$\forall k\in\R^{*}, 0\leq k^4||w||^2+k^2(x-y|w)+k^2(w|x-y)$
$\forall k\in\R^{*}, 0\leq k^2||w||^2+(x-y|w)+(w|x-y)$

Faisant tendre $k$ vers $0$, il s’ensuit que : $(x-y|w)+(w|x-y) \geq 0.$

De même :

$\forall k\in\R^{*}, -k^2w\in W$
$\forall k\in\R^{*}, 0\leq ||-k^2w||^2-(x-y|k^2w)-(k^2w|x-y)$
$\forall k\in\R^{*}, 0\leq k^4||w||^2-k^2(x-y|w)-k^2(w|x-y)$
$\forall k\in\R^{*}, 0\leq k^2||w||^2-(x-y|w)-(w|x-y)$

Faisant tendre $k$ vers $0$, il s’ensuit que : $(x-y|w)+(w|x-y) \leq 0.$

Vous en déduisez que $\forall w\in W, (x-y|w)+(w|x-y) = 0.$

La conclusion où l’espace vectoriel $V$ est réel

Le produit scalaire est commutatif, donc $\forall w\in W, (x-y|w)+(w|x-y) = 2(x-y|w)$ et par suite $\forall w\in W, (x-y|w)=0.$

La conclusion où l’espace vectoriel $V$ est complexe

Le produit scalaire vérifie l’anti-linéarité par rapport à la seconde variable.

Soit $w\in W$. Alors vous utilisez le nombre $i\in \C$ qui vérifie $i^2 = -1.$ Comme $i w \in W$ :

$\begin{align*}
(x-y|iw)+(iw|x-y)&=0\\
-i(x-y|w)+i(w|x-y)&=0\\
-(x-y|w)+(w|x-y)&=0.
\end{align*}$

D’autre part $(x-y|w)+(w|x-y) = 0.$

Par différence vous obtenez $2(x-y|w)=0$ et finalement $(x-y|w)=0.$

Le lien est maintenant établi

Que l’espace $V$ soit réel ou complexe, un vecteur $y\in W$qui réalise le minimum de la borne inférieure $\inf_{w\in W} ||x-w||$ est tel que $x-y$ est orthogonal à tous les vecteurs de $W.$

Prolongement

Dans le cas où il existerait deux vecteurs $y_1\in W$ et $y_2\in W$ tels que $y_1$ et $y_2$ réalisent le minimum de la borne inférieure $\inf_{w\in W} ||x-w||$, a-t-on obligatoirement $y_1 = y_2$ ?

Dans le cas où la borne inférieure $\inf_{w\in W} ||x-w||$ est atteinte, peut-il y avoir plusieurs vecteurs réalisant un tel minimum ?

092. $AB$ et $BA$ ont le même polynôme caractéristique

Dans le cas réel ou complexe, avec la topologie, on y arrive

Dans la littérature mathématique, on trouve beaucoup de preuves de ce résultat dans $\R$ ou $\C$, avec des arguments de densité.

On commence par montrer que, si $A$ ou $B$ est inversible, supposons par exemple que ce soit la matrice $A$, alors les deux polynômes caractéristiques sont égaux :
$\begin{align*}
\det(xI – AB) &= \det(A^{-1}) \det(xI – AB) \det(A) \\
&= \det( A^{-1}(xI – AB)A )\\
&= \det( xI – A^{-1}ABA)\\
&=\det (xI -BA).
\end{align*}$

Note. Les lecteurs avertis auront remarqué que les matrices $AB$ et $BA$ sont semblables lorsque la matrice $A$ ou la matrice $B$ est inversible.

Puis on conclut par passage à la limite dans le cas général.

Est-on limité aux cas réels et complexes ?

Il est surprenant de trouver des preuves de ce type, basées sur la densité et la topologie, alors qu’en fait, la propriété fondamentale du déterminant $\det(AB)=\det(A) \det(B)$ permet de conclure avec de l’algèbre.

Vous allez voir comment.

Il y a mieux, le résultat est valable dans n’importe quel corps commutatif

Soit $n$ un entier naturel non nul.

Soient $A$ et $B$ deux matrices carrées d’ordre $n$ à coefficients dans un corps commutatif $K$ (qui n’est pas forcément réel ou complexe).

Il s’agit de montrer que $\forall x\in K, \det(xI-AB)=\det(xI-BA).$

Comme on ne sait pas si la matrice $A$ est inversible ou non, on utilise seulement $\det(A)$.

Remarquez que :

$\begin{align*}
\det(A) \det(xI-BA) &= \det( A(xI- BA ))\\
&= \det(xA-ABA)\\
&= \det ((xI-AB)A)\\
&=\det (xI-AB)\det(A)
\end{align*}$.

Mais problème, il s’agit de simplifier par $\det(A)$, ce qui ne pourrait se faire que si $A$ est inversible… et on se mord la queue.

Comment s’en sortir ? La simplification est possible dans un anneau commutatif intègre. Or, si $K$ est un corps, l’anneau des polynômes à une indéterminée $K[X]$ l’est.

Vous allez reprendre le même calcul que précédemment mais en travaillant avec la matrice $A-XI$ à la place de la matrice $A$. Les matrices $A-XI$ et $B$ sont maintenant vues comme des matrices à coefficients dans l’anneau $K[X]$.

$\begin{align*}
\det(A-XI) \det(xI-B(A-XI)) &= \det( (A-XI)(xI- B(A-XI) ))\\
&= \det(x(A-XI)-(A-XI)B(A-XI))\\
&= \det ((xI-(A-XI)B)(A-XI))\\
&=\det (xI-(A-XI)B)\det(A-XI)
\end{align*}$.

Cette égalité est vraie dans l’anneau $K[X]$. Or $\det(A-XI)$ est un polynôme de degré $n$, de coefficient dominant $(-1)^n.$ Par conséquent, il est non nul dans $K[X].$

Il en résulte que, dans $K[X]$, $\det(xI-B(A-XI))=\det(xI-(A-XI)B).$ On substitue $X$ par $0$ (le neutre de l’addition dans $K$) et on obtient le résultat voulu $\det(xI-BA)=\det(xI-AB).$

090. Un vecteur est caractérisé par les valeurs des produits scalaires qu’il prend avec les vecteurs d’une base

Soit $E$ un espace vectoriel de dimension finie $n$ sur un corps $K$, muni d’un produit scalaire noté $(.|.)$.

Par le procédé de Gram-Schmidt, vous savez qu’il existe une base de $E$, par exemple $(e_1,\dots,e_n)$ qui est orthonormale. Elle restera fixée une bonne fois pour toutes dans tout cet article.

L’intérêt d’une base orthonormée c’est qu’il est facile de décomposer un vecteur sur cette base en utilisant des produits scalaires.

Le lemme

Vous allez démontrer le résultat suivant :

Quels que soient les scalaires $k_1$, …, $k_n$ du corps $K$ il existe un unique vecteur $x\in E$ tel que $\forall i\in\N, 1\leq i\leq n \Rightarrow (x|e_i)=k_i.$

Procédez par analyse-synthèse.

Analyse

Soient $k_1$, …, $k_n$ des éléments de $K$. Supposez qu’il existe un vecteur $x\in E$ tel que, pour tout entier $i$ compris entre $1$ et $n$, le produit scalaire $(x|e_i)$ est égal à $k_i.$

Comme $(e_1,\dots,e_n)$ est une base de $E$, le vecteur $x$ se décompose dessus. Il existe $n$ scalaires $\ell_1$,…,$\ell_n$ tels que $x=\sum_{j=1}^n \ell_j e_j.$

Soit $i$ un entier compris entre $1$ et $n$. Vous calculez le produit scalaire $(x|e_i)$ par distributivité.

$\begin{align*}
(x|e_i) &= \sum_{j=1}^n \ell_j (e_j|e_i) \\
&= \ell_i + \sum_{j\neq i} \ell_j (e_j|e_i) \\
&= \ell_i.
\end{align*}$

Il s’ensuit que, pour tout entier $i$ compris entre $1$ et $n$, $\ell_i =(x|e_i) = k_i.$

Vous en déduisez que $x = \sum_{j=1}^n k_j e_j$ d’où l’unicité.

Synthèse

Soient $k_1$, …, $k_n$ des éléments de $K$.

Considérez le vecteur $x = \sum_{j=1}^n k_j e_j$. Alors, pour tout $i$ compris entre $1$ et $n$ :

$\begin{align*}
(x|e_i) &= \sum_{j=1}^n k_j (e_j|e_i) \\
&= k_i + \sum_{j\neq i} k_j (e_j|e_i) \\
&= k_i.
\end{align*}$

et le vecteur $x$ convient.

Le résultat avec une base quelconque

Soit $(u_1,…,u_n)$ une base de $E$. Vous utilisez la base ortonormée $(e_1,…,e_n)$ précédente. Il existe $n^2$ scalaires $(\lambda_{ij})_{1\leq i \leq n ; 1\leq j \leq n}$ tels que :$\forall i \in \N, 1\leq i \leq n \Longrightarrow e_i = \sum_{j=1}^n \lambda_{ij} u_j.$

De même, il existe $n^2$ scalaires $(\mu_{ij})_{1\leq i \leq n ; 1\leq j \leq n}$ tels que :$\forall i \in \N, 1\leq i \leq n \Longrightarrow u_i = \sum_{j=1}^n \mu_{ij} e_j.$

Soient $p$ et $j$ deux entiers compris entre $1$ et $n$. Vous aurez besoin d’évaluer une somme double.

Partez du vecteur $u_p$, $u_p = \sum_{q=1}^n \mu_{pq} e_q$, puis décomposez tous les vecteurs $e_q.$

$\begin{align*}
u_p &= \sum_{q=1}^n \mu_{pq} \left( \sum_{i=1}^n \lambda_{qi} u_i \right) \\
&= \sum_{q=1}^n \mu_{pq} \sum_{i=1}^n \lambda_{qi} u_i \\
&= \sum_{i=1}^n \sum_{q=1}^n \mu_{pq}\lambda_{qi} u_i \\
&= \sum_{i=1}^n \left(\sum_{q=1}^n \mu_{pq}\lambda_{qi}\right) u_i \\
\end{align*}$

Par unicité de la décomposition d’un vecteur dans une base, il en résulte que :

$\sum_{q=1}^n \mu_{pq}\lambda_{qi} = 1$ si $i=p.$

$\sum_{q=1}^n \mu_{pq}\lambda_{qi} = 1$ si $i\neq p.$

Cela permet de démontrer le résultat suivant, plus large.

Quels que soient les scalaires $k_1$, …, $k_n$ du corps $K$ il existe un unique vecteur $x\in E$ tel que $\forall i\in\N, 1\leq i\leq n \Rightarrow (x|u_i)=k_i.$

Analyse

Soient $k_1$, …, $k_n$ des éléments de $K$. Supposez qu’il existe un vecteur $x\in E$ tel que, pour tout entier $i$ compris entre $1$ et $n$, le produit scalaire $(x|u_i)$ est égal à $k_i.$

Vous déduisez que, pour tout entier $i$ compris entre $1$ et $n$ :

$\begin{align*}
(x|e_i) &= \sum_{j=1}^n \lambda_{ij} (x|u_j) \\
&= \sum_{j=1}^n \lambda_{ij} k_j.
\end{align*}$

D’après le lemme, l’unicité du vecteur $x$ est assurée.

Synthèse

Soient $k_1$, …, $k_n$ des éléments de $K$.

Considérons le vecteur $x$ défini par $x = \sum_{i=1}^n \left( \sum_{j=1}^n \lambda_{ij} k_j \right)e_i.$

Soit $p$ un entier compris entre $1$ et $n$.

$\begin{align*}
(x|u_p) &= \sum_{i=1}^n \left( \sum_{j=1}^n \lambda_{ij} k_j \right) (e_i | u_p)\\
&= \sum_{i=1}^n \sum_{j=1}^n \lambda_{ij} k_j (e_i | u_p) \\
&= \sum_{i=1}^n \sum_{j=1}^n \sum_{q=1}^n \lambda_{ij}\mu_{pq} k_j (e_i | e_q) \\
&= \sum_{i=1}^n \sum_{j=1}^n \lambda_{ij}\mu_{pi} k_j \\
&=\sum_{j=1}^n \left( \sum_{i=1}^n \lambda_{ij}\mu_{pi}\right) k_j \\
&=\sum_{j=1}^n \left( \sum_{i=1}^n\mu_{pi} \lambda_{ij}\right) k_j \\
&=\left( \sum_{i=1}^n\mu_{pi} \lambda_{ip}\right) k_p + \sum_{j\neq p} \left( \sum_{i=1}^n\mu_{pi} \lambda_{ij}\right) k_j \\
&= 1 k_p + \sum_{j\neq p} 0 k_j \\
&= k_p.
\end{align*}$

Voilà prouvé que le vecteur $x$ convient bien.

Cela achève la démonstration.

Note. Les lecteurs avertis auront remarqué que nous utilisons le fait que les matrices de passage des bases $(e_i)$ vers $(u_i)$ et vice-versa sont inversibles et inverses l’une de l’autre. Nous nous en passons ici afin de manipuler les symboles sigmas.

Prolongement

Dans $\R^3$ on note $u = (1,1,1)$, $v=(1,2,1)$ et $w=(2,3,-1)$. Le produit scalaire usuel est noté $(.|.).$
Montrez qu’il existe un unique vecteur $x$ tel que $(x|u)=1$, $(x|v)=3$, $(x|w)=2$ et déterminez ce vecteur.

089. Indépendance de vecteurs avec les projections orthogonales

Tester l’indépendance linéaire de vecteurs sans résoudre de systèmes linéaires ? Est-ce possible ? Le procédé d’orthogonalisation de Gram-Schmidt permet de répondre par l’affirmative.

Pour y voir plus clair, travaillez dans $\R^3$ muni du produit scalaire usuel noté $(.|.)$ et considérez les vecteurs suivants :
$u_1 = (2,-1,3)$, $u_2 = (3,-2,7)$ et $u_3=(8,-5,17).$ La famille $(u_1,u_2,u_3)$ est-elle libre ou liée ?

Les calculs vont prendre du temps et c’est tout à fait normal puisqu’on forme une base orthogonale de l’espace engendré par les trois vecteurs $u_1$, $u_2$ et $u_3$.

Qu’est-ce que le procédé de Gram-Schmidt ?

Pour chaque vecteur, de la gauche vers la droite, parmi $u_1$, $u_2$ et $u_3$, vous remplacez chaque vecteur par sa différence avec sa projection orthogonale sur l’espace engendré par les vecteurs précédents.

Par exemple, $u_2$ sera remplacé par $u_2-\alpha$ où $\alpha$ est la projection orthogonale de $u_2$ sur l’espace engendré par $u_1$.

De même, $u_3$ sera remplacé par $u_3-\beta$ où $\beta$ est la projection orthogonale de $u_3$ sur l’espace engendré par $u_1$ et $u_2$.

Appliquez l’orthogonalisation de Gram-Schmidt sur $u_1$ et $u_2$

Projetez orthogonalement le vecteur $u_2$ sur l’espace vectoriel engendré par $u_1$, notez $p(u_2)$ ce vecteur pour l’instant.

L’expression de cette projection pose souvent des difficultés.

Analyse

Par définition de la projection orthogonale, $p(u_2)$ est colinéaire à $u_1$. D’autre part, les vecteurs $u_2-p(u_2)$ et $u_1$ sont orthogonaux.

Il existe un réel $k$ tel que $p(u_2) = ku_1.$

Pour trouver ce réel $k$, vous utilisez le produit scalaire.

$\begin{align*}
(u_2-p(u_2)|u_1)&=0 \\
(u_2-k u_1)|u_1)&=0 \\
(u_2|u_1) -k ||u_1||^2 &=0\\
k &=\dfrac{(u_2|u_1)}{||u_1||^2}
\end{align*}$

Synthèse

Posez $p(u_2) = \dfrac{(u_2|u_1)}{||u_1||^2} u_1.$

$p(u_2)$ est bien colinéaire à $u_1$.

D’autre part :

$\begin{align*}
(u_2-p(u_2)|u_1)&=(u_2|u_1)-\left(\dfrac{(u_2|u_1)}{||u_1||^2} u_1 |u_1\right) \\
&=(u_2|u_1)-\dfrac{(u_2|u_1)}{||u_1||^2} ||u_1||^2 \\
&=0.
\end{align*}$

Procédez au calcul

$(u_2|u_1) = 6+2+21=29.$
$||u_1||^2=4+1+9=14.$

Notez $v_2 = u_2-p(u_2).$

Alors
$\begin{align*}
v_2 &= (3,-2,7) – \dfrac{29}{14} (2,-1,3) \\
&= \dfrac{1}{14}( (42,-28,98) – (58,-29,87))\\
&=\dfrac{1}{14} (-16,1,11).
\end{align*}$

Quel intérêt ?

La famille $(u_1,v_2)$ est orthogonale. L’espace engendré par $u_1$ et $u_2$ est le même que celui qui est engendré par $u_1$ et $v_2$. La famille $(u_1,v_2)$ est donc une base de l’espace engendré par $u_1$ et $u_2$.

Projetez le vecteur $u_3$ orthogonalement sur l’espace engendré par $u_1$ et $u_2$

Afin de ne pas compliquer les notations, notez $p(u_3)$ le projeté orthogonal cherché. Notez bien qu’il suffit de projeter orthogonalement $u_3$ sur l’espace engendré par $u_1$ et $v_2$. Pour se débarrasser des fractions, vous projetez sur l’espace engendré par $u_1$ et $w_2 = 14v_2=(-16,1,11)$.

En suivant une méthode analogue, vous trouvez que :

$p(u_3) = \dfrac{(u_3|u_1)}{||u_1||^2}u_1 + \dfrac{(u_3|w_2)}{||w_2||^2}w_2.$

Passez au calcul de $p(u_3)$ et concluez

$(u_3|u_1) = 16+5+51 = 21+51=72.$
$||u_1||^2=14.$

$(u_3|w_2) = – 128-5+187 = -133+187=54.$
$||w_2||^2=256+1+121=257+121=378.$

$\begin{align*}
p(u_3)&=\dfrac{72}{14}(2,-1,3)+\dfrac{54}{378}(-16,1,11)\\
&=\dfrac{36}{7}(2,-1,3)+\dfrac{27}{189}(-16,1,11)\\
&=\dfrac{36}{7}(2,-1,3)+\dfrac{1}{7}(-16,1,11)\\
&=\dfrac{1}{7}((72,-36,108)+(-16,1,11))\\
&=\dfrac{1}{7}(56,-35,119)\\
&=(8,-5,17)\\
\end{align*}$

Dans la suite de Gram-Schmidt, vous calculez $u_3-p(u_3)$ et ici, le résultat est le vecteur nul. A partir de ce stade, vous savez que la famille $(u_1,u_2,u_3)$ est liée puisque $u_3=p(u_3)$ et que $p(u_3)$ est une combinaison linéaire de $u_1$ et de $u_2$.

Bonus : trouvez la décomposition de $u_3$ sur les vecteurs précédents

$\begin{align*}
u_3 &= p(u_3)\\
&=\dfrac{(u_3|u_1)}{||u_1||^2}u_1 + \dfrac{(u_3|w_2)}{||w_2||^2}w_2\\
&=\dfrac{36}{7} u_1 + \dfrac{1}{7}\times 14 v_2\\
&=\dfrac{36}{7} u_1 + 2 v_2\\
&=\dfrac{36}{7} u_1 + 2 \left(u_2 – \dfrac{29}{14}u_1\right)\\
&=\left(\dfrac{36}{7} – \dfrac{29}{7} \right)u_1 + 2u_2\\
&=u_1+2u_2.
\end{align*}$

Prolongement

Démontrez que l’ensemble $\left\{\displaystyle\int_0^1 (x^3-ax-b)^2 \text{d}x, (a,b)\in\R^2\right\}$ admet un plus petit élément $d$. Trouvez la valeur exacte du nombre $d$. Déterminez toutes les valeurs de $a$ et de $b$ pour lesquelles le nombre $d$ est atteint.

084. Les sommes de Newton

Dans cet article, vous trouverez :

  • la définition d’une somme de Newton associée à un polynôme,
  • les relations qu’il y a entre les sommes de Newton et les coefficients dudit polynôme avec un moyen efficace de les mémoriser,
  • une démonstration de ces relations qui fait appel à la division euclidienne et à la dérivation d’un polynôme scindé.

Qu’entend-on par sommes de Newton vis-à-vis d’un polynôme ?

Soit $P$ un polynôme à coefficients dans un corps $\K$, de degré $n\geq 1$.

Il existe des coefficients $(a_0,a_1,\dots,a_n)$ tels que $P(x)=a_0x^n+a_1x^{n-1}+\cdots+a_{n-1}x+a_n.$

Notez que, contrairement à beaucoup de notations usuelles sur les polynômes, le coefficient dominant de $P$ est noté $a_0$.

Il existe un surcorps $\L$ de $\K$ dans lequel $P$ est scindé.

Il existe donc $n$ racines appartenant à $\L$, certaines étant éventuellement répétées, notées $\lambda_1$, … , $\lambda_n$, telles que $P(x)=a_0(x-\lambda_1)\cdots(x-\lambda_n).$

Les sommes de Newton, notées $N_1$ pour « Newton 1 », …, $N_n$ pour « Newton $n$ », sont définies de la façon suivante :

$N_1 = \lambda_1+\cdots+\lambda_n = \sum_{k=1}^n\lambda_k$,

$N_2 = \lambda_1^2+\cdots+\lambda_n^2= \sum_{k=1}^n\lambda_k^2$,

$\dots$

$N_n = \lambda_1^n+\cdots+\lambda_n^n=\sum_{k=1}^n\lambda_k^n.$

Autrement dit, pour tout entier $i$ compris entre $1$ et $n$,

$N_i = \displaystyle\sum_{k=1}^n\lambda_k^i.$

Note : vous trouverez aussi des sommes de Newton définies pour $i\geq n+1$. Elles ne seront pas traitées dans cet article, le point de difficulté à lever étant de comprendre le lien entre les premières relations.

Comment mémoriser efficacement les relations qui lient les sommes de Newton ?

La relation fondamentale

Soit $k$ un entier compris entre $1$ et $n$.

Comme $\lambda_k$ est une racine de $P$, vous déduisez :

$a_0\lambda_k^n+a_1\lambda_k^{n-1}+\cdots+a_{n-1}\lambda_k+a_n=0.$

Pour plus de clarté, on écrira le dernier coefficient fois $1$.

$a_0\lambda_k^n+a_1\lambda_k^{n-1}+\cdots+a_{n-1}\lambda_k+a_n\times 1=0.$

Maintenant sommez ces $n$ relations.

$\begin{align*}
\sum_{k=1}^n \left(a_0\lambda_k^n+a_1\lambda_k^{n-1}+\cdots+a_{n-1}\lambda_k+a_n\times 1\right)&=0\\
a_0\sum_{k=1}^n \lambda_k^n + a_1 \sum_{k=1}^n \lambda_k^{n-1}+\cdots + a_{n-1}\sum_{k=1}^n\lambda_k + a_n \sum_{k=1}^n 1 &= 0\\
\end{align*}$

Vous obtenez la relation de base fondamentale qui lie toutes les sommes.

$\boxed{a_0N_n+a_1N_{n-1}+\cdots+a_{n-1}N_1+na_n=0.}$

$\boxed{\sum_{i=0}^{n-1} a_iN_{n-i} + na_n=0.}$

Comment se souvenir des autres relations ?

Considérez le polynôme de degré $1$ qui n’utilise que les premiers coefficients de $P$ en commençant par son coefficient dominant.

Posez $P_1(x) = a_0x+a_1$. Le polynôme $P_1$ n’a qu’une seule racine $\lambda’_1$. Si vous appliquez la relation fondamentale avec sa somme de Newton $N’_1 = \lambda’_1$, vous obtenez $a_0N’_1+a_1=0.$

Ce qui est remarquable c’est que cette relation reste valable pour la somme $N_1$ associée au polynôme de départ $P$ : $a_0N_1+a_1=0.$

De même pour le degré $2$. Posez $P_2(x)=a_0x^2+a_1x+a_2$. Notez $\lambda’_1$ et $\lambda’_2$ les deux racines de $P_2$, posez $N’_1 = \lambda’_1+\lambda’_2$ et $N’_2 = {\lambda’}_1^2$ $+{\lambda’}_2^2$.

D’après la relation fondamentale $a_0N’_2+a_1N’_1+2a_2=0.$

Cette relation se transpose aussi.

Vous avez $a_0N_2+a_1N_1+2a_2=0$ où $N_1$ et $N_2$ sont les deux premières sommes de Newton associées au polynôme de départ $P$.

Vous en déduisez toutes les relations liant les sommes de Newton. Il y en a $n$ au total.

$\begin{align*}
a_0N_1+a_1 &= 0\\
a_0N_2+a_1N_1+2a_2 &=0\\
a_0N_3+a_1N_2+a_2N_1+3a_3 &=0\\
\cdots & \cdots\\
a_0N_n+a_1N_{n-1}+\cdots+a_{n-1}N_1+na_n &=0.
\end{align*}$

Conclusion : toutes les formules de Newton avec des sigmas

Pour tout entier $k$ compris entre $1$ et $n$ :

$\boxed{\sum_{i=0}^{k-1} a_iN_{k-i} + ka_k=0.}$

Et maintenant, démontrez les relations qu’il y a entre les sommes de Newton et les coefficients du polynôme

Ecartez d’office le cas où $P$ est de degré $1$. Il y a une seule racine $\lambda_1$ qui vérifie $a_0\lambda_1+a_1=0$, or $N_1 = \lambda_1.$

Dans la suite $n$ désignera un entier naturel supérieur ou égal à $2$.

A partir du polynôme $P$ défini par $P(x)=a_0x^n+a_1x^{n-1}+\cdots+a_{n-1}x+a_n$, vous allez définir les polynômes tronqués $P_0$, $P_1$, …, $P_n$ de la façon suivante :

$\begin{align*}
P_0(x) &= a_0\\
P_1(x) &= a_0x+a_1\\
P_2(x) &= a_0x^2+a_1x+a_2\\
\cdots & \cdots\\
P_n(x) &= a_0x^n+a_1x^{n-1}+\cdots+a_{n-1}x+a_n.
\end{align*}$

Soit $i$ un entier compris entre $1$ et $n$.

Quand vous effectuez la division euclidienne de $P(x)$ par $x-\lambda_i$ dans le corps $\L(x)$, vous obtenez $P(x)=(x-\lambda_i)\left(P_0(\lambda_i)x^{n-1} + P_1(\lambda_i)x^{n-2} + \cdots + P_{n-1}(\lambda_i)\right) + P_n(\lambda_i).$

Faites une disgression et voyez pourquoi on obtient une telle relation par division euclidienne

Comment bien comprendre le processus ?

Supposez temporairement que le polynôme $P$ est de degré $3$ dans $\L[x]$, $P(x)=a_0x^3+a_1x^2+a_2x+a_3$. Soit $\lambda$ un élément de $\L$.

Vous allez effectuer la division de $P$ par $x-\lambda$, pas à pas.

$\begin{align*}
a_0x^3+a_1x^2+a_2x+a_3 &=a_0x^2\times x + a_1x^2+a_2x+a_3\\
&=a_0x^2( (x-\lambda)+\lambda)+a_1x^2+a_2x+a_3\\
&=(x-\lambda)(a_0x^2) +(a_0\lambda+a_1)x^2+a_2x+a_3\\
&=(x-\lambda)(a_0x^2) +(a_0\lambda+a_1)x\times x+a_2x+a_3\\
&=(x-\lambda)(a_0x^2) +(a_0\lambda+a_1)x\times ((x-\lambda)+\lambda)+a_2x+a_3\\
&=(x-\lambda)(a_0x^2) +(a_0\lambda+a_1)x(x-\lambda) + (a_0\lambda^2+a_1\lambda) x+a_2x+a_3\\
&=(x-\lambda)(a_0x^2+(a_0\lambda+a_1)x) + (a_0\lambda^2+a_1\lambda +a_2) x+ a_3\\
&=(x-\lambda)(a_0x^2+(a_0\lambda+a_1)x) + (a_0\lambda^2+a_1\lambda +a_2) ((x-\lambda)+\lambda)+ a_3\\
&=(x-\lambda)(a_0x^2+(a_0\lambda+a_1)x+(a_0\lambda^2+a_1\lambda +a_2)) + ((a_0\lambda^2+a_1\lambda +a_2))\lambda)+ a_3\\
&=(x-\lambda)(a_0x^2+(a_0\lambda+a_1)x+(a_0\lambda^2+a_1\lambda +a_2)) +P(\lambda).\\
\end{align*}$

Note. Dans le processus vous pouvez reconnaître la méthode de Hörner pour calculer $P(\lambda)$.

La division euclidienne pour tout degré $n\geq 2$

Supposez que le polynôme $P$ soit de degré $n\geq 2$ à coefficients dans $\L$. Soit $\lambda$ un élément de $\L$.

L’exemple précédent suggère de poser $Q(x)=\sum_{k=0}^{n-1}\sum_{i=0}^k a_i\lambda^{k-i}x^{n-1-k}$ comme polynôme qui va être le quotient de la division euclidienne de $P(x)$ par $x-\lambda$. Le reste de cette division doit être $P(\lambda).$

Vérifiez-le en effectuant le développement de l’expression $E$ définie par $E(x)=Q(x)(x-\lambda)+P(\lambda).$

Par développement du $x$ et du $\lambda$ dans le sigma, vous obtenez :

$E(x) = \sum_{k=0}^{n-1}\sum_{i=0}^k a_i\lambda^{k-i}x^{n-k}-\sum_{k=0}^{n-1}\sum_{i=0}^k a_i\lambda^{k+1-i}x^{n-1-k} + P(\lambda).$

Maintenant vous isolez le terme pour $i=0$ du premier sigma et le terme pour $i=n-1$ du deuxième sigma. Aussitôt :

$E(x) =a_0x^n + \sum_{k=1}^{n-1}\sum_{i=0}^k a_i\lambda^{k-i}x^{n-k}-\sum_{k=0}^{n-2}\sum_{i=0}^k a_i\lambda^{k+1-i}x^{n-1-k} – \sum_{i=0}^{n-1} a_i\lambda^{n-i}+ P(\lambda).$

Une première simplification apparaît dans le terme constant de $E(x)$.

$E(x) =a_0x^n + \sum_{k=1}^{n-1}\sum_{i=0}^k a_i\lambda^{k-i}x^{n-k}-\sum_{k=0}^{n-2}\sum_{i=0}^k a_i\lambda^{k+1-i}x^{n-1-k} +a_n.$

Maintenant, dans le premier sigma qui est double, vous allez isoler $i=k$ du reste.

$E(x) =a_0x^n + \sum_{k=1}^{n-1}\left(a_kx^{n-k}+ \sum_{i=0}^{k-1} a_i\lambda^{k-i}x^{n-k}\right)-\sum_{k=0}^{n-2}\sum_{i=0}^k a_i\lambda^{k+1-i}x^{n-1-k} +a_n.$

Vous poursuivez le développement du premier sigma.

$E(x) =a_0x^n + \sum_{k=1}^{n-1}a_kx^{n-k}+ \sum_{k=1}^{n-1}\sum_{i=0}^{k-1} a_i\lambda^{k-i}x^{n-k}-\sum_{k=0}^{n-2}\sum_{i=0}^k a_i\lambda^{k+1-i}x^{n-1-k} +a_n.$

Dans le second double sigma, vous effectuez un changement de variable, en posant $k’=k+1$.

$E(x) =a_0x^n + \sum_{k=1}^{n-1}a_kx^{n-k}+ \sum_{k=1}^{n-1}\sum_{i=0}^{k-1} a_i\lambda^{k-i}x^{n-k}-\sum_{k’=1}^{n-1}\sum_{i=0}^{k’-1} a_i\lambda^{k’-i}x^{n-k’} +a_n.$

Il apparaît une somme téléscopique. Les deux doubles sigmas se simplifient. Vous déduisez :

$E(x) = a_0x^n + \sum_{k=1}^{n-1}a_kx^{n-k} + a_n$.

$E(x)$ coïncide avec $P(x)$.

Aussitôt $\boxed{P(x) =(x-\lambda)\left( \sum_{k=0}^{n-1}\left(\sum_{i=0}^k a_i\lambda^{k-i}\right)x^{n-1-k}\right)+P(\lambda).}$

Maintenant, revenez au calcul des sommes de Newton

Comme $\lambda_i$ est racine de $P$, $P_n(\lambda_i)=P(\lambda_i)=0.$ Aussitôt :

$\dfrac{P(x)}{x-\lambda_i} = P_0(\lambda_i)x^{n-1} + P_1(\lambda_i)x^{n-2} + \cdots + P_{n-1}(\lambda_i).$

Vous sommez cette relation sur toutes les racines.

$\begin{align*}
\displaystyle\sum_{i=1}^n \dfrac{P(x)}{x-\lambda_i} &= \left(\sum_{i=1}^n P_0(\lambda_i)\right)x^{n-1} &+ \left(\sum_{i=1}^n P_1(\lambda_i)\right)x^{n-2} &+ \cdots &+ \left(\sum_{i=1}^n P_{n-1}(\lambda_i)\right)\\
&= na_0x^{n-1} &+ (a_0N_1+na_1)x^{n-2} &+ \cdots &+ (a_0N_{n-1}+a_1N_{n-2}+\cdots+a_{n-2}N_1+na_{n-1})
\end{align*}$

Partant de $P(x) = a_0(x-\lambda_1)\cdots(x-\lambda_n)$, en dérivant :

$P'(x)=\displaystyle\sum_{i=1}^n \prod_{j\neq i} a_0(x-\lambda_j) = \sum_{i=1}^n \dfrac{P(x)}{x-\lambda_i}$

Du coup :

$\begin{align*}
P'(x) &= na_0x^{n-1} &+ (a_0N_1+na_1)x^{n-2} &+ \cdots &+ (a_0N_{n-1}+a_1N_{n-2}+\cdots+a_{n-2}N_1+na_{n-1})\\
na_0x^{n-1}+(n-1)a_{1}x^{n-2}+\cdots+a_{n-1}&= na_0x^{n-1} &+ (a_0N_1+na_1)x^{n-2} &+ \cdots &+ (a_0N_{n-1}+a_1N_{n-2}+\cdots+a_{n-2}N_1+na_{n-1}).
\end{align*}$

Par identification des coefficients à partir du deuxième à gauche, il vient :

$\begin{align*}
\forall i\in \N, 1\leq i\leq n-1&\Rightarrow ia_{n-i} =a_0 N_{n-i}+a_1N_{n-i-1}+\cdots +a_{n-i-1}N_1 +na_{n-i}\\
&\Rightarrow a_0 N_{n-i}+a_1N_{n-i-1}+\cdots +a_{n-i-1}N_1 +(n-i)a_{n-i}=0
\end{align*}$

Effectuez le changement de variable $k=n-i$. Quand $i$ varie entre $1$ et $n-1$, $k$ varie de $1$ à $n-1$ aussi.

Pour tout entier naturel $k$ compris entre $1$ et $n-1$, vous avez :

$a_0 N_{k}+a_1N_{k-1}+\cdots +a_{k-1}N_1 +ka_{k}=0.$

Avec un sigma, cela s’écrit $\sum_{i=0}^{k-1} a_iN_{k-i} + ka_k=0.$

Comme la relation $\sum_{i=0}^{n-1} a_iN_{n-i} +na_n=0$ a déjà été établie, vous en déduisez que :

Pour tout $k$ compris entre $1$ et $n$, $\sum_{i=0}^{k-1} a_iN_{k-i} + ka_k=0.$

Le lien entre les sommes de Newton et les coefficients du polynôme associé est maintenant établi.

Pensez aux résultats qui en découlent

Les sommes de Newton serviront à établir une démonstration de la méthode de Faddeev, qui constitue une amélioration de la méthode de Leverrier. Vous pourrez par la suite calculer le polynôme caractéristique d’une matrice ainsi que l’inverse de cette matrice le cas échéant.

083. La décomposition $LU$ d’une matrice inversible

Dans cet article, vous trouverez :

  • comment construire la décomposition $LU$ de la matrice $A=\begin{pmatrix} 2 & 7 & 1 \\4 & 13 & 1\\ -2 & -10 & -7\end{pmatrix}$ avec méthode ;
  • une condition nécessaire et suffisante pour qu’une matrice $A$ admette une telle décomposition $LU.$

Qu’est-ce que la décomposition $LU$ d’une matrice ?

On dit qu’une matrice $A$ admet une décomposition $LU$ lorsqu’il existe deux matrices $L$ et $U$ de même taille que $A$, telles que :

  • le produit matriciel $LU$ est égal à $A$ ;
  • la matrice $L$ (comme « low ») est triangulaire inférieure ;
  • la matrice $L$ a tous ses coefficients diagonaux égaux à $1$ ;
  • la matrice $U$ (comme « up ») est triangulaire supérieure.

Trouvez une décomposition $LU$ pour la matrice $A$

Il s’agit de trouver $L = \begin{pmatrix} 1 & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix}$ et $U = \begin{pmatrix} \times & \times & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}$ pour que l’on ait $A=LU.$

Pour répondre à cette question et ne pas s’embrouiller, il s’agit de résoudre cela avec méthode, de façon progressive. Vous allez vous en tirer en considérant les mineurs principaux de la matrice $A$. Ce sont les sous-matrices de $A$, carrées, construites à partir de son premier coefficient en haut à gauche.

La matrice $A$ possède trois mineurs principaux :

  • la matrice $1\times 1$ à un coefficient : $\begin{pmatrix} 2 \end{pmatrix}$ ;
  • la matrice $2\times 2$ suivante : $\begin{pmatrix} 2& 7 \\4 & 13\end{pmatrix}$ ;
  • la matrice $3\times3$ égale à la matrice $A$ elle-même.
L’idée de base lors de la décomposition $LU$ c’est que, pour une taille donnée, les mineurs de $A$ sont égaux au produit des mineurs de $L$ et de $U$. Cette constatation est immédiate compte tenu de la structure triangulaire des matrices $L$ et $U$.

Regardez ce que donnent les mineurs $1\times1$

Pour la matrice $A$ vous n’avez besoin que de son premier mineur. Tous les autres coefficients de $A$ sont masqués.

$ \begin{pmatrix} \boxed{2} & \times & \times \\\times & \times & \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} \boxed{1} & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} \boxed{\times} & \times & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}$

$2 = 1 \times 2$, donc pas le choix, vous déduisez :

$ \begin{pmatrix} \boxed{2} & 7 & 1 \\4 & 13 & 1\\ -2 & -10 & -7\end{pmatrix}= \begin{pmatrix} \boxed{1} & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} \boxed{2} & \times & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}.$

Regardez ce que donnent les mineurs $2\times 2$

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & \times & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}$

Vous allez pouvoir compléter un coefficient du mineur de taille $2\times2$ de la matrice $U$. En commençant par celui du haut.

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & \boxed{\times} & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}$

$7$ est égal à $1$ fois $\boxed{\times}$ plus 0. Donc :

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ \times & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}.$

Passez au coefficient suivant :

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ \boxed{\times} & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}.$

$2$ fois $\boxed{\times}$ plus 0 est égal à $4$. Donc :

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \times \\0 & \times & \times\\ 0 & 0 & \times\end{pmatrix}.$

Et maintenant le dernier coefficient des mineurs de taille $2\times 2.$

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \times \\0 & \boxed{\times} & \times\\ 0 & 0 & \times\end{pmatrix}$

Or $7$ fois $2$ plus $1$ fois $\boxed{\times}$ est égal à $13.$ Donc :

$ \begin{pmatrix} 2 & 7& \times \\4& 13& \times\\ \times & \times & \times\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \times \\0 & -1 & \times\\ 0 & 0 & \times\end{pmatrix}.$

Regardez ce que donnent les mineurs $3\times 3$

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & \boxed{\times} \\0 & -1 & \boxed{\times}\\ 0 & 0 & \times\end{pmatrix}$

Or $1$ fois $\boxed{\times}$ plus $0$ est égal à $1$. Donc la première croix doit être remplacée par 1.

$2$ fois $1$ plus $1$ fois la seconde $\boxed{\times}$ est égal à $1.$

Vous déduisez :

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \times & \times & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & 1 \\0 & -1 & -1\\ 0 & 0 & \times\end{pmatrix}.$

Maintenant vous passez aux deux autres coefficients.

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ \boxed{\times} & \boxed{\times} & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & 1 \\0 & -1 & -1\\ 0 & 0 & \times\end{pmatrix}$

Or $2$ fois $\boxed{\times}$ plus $0$ est égal à $2$. Donc la première croix doit être remplacée par $-1$.

$7$ fois $-1$ plus $-1$ fois la seconde $\boxed{\times}$ est égal à $-10.$

Vous déduisez :

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ -1 & 3 & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & 1 \\0 & -1 & -1\\ 0 & 0 & \times\end{pmatrix}.$

Puis, vous finissez avec le dernier coefficient.

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ -1 & 3 & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & 1 \\0 & -1 & -1\\ 0 & 0 & \boxed{\times}\end{pmatrix}$

$-1$ fois $1$ plus $3$ fois $-1$ plus $1$ fois $\boxed{\times}$ est égal à $1$.

Vous déduisez :

$ \begin{pmatrix} 2 & 7& 1\\4& 13& 1\\ -2& -10& -7\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0\\ -1 & 3 & 1\end{pmatrix} \begin{pmatrix} 2 & 7 & 1 \\0 & -1 & -1\\ 0 & 0 & -3\end{pmatrix}.$

Quand, et seulement quand, une matrice inversible $A$ admet une décomposition $LU$ ?

Analyse

Soit $n$ un entier naturel non nul et $A$ une matrice inversible de taille $n\times n$ admettant une décomposition $LU$.

Alors $\det A = \det L \times \det U.$ Comme $\det A\neq 0$ et $\det L = 1$, vous déduisez $\det U \neq 0.$

Notez $u_{11}$, …, $u_{nn}$ les coefficients diagonaux de $U$.

Comme $\det U = u_{11}\times \dots \times u_{nn}$, vous déduisez $\forall i\in\N, 1\leq i \leq n \Rightarrow u_{ii} \neq 0.$

Soit $k$ un entier naturel compris entre $1$ et $n$. Notez $A_k$ le mineur principal de $A$ de taille $k$. Notez $L_k$ le mineur principal de $L$ de taille $k$. Notez $U_k$ le mineur principal de $U_k$ de taille $k$. En effectuant un produit par blocs :

$\begin{pmatrix} A_k & \times \\ \times &\times \end{pmatrix} = \begin{pmatrix} L_k & 0 \\ \times &\times \end{pmatrix} \begin{pmatrix} U_k & \times \\ 0 &\times \end{pmatrix}$

vous constatez que $A_k = L_kU_k$ donc $\det A_k = \det L_k \times \det U_k$ et par suite $\det A_k = u_{11}\times \cdots\times u_{kk}$, donc $\det A_k\neq 0.$

Donc tous les mineurs principaux de $A$ sont inversibles.

Note : on désigne parfois par le mot « mineur » le déterminant d’une sous-matrice de $A$ au lieu de cette sous-matrice.

Synthèse

Pour tout entier naturel $n$ non nul, notez $P(n)$ la propriété « pour toute matrice $A$ d’ordre $n$ inversible ayant ses mineurs principaux inversibles, $A$ admet une décomposition $LU$. »

Initialisation. Prenez $n=1$. Supposez que $A$ soit une matrice d’ordre $1$ ayant des mineurs principaux tous inversibles. Comme $A$ n’admet qu’un seul coefficient $a$, vous posez $L = (1)$ et $U=(a)$ et vous déduisez $A=LU$. Donc $P(1)$ est vérifiée.

Hérédité. Soit $n$ un entier naturel non nul. Supposez $P(n)$. Vous allez montrer $P(n+1)$.

Soit $A$ une matrice carrée d’ordre $n+1$ ayant tous ses mineurs principaux inversibles.

Notez $A’$ le mineur principal de $A$ d’ordre $n$.

Il existe une matrice ligne $v_L$ et une matrice colonne $v_C$ et un scalaire $s$ tels que $A = \begin{pmatrix}A’ & v_C \\ v_L & s\end{pmatrix}.$

D’après l’hypothèse, $A’$ admet une décomposition $L’U’.$

Soient $\alpha_L$ une matrice ligne à $n$ coefficients, $\alpha_C$ une matrice colonne à $n$ coefficients et un scalaire $\beta$ que l’on choisira plus tard.

Posez $L = \begin{pmatrix} L’ & 0 \\\alpha_L & 1\end{pmatrix}$ et $U=\begin{pmatrix} U’ & \alpha_C \\ 0 & \beta \end{pmatrix}.$

Le produit $LU$ est égal à $\begin{pmatrix} L’U’ &L’\alpha_C \\ \alpha_LU’ & \alpha_L\alpha_C+\beta\end{pmatrix}.$

Comme $A’$ est inversible, $\det A’ \neq 0$. Or $\det L’ \det U’ =\det A’$ donc les deux matrices $L’$ et $U’$ sont inversibles.

Choisissez $\alpha_C$, $\alpha_L$ et $\beta$ pour que $L’\alpha_C = v_C$ et $\alpha_L U’ = v_L$ et $\beta = s-\alpha_L\alpha_C.$

Vous avez $A = LU$. $L$ est bien triangulaire inférieure avec des coefficients diagonaux égaux à $1$. $U$ est bien une matrice triangulaire supérieure. $A$ admet donc une décomposition $LU$. Donc $P(n+1)$ est vérifiée.

Par récurrence, vous avez montré que pour tout entier naturel $n$ non nul, $P(n)$ est vérifiée.

Concluez

Une matrice $A$ inversible admet une décomposition $LU$, si et seulement si, tous ses mineurs principaux sont inversibles.

Une matrice $A$ inversible admet une décomposition $LU$, si et seulement si, tous ses mineurs principaux sont inversibles.

081. Polynômes caractéristiques de $AB$ et de $BA$

Dans cet article, vous considérez deux matrices carrées $A$ et $B$ à coefficients dans un corps $\K$, lorsque $\K = \R$ ou $\K=\C.$ Notez $I$ la matrice identité.

Que peut-on dire, en général, des polynômes caractéristiques des matrices $AB$ et $BA$ ?

Les deux polynômes sont égaux quand $A$ est inversible

Supposez que $A$ soit inversible.

Les matrices $AB$ et $BA$ sont semblables :
$A^{-1}(AB)A = (A^{-1}A)(BA) = IBA = BA.$

De ce fait elles ont le même polynôme caractéristique.

Que faire lorsque la matrice $A$ n’est pas inversible ?

Vous disposez d’un argument de topologie pour y répondre.

Notez $P(x) = \det(xI-A)$ le polynôme caractéristique de $A$. C’est un polynôme non constant à coefficients dans $\K$. Il est scindé dans $\C$ et admet un nombre fini de racines.

  • Soit $0$ est sa seule racine. Dans ce cas, pour tout $x\in ]0,+\infty[$, $P(x)\neq 0$. En particulier $\forall x\in ]0,1[, P(x)\neq 0.$
  • Soit il admet une ou plusieurs racines différentes de $0$. Notez $r>0$ le plus petit module de toutes ces racines. Alors $\forall x\in ]0,r[, P(x)\neq 0.$

Vous constatez que dans les deux cas énumérés ci-dessus il existe toujours un réel $\alpha>0$ tel que $\forall x\in ]0,\alpha[, P(x)\neq 0.$

Vous en déduisez que $\forall x\in ]0,\alpha[, A-xI$ est inversible.

D’après la partie précédente, pour tout $y$ tel que $0<y<\alpha$, $(A-yI)B$ et $B(A-yI)$ ont le même polynôme caractéristique.

Vous en déduisez que $\forall x\in\K, \forall y\in]0,r[$, $\det(xI-(A-yI)B)=\det(xI-B(A-yI)).$

Les deux déterminants ci-dessus sont des polynômes à deux variables en $x$ et $y$. Ce sont, en particulier, des fonctions continues à deux variables. Fixez $x\in\K$ et passez à la limite dans l’égalité $\det(xI-(A-yI)B)=\det(xI-B(A-yI))$ en faisant tendre $y$ vers $0$.

Vous obtenez l’égalité $\det(xI-AB)=\det(xI-BA).$

Concluez

Quelles que soient les matrices réelles ou complexes $A$ et $B$, les matrices $AB$ et $BA$ ont le même polynôme caractéristique.

80. Méthode de Le Verrier

Cherchez les valeurs propres de $A$

Considérez la matrice suivante : $$A = \begin{pmatrix}
6 & -3 & -2 \\
4 & -1 & -2 \\
10 & -5 & -3
\end{pmatrix}.$$

Comment trouver ses valeurs propres ? Supposez que vous ne connaissez rien, mais absolument rien, au concept du déterminant… De même, résoudre $AX = \lambda X$ avec $X\neq 0$ serait possible, mais vous voulez trouver autre chose…

Pour accéder aux valeurs propres, mieux vaut se placer dans $\C$, puisque vous savez que dans ce corps, tous les polynômes non constants sont scindés.

Cette propriété implique que la matrice $A$ est trigonalisable. Autrement dit, il existe une matrice inversible $P$ à coefficients complexes, trois nombres complexes, $\lambda_1$, $\lambda_2$ et $\lambda_3$ tels que $$P^{-1}AP = \begin{pmatrix}
\lambda_1 &\times & \times \\
0 & \lambda_2 &\times \\
0 & 0 & \lambda_3 \\
\end{pmatrix}$$

Et maintenant, la trace

La somme des valeurs propres

La trace de $A$ est égale à la somme des coefficients diagonaux de $A$, on la note $\tr(A)$ et bien-sûr $\tr(A)=2.$

La trace a une propriété très importante : quelles que soient les matrices complexes $C$ et $D$, $\tr(CD)=\tr(DC).$

Aussitôt, deux matrices semblables ont la même trace, d’où l’on déduit que $\boxed{\lambda_1+\lambda_2+\lambda_3=2}.$

La somme des carrés des valeurs propres

Après calcul, vous trouvez que $$A^2 = \begin{pmatrix}
4 & -5 & 0 \\
0 & -1 & 0 \\
10 & -10 & -1
\end{pmatrix}.$$

Comme $P^{-1}A^2P = \begin{pmatrix}
\lambda_1^2 &\times & \times \\
0 & \lambda_2^2 &\times \\
0 & 0 & \lambda_3^2 \\
\end{pmatrix}$

En prenant la trace, vous trouvez $\boxed{\lambda_1^2+\lambda_2^2+\lambda_3^2=2}.$

La somme des cubes des valeurs propres

Après calcul, vous trouvez que $$A^3 = \begin{pmatrix}
4 & -7 & 2 \\
-4 & 1 & 2 \\
10 & -15 & 3
\end{pmatrix}.$$

Comme $P^{-1}A^3P = \begin{pmatrix}
\lambda_1^3 &\times & \times \\
0 & \lambda_2^3 &\times \\
0 & 0 & \lambda_3^3 \\
\end{pmatrix}$

En prenant la trace, vous trouvez $\boxed{\lambda_1^3+\lambda_2^3+\lambda_3^3=8}.$

Les sommes de Newton et les fonctions symétriques

Les valeurs propres sont les racines du polynôme caractéristique de $A$ défini par $P(x)=(x-\lambda_1)(x-\lambda_2)(x-\lambda_3).$

En développant $P(x)$ vous obtenez : $$P(x) = x^3 – (\lambda_1+\lambda_2+\lambda_3)x^2+(\lambda_1\lambda_2+\lambda_1\lambda_3+\lambda_2\lambda_3)x-\lambda_1\lambda_2\lambda_3.$$

Introduisez les fonctions symétriques :

$$\begin{align*}
\sigma_1 &= \lambda_1+\lambda_2+\lambda_3\\
\sigma_2 &=\lambda_1\lambda_2+\lambda_1\lambda_3+\lambda_2\lambda_3 \\
\sigma_3 &=\lambda_1\lambda_2\lambda_3.
\end{align*}$$

Introduisez les sommes de Newton :

$$\begin{align*}
N_1 &= \lambda_1+\lambda_2+\lambda_3\\
N_2 &=\lambda_1^2+\lambda_2^2+\lambda_3^2 \\
N_3 &=\lambda_1^3+\lambda_2^3+\lambda_3^3.
\end{align*}$$

Vous connaissez les valeurs de $N_1$, $N_2$, $N_3$. Vous cherchez les valeurs de $\sigma_1$, $\sigma_2$ et $\sigma_3.$ C’est possible. Voilà comment procéder.

Vous avez déjà $\boxed{\sigma_1 = N_1}.$

Pour faire apparaître $\sigma_2$ une idée consiste à élever au carré la somme $\lambda_1+\lambda_2+\lambda_3.$

$$\begin{align*}
(\lambda_1+\lambda_2+\lambda_3)^2 &= \lambda_1^2+\lambda_2^2+\lambda_3^2+2 \lambda_1\lambda_2 + 2\lambda_1\lambda_3+2\lambda_2\lambda_3\\
N_1^2 &=N_2 + 2\sigma_2
\end{align*}$$

Aussitôt : $\boxed{2\sigma_2 = N_1^2-N_2}.$

Pour faire apparaître $\sigma_3$, c’est plus long mais le principe reste le même. Vous élevez au cube la somme $\lambda_1+\lambda_2+\lambda_3.$

$$\begin{align*}
(\lambda_1+\lambda_2+\lambda_3)^3 &= \lambda_1^3+\lambda_2^3+\lambda_3^3+3 \lambda_1^2\lambda_2 + 3 \lambda_1^2\lambda_3+3 \lambda_2^2\lambda_1 +3 \lambda_2^2\lambda_3+3\lambda_3^2\lambda_1+3\lambda_3^2\lambda_2+6\lambda_1\lambda_2\lambda_3\\
N_1^3 &=N_3+6\sigma_3+3 (\lambda_1^2\lambda_2 + \lambda_1^2\lambda_3+ \lambda_2^2\lambda_1 +\lambda_2^2\lambda_3+\lambda_3^2\lambda_1+\lambda_3^2\lambda_2).
\end{align*}$$

Il reste à calculer la somme $\lambda_1^2\lambda_2 + \lambda_1^2\lambda_3+ \lambda_2^2\lambda_1 +\lambda_2^2\lambda_3+\lambda_3^2\lambda_1+\lambda_3^2\lambda_2.$ Vous développez le produit $Q=(\lambda_1+\lambda_2+\lambda_3)(\lambda_1^2+\lambda_2^2+\lambda_3^2)$ qui se sépare en 3 termes (ceux au cube) avec 6 autres termes.

$$\begin{align*}
Q &= \lambda_1^3+\lambda_1\lambda_2^2+\lambda_1 \lambda_3^2 \\&\quad+\lambda_1^2\lambda_2 +\lambda_2^3+\lambda_2\lambda_3^2 \\
&\quad+ \lambda_1^2\lambda_3 +\lambda_2^2 \lambda_3 + \lambda_3^3\\
N_1N_2 &= N_3 + \lambda_1^2\lambda_2 + \lambda_1^2\lambda_3+\lambda_2^2\lambda_1 +\lambda_2^2\lambda_3+\lambda_3^2\lambda_1+\lambda_3^2\lambda_2.
\end{align*}$$

Du coup, $\lambda_1^2\lambda_2 + \lambda_1^2\lambda_3+ \lambda_2^2\lambda_1 +\lambda_2^2\lambda_3+\lambda_3^2\lambda_1+\lambda_3^2\lambda_2 = N_1N_2-N_3$, que l’on substitue plus haut, donnant :

$$\begin{align*}
N_1^3 &=N_3+6\sigma_3+3(N_1N_2-N_3)\\
&=6\sigma_3 +3N_1N_2-2N_3.
\end{align*}$$

Aussitôt $\boxed{6\sigma_3 = N_1^3+2N_3-3N_1N_2}.$

Calculez les fonctions symétriques

Vous avez successivement :
$\begin{align*}
\sigma_1 &= N_1 = 2\\
2\sigma_2 &= N_1^2-N_2 = 4-2=2\\
6\sigma_3 &=N_1^3+2N_3-3N_1N_2 = 8+16-12 = 12.
\end{align*}$

Aussitôt :

$$\left\{\begin{align*}
\sigma_1 & = 2\\
\sigma_2 & = 1\\
\sigma_3 & = 2.\\
\end{align*}\right.$$

Ecrivez le polynôme caractéristique

$\begin{align*}
P(x) &= x^3-\sigma_1x^2+\sigma_2x-\sigma_3\\
&= x^3-2x^2+x-2.
\end{align*}$

Les valeurs propres de $A$ sont les racines du polynôme $P$, il y en a trois qui annulent $P$, ce sont $2$, $i$ et $-i$.

Un prolongement…

Quelles que soient les matrices $A$ et $B$, selon vous, est-ce que $AB$ et $BA$ ont le même polynôme caractéristique ?

079. Un endomorphisme de $\R^3$ non diagonalisable

Considérez l’endomorphisme $f$ de $\R^3$ dont la matrice, dans la base canonique, est $A=\begin{pmatrix}6 & -3 & -2 \\ 4 & -1 & -2 \\ 10 & -5 & -3\end{pmatrix}.$

Pour savoir s’il est diagonalisable ou non, vous allez suivre les étapes suivantes :

  1. Calculez le polynôme caractéristique de la matrice $A$,
  2. Déterminez les valeurs propres de $A$,
  3. Déterminez la dimension des sous-espaces propres de $A$ avec le théorème du rang,
  4. Effectuer la somme des dimensions de ces sous-espaces propres ;
    si elle est égale à la dimension de $\R^3$, l’endomorphisme $f$ sera diagonalisable, sinon, il ne le sera pas.

Calculez le polynôme caractéristique de $A$

Effectuez des opérations élémentaires sur les lignes et/ou les colonnes pour calculer le polynôme caractéristique de $A.$

$\begin{align*}
\det (xI-A) &= \begin{vmatrix}x-6 & 3 & 2 \\ -4 & x+1 & 2\\ -10 & 5 & x+3\end{vmatrix} \\
&= \begin{vmatrix}x-2 & -x+2 & 0 \\ -4 & x+1 & 2\\ -10 & 5 & x+3\end{vmatrix} \\
&= (x-2)\begin{vmatrix}1 & -1 & 0 \\ -4 & x+1 & 2\\ -10 & 5 & x+3\end{vmatrix} \\
&= (x-2)\begin{vmatrix}1 & 0 & 0 \\ -4 & x-3 & 2\\ -10 &-5 & x+3\end{vmatrix} \\
&= (x-2)\begin{vmatrix} x-3 & 2\\ -5 & x+3\end{vmatrix} \\
&= (x-2)(x^2-9+10)\\
&=(x-2)(x^2+1).
\end{align*}$

Trouvez les valeurs propres de $A$

Ce sont les solutions de l’équation $(x-2)(x^2+1)=0.$

Il s’ensuit, comme $x$ est un nombre réel, que $x^2+1\neq 0$.
L’équation $(x-2)(x^2+1)=0$ admet $x=2$ pour solution unique.

La matrice $A$ admet exactement une seule valeur propre $2.$

Calculez la dimension des sous-espaces propres de $A$

Etudiez le seul espace propre associé à la valeur propre $2$. Vous formez la matrice : $$A-2I=\begin{pmatrix}4 & -3 & -2 \\ 4 & -3 & -2 \\ 10 & -5 & -5\end{pmatrix}.$$

Vous cherchez à déterminer la dimension du noyau de $A-2I$.

Vous constatez que les lignes $L_1$ et $L_2$ sont identiques et que les lignes $L_1$ et $L_3$ ne sont pas proportionnelles, donc le rang de la matrice $A$ est égal à $2$.

Par le théorème du rang, la dimension du noyau de $A-2I$ est égale à $1$.

En bonus, vous en déduisez que le sous espace propre associé à la valeur propre $2$ est la droite engendrée par le vecteur $u$ qui admet $\begin{pmatrix}1 \\ 0 \\ 2\end{pmatrix}$ dans la base canonique.

Concluez sur la diagonalisabilité de l’endomorphisme $f$

La somme de la dimension de tous les espaces propres (en fait il n’y en a qu’un seul) est égale à 1. Or $\R^3$ est de dimension $3$.

Aussitôt, l’endomorphisme $f$ de $\R^3$ n’est pas diagonalisable.

Remarque : par d’autres arguments, vous pouvez savoir que cet endomorphisme $f$ n’est pas diagonalisable. S’il l’était, il admettrait une base de diagonalisation. Comme il n’a qu’une seule valeur propre $2$, on en déduit que $f$ serait égal à deux fois l’application identité de $\R^3$. Mais alors la matrice $A$ serait égale à $A=2I$, ce qui n’est pas le cas.

078. Un endomorphisme de $\R^3$ diagonalisable

Soit $T$ l’endomorphisme de $\R^3$ qui est représenté par la matrice suivante $A$ dans la base canonique : $$A =
\begin{pmatrix}
-9 & 4 & 4 \\
-8 & 3 & 4 \\
-16 & 8 & 7
\end{pmatrix}.$$

Déterminez les valeurs propres de $T$

Le polynôme caractéristique de $T$ est égal à celui de n’importe quelle matrice dans laquelle $T$ est représenté. Vous allez calculer le polynôme caractéristique de $T$, en calculant :

$\begin{align*}
\det(xI-A) &= \begin{vmatrix}
x+9 & -4 & -4 \\
8 & x-3 & -4 \\
16 & -8 & x-7
\end{vmatrix}\\
&= \begin{vmatrix}
x+9 & 0 & -4 \\
8 & x+1 & -4 \\
16 & -x-1 & x-7
\end{vmatrix}\\
&= (x+1)\begin{vmatrix}
x+9 & 0 & -4 \\
8 & 1 & -4 \\
16 & -1 & x-7
\end{vmatrix}\\
&= (x+1)\begin{vmatrix}
x+9 & 0 & -4 \\
24 & 0 & x-11 \\
16 & -1 & x-7
\end{vmatrix}\\
&= (x+1)\begin{vmatrix}
x+9 & -4 \\
24 & x-11 \\
\end{vmatrix}\\
&=(x+1)(x^2-2x-99+96)\\
&=(x+1)(x^2-2x-3)\\
&=(x+1)^2(x-3).\\
\end{align*}$

L’endomorphisme $T$ possède deux valeurs propres $-1$ et $3.$

Déterminez des vecteurs propres de $T$

Vecteurs propres associés à la valeur propre $-1$

Vous déterminez d’abord la dimension du noyau de l’endomorphisme $T+I.$ Il est représenté par la matrice $A+I$ dans la base canonique.

$A+I = \begin{pmatrix}
-8 & 4 & 4 \\
-8 & 4 & 4 \\
-16 & 8 &8
\end{pmatrix}$

Il est immédiat de voir que le rang de $A+I$ est égal à 1. Par le théorème du rang, le noyau de $A+I$ est de dimension 2.

Posons $V_1 = \begin{pmatrix}
1 \\
2 \\
0
\end{pmatrix}$ et $V_2 = \begin{pmatrix}
1 \\
0 \\
2
\end{pmatrix}.$

$V_1$ et $V_2$ sont deux vecteurs non colinéaires, appartenant au noyau de $A+I$. Il s’ensuit que le noyau de $A+I$ est l’espace engendré par la famille $(V_1,V_2).$

Vecteurs propres associés à la valeur propre $3$

D’après ce qui précède, vous savez que la dimension du noyau de l’endomorphisme $T-3I$ est égale à $1$. Vérifiez-le directement.

$A-3I = \begin{pmatrix}
-12 & 4 & 4 \\
-8 & 0 & 4 \\
-16 & 8 &4
\end{pmatrix}.$

Les deux premières lignes de $A-3I$ sont linéairement indépendantes.
La troisième dépend des deux autres : $L_3 = 2L_1-L_2$. Le rang de $A-3I$ est égal à 2, donc son noyau est de dimension 1 par le théorème du rang.

Posons $V_3 = \begin{pmatrix}
1 \\
1 \\
2
\end{pmatrix}.$

$V_3$ appartient au noyau de $A-3I$.

Formez une base de vecteurs propres

La famille $(V_1,V_2)$ est libre et $V_3$ ne peut appartenir à l’espace engendré par elle, parce que des vecteurs propres associés à des valeurs propres différentes sont toujours linéairement indépendants.

Par conséquent la famille $(V_1,V_2,V_3)$ est libre et c’est une base de $\R^3$. Posez $$P = (V_1 \vert V_2 \vert V_3) = \begin{pmatrix}
1 & 1 & 1 \\
2 & 0 & 1 \\
0 & 2 &2
\end{pmatrix}.$$

Notez $D$ la matrice diagonale $$D = \begin{pmatrix}
-1 & 0 & 0 \\
0 & -1 & 0 \\
0 & 0 &3
\end{pmatrix}.$$

La matrice $P$ est inversible et
$\begin{align*}
AP &= A(V_1 \vert V_2 \vert V_3)\\
&=(AV_1 \vert AV_2 \vert AV_3)\\
&=(-V_1 \vert -V_2 \vert 3V_3)\\
&=PD
\end{align*}.$

Par invisibilité de $P$, vous avez $P^{-1}AP = D.$

L’endomorphisme $T$ est diagonalisable et admet la base $(V_1,V_2,V_3)$ pour base de diagonalisation.