Processus empirique

Cet article est une ébauche concernant les probabilités et la statistique et les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Processus empirique
Formule
F n ( x ) = 1 n i = 1 n I ( , x ] ( X i ) {\displaystyle F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}I_{(-\infty ,x]}(X_{i})} Voir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

En probabilités, le processus empirique est un processus stochastique qui s'exprime en fonction de la proportion d'objets appartenant à un certain ensemble. Ce processus fait intervenir les déviations d'une statistique autour de sa moyenne et sera donc utile dans l'étude de la plupart d'entre elles.

Définition

Si X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} sont des variables aléatoires réelles indépendantes et identiquement distribuées (i.i.d.) ayant pour fonction de répartition F {\displaystyle F} alors on définit le processus empirique réel α n X {\displaystyle \alpha _{n}^{X}} par

α n X ( t ) = n ( F n ( t ) F ( t ) ) = 1 n i = 1 n ( 1 { X i t } F ( t ) ) {\displaystyle \alpha _{n}^{X}(t)={\sqrt {n}}(F_{n}(t)-F(t))={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}(\mathbf {1} _{\{X_{i}\leq t\}}-F(t))}

F n ( t ) = 1 n i = 1 n 1 { X i t } {\displaystyle F_{n}(t)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}} est la fonction de répartition empirique associée à l'échantillon X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} . Il est possible de généraliser cette définition au cas où le processus empirique serait indexé par une classe F {\displaystyle {\mathcal {F}}} de fonctions mesurables définies sur un espace X {\displaystyle {\mathcal {X}}} et à valeurs réelles. Si les X i {\displaystyle X_{i}} sont i.i.d à valeurs dans un espace X {\displaystyle {\mathcal {X}}} et f : X R {\displaystyle f:{\mathcal {X}}\to \mathbb {R} } est une fonction mesurable, alors on définit α n X {\displaystyle \alpha _{n}^{X}} par :

f F , α n X ( f ) = 1 n i = 1 n ( f ( X i ) E [ f ( X i ) ] . {\displaystyle \forall f\in {\mathcal {F}},\quad \alpha _{n}^{X}(f)={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}(f(X_{i})-\mathbb {E} [f(X_{i})].}

On retombe en particulier sur la première définition quand on prend la classe des fonctions indicatrices F = { x 1 { x t } : t R } {\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}} . Il est également possible de définir le processus empirique indexé par des classes de fonctions via la mesure empirique P n ( f ) = 1 n i = 1 f ( X i ) {\displaystyle P_{n}(f)={\frac {1}{n}}\sum _{i=1}f(X_{i})} et la mesure des X {\displaystyle X} , P ( f ) = E [ f ( X ) ] {\displaystyle P(f)=\mathbb {E} [f(X)]}  :

n N , α n X = n ( P n P ) . {\displaystyle \forall n\in \mathbb {N} ,\quad \alpha _{n}^{X}={\sqrt {n}}(P_{n}-P).}

Quand le contexte est clair, on peut noter le processus empirique α n X {\displaystyle \alpha _{n}^{X}} par α n {\displaystyle \alpha _{n}} .

Convergence

D'après le théorème de Donsker, le processus empirique converge vers un pont brownien dans l'espace de Skorokhod, c'est-à-dire un processus ( G t ) t [ 0 , 1 ] {\displaystyle (G_{t})_{t\in [0,1]}} gaussien centré dont la fonction de covariance est donnée par

0 s < t 1 , Cov ( G t , G s ) = E [ G t G s ] = s ( 1 t ) . {\displaystyle \forall 0\leq s<t\leq 1,\quad {\text{Cov}}(G_{t},G_{s})=\mathbb {E} [G_{t}G_{s}]=s(1-t).}

Pour généraliser ce résultat dans le cas où l'on travaille avec le processus indexé par une classe de fonctions, on appelle classe de Donsker toute classe de fonctions F L 2 ( X , A , P ) {\displaystyle {\mathcal {F}}\subset L^{2}({\mathcal {X}},{\mathcal {A}},P)} de fonctions mesurables à valeurs réelles vérifiant

α n L n + G  dans  ( F ) {\displaystyle \alpha _{n}{\underset {n\to +\infty }{\overset {\mathcal {L}}{\longrightarrow }}}\mathbb {G} \qquad {\text{ dans }}\ell ^{\infty }({\mathcal {F}})}

G {\displaystyle \mathbb {G} } est un processus de P {\displaystyle P} -pont brownien, c'est-à-dire un processus gaussien centré dont la covariance vérifie ici

f , g F , , E [ G f G g ] = E [ f ( X ) g ( X ) ] E [ f ( X ) ] E [ g ( X ) ] . {\displaystyle \forall f,g\in {\mathcal {F}},\quad ,\mathbb {E} [\mathbb {G} f\mathbb {G} g]=\mathbb {E} [f(X)g(X)]-\mathbb {E} [f(X)]\mathbb {E} [g(X)].}

Le théorème de Donsker revient à dire que la classe des fonctions indicatrices est une classe de Donsker.

Approximation forte

Articles détaillés : Approximation forte et Théorème d'approximation de Komlós-Major-Tusnády.

L'approximation forte consiste à créer un espace convenable sur lequel des objets théorique comme la somme partielle de variables aléatoires i.i.d. ou le processus empirique sera proche de sa limite. Il existe plusieurs résultats concernant le processus empirique. Brillinger montre en 1969[1] qu'on peut créer un espace sur lequel le processus empirique sera proche presque-sûrement du pont brownien avec une borne de O ( n 1 / 4 ( log n ) 1 / 2 ( log log n ) 1 / 4 ) {\displaystyle O(n^{-1/4}(\log n)^{1/2}(\log \log n)^{1/4})} .

Quelques années plus tard émerge la meilleure borne proposée par Komlós, Tusnády et Major[2],[3]. Le théorème d'approximation KMT approche le processus empirique du pont brownien avec une borne en O ( n 1 / 2 log n ) {\displaystyle O(n^{-1/2}\log n)} .

Il existe d'autres résultats où on approche le processus empirique par un processus de Kiefer avec une borne en O ( n 1 / 3 log n ) 2 / 3 ) {\displaystyle O(n^{1/3}\log n)^{2/3})} qui fut amélioré par le théorème d'approximation KMT avec une borne en O ( log 2 n ) {\displaystyle O(\log ^{2}n)} . Berthet et Mason montrèrent en 2006 qu'il est également possible d'approcher le processus empirique indexé par une classe de fonctions par le pont brownien indexé par cette même classe si cette dernière vérifie certaines conditions d'entropie[4].

Transformation du processus empirique

Soient U 1 , , U n {\displaystyle U_{1},\dots ,U_{n}} des variables i.i.d. de loi uniforme sur [ 0 , 1 ] {\displaystyle [0,1]} et X {\displaystyle X} une variable de fonction de répartition F {\displaystyle F} . Alors

n N , α n U = L α n X F ( U ) , {\displaystyle \forall n\in \mathbb {N} ^{*},\quad \alpha _{n}^{U}\quad {\overset {\mathcal {L}}{=}}\quad \alpha _{n}^{X}\circ F^{\leftarrow }(U),} [5]

F {\displaystyle F^{\leftarrow }} est la fonction de quantile (ou fonction de répartition inverse généralisée) définie par

u ] 0 , 1 [ , F ( u ) = inf { x : F ( x ) > u } . {\displaystyle \forall u\in ]0,1[,\quad F^{\leftarrow }(u)=\inf\{x:F(x)>u\}.}

De plus, si F {\displaystyle F} est continue alors

n N , α n X = L α n U F ( X ) . {\displaystyle \forall n\in \mathbb {N} ^{*},\quad \alpha _{n}^{X}\quad {\overset {\mathcal {L}}{=}}\quad \alpha _{n}^{U}\circ F(X).} [6]

Références

  1. (en) D. L. Brillinger, « An asymptotic representation of the sample distribution function », Bulletin of the American Mathematical Society, vol. 75,‎ , p. 545-547 (lire en ligne)
  2. (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV’-s, and the sample DF. I », Z. Wahrscheinlichkeitstheorie verw, no Gebiete 32,‎ , p. 211-226 (lire en ligne)
  3. (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV'-s and the sample DF. II », Z. Wahrscheinlichkeitstheorie verw, no Gebiete 34,‎ , p. 33-58 (lire en ligne)
  4. (en) Philippe Berthet et David Mason, « Revisiting two strong approximation results of Dudley and Philipp », IMS Lecture Notes–Monograph Series High Dimensional Probability, vol. 51,‎ , p. 155-172 (lire en ligne)
  5. Barbe, Philippe., Probabilité, Les Ulis, EDP Sciences, , 239 p. (ISBN 978-2-86883-931-2 et 2868839312, OCLC 156827977, lire en ligne)
  6. « Cours de statistique asymptotique »
  • icône décorative Portail des mathématiques
  • icône décorative Portail des probabilités et de la statistique