Analyse de variance (ANOVA). Analyse multivariée de la variance

Les techniques évoquées ci-dessus pour tester des hypothèses statistiques sur l’importance des différences entre deux moyennes ont une application pratique limitée. Cela est dû au fait que afin d'identifier l'effet de toutes les conditions et facteurs possibles sur un caractère efficace, les expériences sur le terrain et en laboratoire sont généralement effectuées en utilisant non pas deux, mais un plus grand nombre d'échantillons (1 220 ou plus). ).

Les chercheurs comparent souvent les moyennes de plusieurs échantillons combinés en un seul complexe. Par exemple, lors de l'étude de l'effet de différents types et doses d'engrais sur les rendements des cultures, les expériences sont répétées dans différentes versions. Dans ces cas, les comparaisons par paires deviennent fastidieuses et l'analyse statistique de l'ensemble du complexe nécessite l'utilisation d'une méthode spéciale. Cette méthode, développée en statistique mathématique, est appelée analyse de variance. Il a été utilisé pour la première fois par le statisticien anglais R. Fisher lors du traitement des résultats d'expériences agronomiques (1938).

Analyse de variance est une méthode permettant d'évaluer statistiquement la fiabilité de la manifestation de la dépendance d'une caractéristique efficace à un ou plusieurs facteurs. À l'aide de la méthode d'analyse de variance, des hypothèses statistiques sont testées concernant les moyennes de plusieurs populations générales ayant une distribution normale.

L'analyse de variance est l'une des principales méthodes d'évaluation statistique des résultats expérimentaux. Il est également de plus en plus utilisé dans l’analyse des informations économiques. L'analyse de variance permet de déterminer dans quelle mesure les indicateurs d'échantillon de la relation entre les caractéristiques résultantes et factorielles sont suffisants pour étendre les données obtenues à partir de l'échantillon à la population générale. L’avantage de cette méthode est qu’elle donne des conclusions assez fiables à partir de petits échantillons.

En étudiant la variation d'une caractéristique effective sous l'influence d'un ou plusieurs facteurs à l'aide de l'analyse de variance, on peut obtenir, en plus des estimations générales de l'importance des dépendances, également une évaluation des différences d'ampleur des moyennes formées à différents niveaux de facteurs et l'importance de l'interaction des facteurs. L'analyse de variance est utilisée pour étudier les dépendances des caractéristiques quantitatives et qualitatives, ainsi que leur combinaison.

L'essence de cette méthode est étude statistique la probabilité de l'influence d'un ou plusieurs facteurs, ainsi que leur interaction sur la caractéristique résultante. Selon cela, trois problèmes principaux sont résolus à l’aide de l’analyse de variance : 1) note globale l'importance des différences entre les moyennes des groupes ; 2) évaluer la probabilité d'interaction entre les facteurs ; 3) évaluation de l'importance des différences entre paires de moyennes. Le plus souvent, les chercheurs doivent résoudre de tels problèmes lorsqu'ils mènent des expériences sur le terrain et zootechniques, lorsque l'influence de plusieurs facteurs sur un trait efficace est étudiée.

Le schéma principal de l'analyse de la variance comprend l'établissement des principales sources de variation de la caractéristique effective et la détermination du volume de variation (somme des écarts au carré) en fonction des sources de sa formation ; déterminer le nombre de degrés de liberté correspondant aux composantes de la variation totale ; calculer les dispersions comme le rapport des volumes de variation correspondants à leur nombre de degrés de liberté ; analyse de la relation entre les écarts ; évaluer la fiabilité de la différence entre les moyennes et tirer des conclusions.

Le schéma spécifié est enregistré comme si modèles simples analyse de variance, lorsque les données sont regroupées selon une caractéristique, et dans les modèles complexes, lorsque les données sont regroupées selon deux caractéristiques ou plus. Cependant, avec l'augmentation du nombre de caractéristiques de groupe, le processus de décomposition de la variation totale selon les sources de sa formation devient plus compliqué.

Selon diagramme schématique L'analyse de variance peut être représentée sous la forme de cinq étapes séquentielles :

1) définition et expansion de la variation ;

2) détermination du nombre de degrés de liberté de variation ;

3) calcul des écarts et de leurs ratios ;

4) analyse des écarts et de leurs relations ;

5) évaluer l'importance de la différence entre les moyennes et formuler des conclusions pour tester l'hypothèse nulle.

La partie la plus laborieuse de l'analyse de la variance est la première étape : déterminer et décomposer la variation en fonction des sources de sa formation. L’ordre de décomposition du volume total de variation a été discuté en détail au chapitre 5.

La base pour résoudre les problèmes d'analyse de la variance est la loi d'expansion (addition) de variation, selon laquelle la variation totale (fluctuations) de l'attribut résultant est divisée en deux : la variation causée par l'action du ou des facteurs étudiés. , et la variation causée par l'action de causes aléatoires, c'est-à-dire

Supposons que la population étudiée soit divisée selon les caractéristiques factorielles en plusieurs groupes, chacun étant caractérisé par ses propres moyenne signe efficace. Parallèlement, la variation de ces valeurs peut s'expliquer par deux types de raisons : celles qui agissent systématiquement sur le signe effectif et peuvent être ajustées au cours de l'expérimentation, et celles qui ne peuvent pas être ajustées. Il est évident que la variation intergroupe (factorielle ou systématique) dépend principalement de l'action du facteur étudié, et la variation intragroupe (résiduelle ou aléatoire) dépend principalement de l'action facteurs aléatoires.

Pour évaluer la fiabilité des différences entre les moyennes des groupes, il est nécessaire de déterminer les variations intergroupes et intragroupes. Si la variation intergroupe (factorielle) dépasse de manière significative la variation intragroupe (résiduelle), alors le facteur a influencé la caractéristique résultante, modifiant de manière significative les valeurs des moyennes de groupe. Mais la question se pose de savoir quelle est la relation entre les variations intergroupes et intragroupes qui peut être considérée comme suffisante pour conclure à la fiabilité (signification) des différences entre les moyennes des groupes.

Pour évaluer l'importance des différences entre les moyennes et formuler des conclusions pour tester l'hypothèse nulle (H0:x1 = x2 =... = xn) dans l'analyse de variance, une sorte de norme est utilisée - le critère G, la loi de distribution de qui a été établi par R. Fisher. Ce critère est le rapport de deux variances : factorielle, générée par l'action du facteur étudié, et résiduelle, due à l'action de causes aléatoires :

Relation de dispersion Γ = £>u : Le statisticien américain Snedecor a proposé de désigner £*2 par la lettre G en l'honneur de l'inventeur de l'analyse de variance, R. Fisher.

Les variances °2 io2 sont des estimations de la variance de la population. Si les échantillons avec des variances °2 °2 sont issus de la même population générale, où la variation des valeurs était aléatoire, alors l'écart des valeurs °2 °2 est également aléatoire.

Si une expérience teste simultanément l'influence de plusieurs facteurs (A, B, C, etc.) sur un trait efficace, alors la variance due à l'action de chacun d'eux doit être comparable à °e.gP, c'est

Si la valeur du facteur de dispersion est significativement supérieure au résidu, alors le facteur a influencé de manière significative l'attribut résultant et vice versa.

Dans les expériences multifactorielles, en plus de la variation due à l'action de chaque facteur, il existe presque toujours une variation due à l'interaction des facteurs ($ав : ^лс ^вс $ліс). L'essence de l'interaction est que l'effet d'un facteur change de manière significative à différents niveaux du second (par exemple, l'efficacité de la qualité du sol à différentes doses d'engrais).

L'interaction des facteurs doit également être évaluée en comparant les variances correspondantes 3 ^v.gr :

Lors du calcul de la valeur réelle du critère B, la plus grande des variances est prise au numérateur, donc B > 1. Évidemment, plus le critère B est grand, plus les différences entre les variances sont significatives. Si B = 1, alors la question de l'évaluation de l'importance des différences de variances est supprimée.

Pour déterminer les limites des fluctuations aléatoires du rapport des dispersions, G. Fischer a élaboré des tableaux de distribution B spéciaux (Annexes 4 et 5). Le critère serait fonctionnellement lié à la probabilité et dépend du nombre de degrés de liberté de variation k1 et k2 des deux variances comparées. Généralement, deux tableaux sont utilisés pour tirer des conclusions sur la valeur extrêmement élevée du critère pour les niveaux de signification de 0,05 et 0,01. Un niveau de signification de 0,05 (ou 5 %) signifie que seulement dans 5 cas sur 100 le critère B peut prendre une valeur égale ou supérieure à celle indiquée dans le tableau. La réduction du niveau de signification de 0,05 à 0,01 entraîne une augmentation de la valeur du critère entre deux variances due à l'effet de raisons uniquement aléatoires.

La valeur du critère dépend aussi directement du nombre de degrés de liberté des deux dispersions comparées. Si le nombre de degrés de liberté tend vers l'infini (k-me), alors le rapport B pour deux dispersions tend vers l'unité.

La valeur tabulée du critère B montre la valeur aléatoire possible du rapport de deux variances à un niveau de signification donné et le nombre de degrés de liberté correspondant pour chacune des variances comparées. Les tableaux indiqués montrent la valeur de B pour des échantillons issus de la même population générale, où les raisons des changements de valeurs sont uniquement aléatoires.

La valeur de Γ se retrouve dans les tableaux (Annexes 4 et 5) à l'intersection de la colonne correspondante (le nombre de degrés de liberté pour une plus grande dispersion - k1) et de la ligne (le nombre de degrés de liberté pour moins de dispersion - k2 ). Ainsi, si la plus grande variance (numérateur Г) est k1 = 4 et la plus petite variance (dénominateur Г) est k2 = 9, alors Г au niveau de signification а = 0,05 sera de 3,63 (Annexe 4). Ainsi, en raison de causes aléatoires, puisque les échantillons sont petits, la variance d’un échantillon peut, à un niveau de signification de 5 %, dépasser de 3,63 fois la variance du deuxième échantillon. Lorsque le niveau de signification est réduit de 0,05 à 0,01 valeur du tableau le critère G, comme indiqué ci-dessus, augmentera. Ainsi, avec les mêmes degrés de liberté k1 = 4 et k2 = 9 et a = 0,01, la valeur tabulée du critère G sera de 6,99 (Annexe 5).

Considérons la procédure permettant de déterminer le nombre de degrés de liberté dans l'analyse de la variance. Le nombre de degrés de liberté, qui correspond à la somme totale des écarts au carré, est décomposé en composantes correspondantes de la même manière que la décomposition des sommes des écarts au carré (^total = No^gr + ]¥vhr), c'est-à-dire le le nombre total de degrés de liberté (k") est décomposé en nombre de degrés de liberté pour les variations intergroupes (k1) et intragroupes (k2).

Ainsi, si un échantillon de population composé de N observations divisées par T groupes (nombre d'options expérimentales) et P. sous-groupes (nombre de répétitions), alors le nombre de degrés de liberté k sera donc :

a) pour la somme totale des écarts au carré (s7zag)

b) pour la somme intergroupe des écarts au carré ^m.gP)

c) pour la somme intragroupe des écarts carrés V v.gR)

Selon la règle d'ajout de variantes :

Par exemple, si dans une expérience quatre variantes de l'expérience ont été formées (t = 4) en cinq répétitions chacune (n = 5), et total observations N = = T o p = 4 * 5 = 20, alors le nombre de degrés de liberté est respectivement égal à :

Connaissant la somme des écarts carrés et le nombre de degrés de liberté, nous pouvons déterminer des estimations non biaisées (corrigées) pour trois variances :

L’hypothèse nulle H0 est testée à l’aide du critère B de la même manière qu’à l’aide du test t de Student. Pour prendre une décision sur la vérification de H0, il est nécessaire de calculer la valeur réelle du critère et de la comparer avec la valeur tabulée Ba pour le niveau de signification accepté a et le nombre de degrés de liberté k1 et k2 pour deux dispersions.

Si Bfaq > Ba, alors, conformément au niveau de signification accepté, nous pouvons conclure que les différences dans les variances des échantillons ne sont pas déterminées uniquement par des facteurs aléatoires ; ils sont significatifs. Dans ce cas, l’hypothèse nulle est rejetée et il y a lieu d’affirmer que le facteur influence de manière significative la caractéristique résultante. Si< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

L'utilisation d'un modèle d'analyse de variance particulier dépend à la fois du nombre de facteurs étudiés et de la méthode d'échantillonnage.

c En fonction du nombre de facteurs qui déterminent la variation de la caractéristique résultante, les échantillons peuvent être constitués en fonction d'un, deux ou plusieurs facteurs. Selon cela, l’analyse de la variance est divisée en analyse monofactorielle et multifactorielle. Sinon, on l'appelle également complexe de dispersion monofactoriel et multifactoriel.

Le schéma de décomposition de la variation totale dépend de la formation des groupes. Elle peut être aléatoire (les observations d'un groupe ne sont pas liées aux observations du deuxième groupe) et non aléatoire (les observations de deux échantillons sont liées entre elles par les conditions expérimentales communes). Des échantillons indépendants et dépendants sont obtenus en conséquence. Des échantillons indépendants peuvent être formés avec des nombres égaux et impairs. La formation d'échantillons dépendants suppose leur taille égale.

Si les groupes sont formés dans un ordre aléatoire, alors le volume total de variation du trait résultant comprend, outre la variation factorielle (intergroupe) et résiduelle, la variation des répétitions, c'est-à-dire

En pratique, dans la plupart des cas, il est nécessaire de considérer des échantillons dépendants lorsque les conditions des groupes et des sous-groupes sont égalisées. Ainsi, lors d'une expérimentation sur le terrain, l'ensemble du site est divisé en blocs, avec les conditions les plus variées. Dans ce cas, chaque variante de l'expérience a des chances égales d'être représentée dans tous les blocs, égalisant ainsi les conditions pour toutes les variantes testées de l'expérience. Cette méthode de construction d’une expérience est appelée méthode des blocs aléatoires. Les expériences sur les animaux sont réalisées de la même manière.

Lors du traitement des données socio-économiques à l'aide de la méthode d'analyse de la variance, il est nécessaire de garder à l'esprit qu'en raison du grand nombre de facteurs et de leurs interrelations, il est difficile, même avec le nivellement le plus minutieux des conditions, d'établir le degré d'objectivité influence de chaque facteur individuel sur la caractéristique résultante. Par conséquent, le niveau de variation résiduelle est déterminé non seulement par des causes aléatoires, mais également par des facteurs importants qui n'ont pas été pris en compte lors de la construction du modèle d'analyse de la variance. De ce fait, la variance résiduelle comme base de comparaison devient parfois inadaptée à son objectif, sa valeur est clairement surestimée et ne peut servir de critère pour l'importance de l'influence des facteurs. À cet égard, lors de la construction de modèles d'analyse de la variance, il devient problème réel sélection des facteurs les plus importants et égalisation des conditions pour la manifestation de l'action de chacun d'eux. En plus. l'utilisation de l'analyse de variance suppose une distribution normale ou proche de la normale des populations statistiques étudiées. Si cette condition n’est pas remplie, les estimations obtenues lors de l’analyse de variance seront alors exagérées.

Les résultats des expériences et des tests peuvent dépendre de certains facteurs influençant la variabilité des valeurs moyennes d'une variable aléatoire. Les valeurs des facteurs sont appelées niveaux de facteurs et la grandeur est appelée la caractéristique résultante. Par exemple, la quantité de travail effectuée sur un chantier de construction peut dépendre de l'équipe de travail. Dans ce cas, le nombre d'équipages est le niveau du facteur et le volume de travail par équipe est l'attribut effectif.

Méthode d’analyse de variance, ou ANOVA(Analyse de Variance - analyse de variance), sert à étudier la signification statistique de la différence entre les moyennes de trois échantillons ou plus (niveaux de facteurs). Pour comparer les moyennes de deux échantillons, utilisez t-critère

La procédure de comparaison des moyennes est appelée analyse de variance, puisque lors de l'étude de la signification statistique de la différence entre les moyennes de plusieurs groupes d'observations, une analyse des variances d'échantillon est effectuée. Le concept fondamental d'analyse de variance a été proposé par Fisher.

L'essence de la méthode est de séparer écart total en deux parties, dont l'une est due à une erreur aléatoire (c'est-à-dire à la variabilité au sein du groupe) et la seconde est due à des différences de moyennes. La dernière composante de la variance est ensuite utilisée pour analyser la signification statistique de la différence entre les moyennes. Si cette différence est significative, l’hypothèse nulle est rejetée et l’hypothèse alternative selon laquelle il existe une différence entre les moyennes est acceptée.

Variables dont les valeurs sont déterminées par des mesures lors d'une expérience (par exemple, l'efficacité économique, rendement, résultat du test) sont appelées variables dépendantes ou caractéristiques. Les variables qui peuvent être contrôlées dans une expérience (par exemple, le niveau de gestion, le type de sol, les méthodes d'enseignement) sont appelées facteurs ou variables indépendantes.

Dans l'analyse classique de la variance, on suppose que les valeurs étudiées ont une distribution normale avec une variance constante et des valeurs moyennes, qui peuvent différer selon les différentes populations d'échantillons. Le rapport entre la variance des moyennes de groupe et la variance résiduelle est utilisé comme critère pour tester les hypothèses nulles. Cependant, il a été démontré que l'analyse de variance est également valable pour les variables aléatoires non gaussiennes et qu'avec une taille d'échantillon de n > 4 pour chaque niveau de facteur, l'erreur n'est pas élevée. Si une grande précision des inférences est requise et que la distribution est inconnue, des tests non paramétriques doivent alors être utilisés, par exemple en utilisant une analyse de variance par rang.

ANOVA unidirectionnelle

Qu'il soit réalisé m groupes de mesures de valeurs de variables aléatoires Ouià différents niveaux de valeur d'un certain facteur, et un 1 , un 2 , un m- espérance mathématique de la caractéristique effective aux niveaux des facteurs UN (1) , UN (2) , UN(m) ( je=1, 2, m) respectivement.


L'hypothèse sur l'indépendance de la caractéristique effective par rapport au facteur revient à tester l'hypothèse nulle sur l'égalité des attentes mathématiques du groupe

H 0 : une 1 = une 2 = une m (6.12)

Les tests d’hypothèses sont possibles si les exigences suivantes sont remplies pour chaque niveau de facteur :

1) les observations sont indépendantes et réalisées dans les mêmes conditions ;

2) mesurable valeur aléatoire a une loi de distribution normale avec une dispersion générale constante pour différents niveaux du facteur σ 2. Autrement dit, l'hypothèse est vraie

H 0 : σ 1 2 = σ 2 2 = σ m 2.

Pour tester l'hypothèse selon laquelle les variances de trois distributions normales ou plus sont égales, le test de Bartlett est utilisé.

Si l'hypothèse H 0 : σ 1 2 = σ 2 2 = σ m 2 est confirmée, alors nous commençons à tester l'hypothèse sur l'égalité des attentes mathématiques du groupe H 0 : une 1 = une 2 = une m, c'est-à-dire à l'analyse de la variance elle-même. La base de l'analyse de la variance est la position selon laquelle la variabilité du trait résultant est causée à la fois par des changements dans les niveaux du facteur A et par la variabilité des valeurs de facteurs aléatoires non contrôlés. Les facteurs aléatoires sont appelés résiduels.

Il peut être prouvé que la variance totale de l'échantillon peut être représentée comme la somme de la variance des moyennes du groupe et de la moyenne des variances du groupe.

, Où

Variance totale de l'échantillon ;

Variance des moyennes de groupe () calculée pour chaque niveau de facteur ;

Moyenne des variances de groupe () calculée pour chaque niveau de facteur. associée à l'impact sur Oui facteurs résiduels (aléatoires).

En passant du développement de la variance générale aux valeurs d'échantillon, nous obtenons

, (6.13)

Représente la somme pondérée des écarts carrés des moyennes de l'échantillon pour chaque niveau. A(je)à partir de la moyenne générale de l'échantillon,

La valeur moyenne des écarts carrés au sein des niveaux.

Les variables aléatoires , , ont respectivement les valeurs suivantes pour les degrés de liberté : n - 1, m - 1, n-m. Ici n- nombre total de valeurs d'échantillon, m- nombre de niveaux de facteurs.

En statistique mathématique, il est prouvé que si l'hypothèse nulle sur l'égalité des moyennes (10.8) est vraie, alors la quantité

Il a F-distribution avec le nombre de degrés de liberté k = m- 1 et je = n-m, c'est

(6.14)

Si l’hypothèse nulle est satisfaite, la variance intra-groupe coïncidera pratiquement avec la variance totale calculée sans tenir compte de l’appartenance au groupe. En analyse de variance, en règle générale, le numérateur est supérieur au dénominateur. Dans le cas contraire, on considère que les observations ne confirment pas l'influence du facteur sur la caractéristique résultante et aucune analyse plus approfondie n'est effectuée. Les variances au sein du groupe qui en résultent peuvent être comparées en utilisant F-critère qui vérifie si le rapport des variances est significativement supérieur à 1.

À cet égard, pour tester l’hypothèse (6.12) en utilisant F-le critère analyse la région critique du côté droit .

Si la valeur calculée F se situe dans l'intervalle spécifié, alors l'hypothèse nulle est rejetée et l'influence du facteur est considérée comme établie UN au signe effectif Oui.

Donnons un exemple de calcul de sommes de carrés et de variances d'échantillon. Considérez l'ensemble de données présenté dans le tableau 6.2. DANS dans cet exemple il est nécessaire de déterminer s’il existe une différence significative dans la performance des équipes.

Tableau 6.2. Exemple de calcul de sommes de carrés

Analyse de variance - Il s'agit d'une méthode statistique conçue pour évaluer l'influence de divers facteurs sur le résultat d'une expérience, ainsi que pour la planification ultérieure d'une expérience similaire. Cette méthode permet de comparer plusieurs (plus de deux) échantillons sur une caractéristique mesurée sur une échelle métrique. L'abréviation généralement acceptée pour analyse de variance est ANOVA (de l'anglais ANalysis Of VAriance).

Le créateur de l'analyse de variance est l'éminent chercheur anglais Ronald Fisher, qui a jeté les bases des statistiques modernes.

Objectif principal cette méthode est l’étude de l’importance des différences entre les moyennes. Il peut paraître étrange que la procédure de comparaison des moyennes soit appelée analyse de variance. En fait, lorsque nous examinons la signification statistique d’une différence entre les moyennes de deux (ou plusieurs) groupes, nous comparons (c’est-à-dire analysons) les variances des échantillons. Le terme le plus naturel serait peut-être analyse de somme des carrés ou analyse de variation, mais en raison de la tradition, le terme analyse de variance est utilisé.

Les variables dont les valeurs sont déterminées par des mesures lors d'une expérience (par exemple, un résultat de test) sont appelées dépendant variables. Les variables qui peuvent être contrôlées dans une expérience (telles que les méthodes d'enseignement ou d'autres critères permettant de diviser les observations en groupes ou de les classer) sont appelées facteurs ou variables indépendantes.

En fonction du nombre de facteurs dont l'influence est étudiée, une distinction est faite entre l'analyse de variance monofactorielle et multifactorielle. Nous considérerons une analyse de variance unidirectionnelle.

Hypothèses de base de l’analyse de variance :

  • 1) la distribution de la variable dépendante pour chaque groupe de facteurs correspond à la loi normale (la violation de cette hypothèse, comme de nombreuses études l'ont montré, n'a pas d'impact significatif sur les résultats de l'analyse de variance) ;
  • 2) les variances des échantillons correspondant aux différentes gradations du facteur sont égales entre elles (cette hypothèse est essentielle pour les résultats de l'analyse de variance si les échantillons comparés diffèrent en taille) ;
  • 3) les échantillons correspondant aux gradations factorielles doivent être indépendants (le respect de cette hypothèse est obligatoire dans tous les cas). Les échantillons indépendants sont des échantillons dans lesquels les sujets de l'étude ont été recrutés indépendamment les uns des autres, c'est-à-dire que la probabilité de sélectionner un sujet dans un échantillon ne dépend de la sélection d'aucun des sujets dans l'autre échantillon. Au contraire, les échantillons dépendants se caractérisent par le fait que chaque sujet d'un échantillon est attribué selon certain critère un sujet d'un autre échantillon (un exemple typique d'échantillons dépendants est la mesure d'une propriété sur le même échantillon avant et après la procédure. Dans ce cas, les échantillons sont dépendants, puisqu'ils sont constitués des mêmes sujets. Un autre exemple d'échantillons dépendants : maris - un échantillon, leurs femmes sont un autre échantillon).

Algorithme pour effectuer une analyse de variance :

  • 1. Nous émettons une hypothèse H 0- il n'y a aucune influence du facteur de regroupement sur le résultat.
  • 2. Trouver les variances intergroupes (factorielles) et intragroupes (résiduelles) (le ftt Et Document).
  • 3. Calculez la valeur observée du critère de Fisher-Snedecor :

4. D'après le tableau des points critiques de la distribution Fischer - Snedecor ou en utilisant fonction standard Recherche MS Excel "ERASPOBR"

Où: UN- niveau de signification spécifié, k x Et à 2- nombre de degrés de liberté du facteur et dispersion résiduelle, respectivement.

5. Si F Ha6ji> F Kp, alors l'hypothèse I 0 est rejetée. Cela signifie qu'il y a une influence du facteur de regroupement sur le résultat.

Si FHa6jlF Kp, alors l'hypothèse n°0 est acceptée. Cela signifie qu'il n'y a aucune influence du facteur de regroupement sur le résultat.

Ainsi, l'analyse de la variance vise à déterminer si un certain facteur a un effet significatif F, qui a R. les niveaux: F X, F 2 ,..., Fp, à la valeur étudiée.

Tous les êtres humains aspirent par nature à la connaissance. (Aristote. Métaphysique)

Analyse de variance

Aperçu introductif

Dans cette section, nous passerons en revue les méthodes de base, les hypothèses et la terminologie de l'ANOVA.

A noter que dans la littérature anglophone, l’analyse de variance est habituellement appelée analyse de variation. Par conséquent, par souci de concision, nous utiliserons parfois ci-dessous le terme ANOVA (Un analyse o F Virginie riation) pour l'ANOVA ordinaire et le terme MANOVA pour l’analyse multivariée de la variance. Dans cette section, nous passerons en revue séquentiellement les principales idées de l'analyse de la variance ( ANOVA), analyse de covariance ( ANCOVA), analyse de variance multivariée ( MANOVA) et analyse multivariée de covariance ( MANCOVA). Après une brève discussion sur les mérites de l’analyse de contraste et des tests post hoc, examinons les hypothèses sur lesquelles sont basées les méthodes ANOVA. Vers la fin de cette section, les avantages d'une approche multivariée pour l'analyse de mesures répétées par rapport à l'approche univariée traditionnelle sont expliqués.

Idées clés

Objectif de l’analyse de variance. L’objectif principal de l’analyse de variance est d’examiner l’importance des différences entre les moyennes. Chapitre (Chapitre 8) fournit une brève introduction à l’étude de la signification statistique. Si vous comparez simplement les moyennes de deux échantillons, l’analyse de variance donnera le même résultat qu’une analyse ordinaire. t- test pour des échantillons indépendants (si deux groupes indépendants d'objets ou d'observations sont comparés) ou t- critère pour les échantillons dépendants (si deux variables sont comparées sur le même ensemble d’objets ou d’observations). Si vous n'êtes pas familier avec ces critères, nous vous recommandons de vous référer au chapitre d'introduction aperçu (Chapitre 9).

D'où provient le nom Analyse de variance? Il peut paraître étrange que la procédure de comparaison des moyennes soit appelée analyse de variance. En réalité, cela est dû au fait que lorsque nous examinons la signification statistique des différences entre les moyennes, nous analysons en réalité les variances.

Partitionner la somme des carrés

Pour une taille d'échantillon n, la variance de l'échantillon est calculée comme la somme des carrés des écarts par rapport à la moyenne de l'échantillon divisée par n-1 (taille de l'échantillon moins un). Ainsi, pour une taille d’échantillon n fixe, la variance est fonction de la somme des carrés (écarts), notée, par souci de concision, SS(de l'anglais Somme des carrés - Somme des carrés). La base de l’analyse de la variance est la séparation (ou le partitionnement) de la variance en parties. Considérez l'ensemble de données suivant :

Les moyennes des deux groupes sont significativement différentes (respectivement 2 et 6). Somme des écarts au carré à l'intérieur chaque groupe est égal à 2. En les additionnant, nous obtenons 4. Si nous répétons maintenant ces calculs à l'exclusion l'appartenance à un groupe, c'est-à-dire si l'on calcule SS sur la base de la moyenne globale des deux échantillons, nous obtenons 28. En d'autres termes, la variance (somme des carrés) basée sur la variabilité intra-groupe donne des valeurs beaucoup plus petites que lorsqu'elle est calculée sur la base de la variabilité globale (par rapport à la Moyenne globale). La raison en est évidemment une différence significative entre les moyennes, et cette différence entre les moyennes explique différences existantes entre sommes de carrés. En fait, si vous utilisez le module pour analyser les données fournies Analyse de variance, les résultats suivants seront obtenus :

Comme le montre le tableau, la somme totale des carrés SS=28 est divisé par la somme des carrés donnée par intragroupe variabilité ( 2+2=4 ; voir deuxième ligne du tableau) et la somme des carrés due à la différence des valeurs moyennes. (28-(2+2)=24 ; voir première ligne du tableau).

SS erreurs etSS effet. Variabilité au sein du groupe ( SS) est généralement appelé dispersion les erreurs. Cela signifie qu’il est généralement impossible de prédire ou d’expliquer le moment où une expérience est réalisée. D'un autre côté, SS effet(ou variabilité entre les groupes) peut s’expliquer par des différences entre les moyennes des groupes d’étude. En d’autres termes, appartenir à un certain groupe explique variabilité intergroupe, car nous savons que ces groupes ont des moyens différents.

Vérification de l'importance. Les idées de base des tests de signification statistique sont abordées au chapitre Concepts de base des statistiques(Chapitre 8). Ce chapitre explique également les raisons pour lesquelles de nombreux tests utilisent le rapport entre la variance expliquée et la variance inexpliquée. Un exemple de cette utilisation est l’analyse de la variance elle-même. Le test de signification dans l'ANOVA est basé sur la comparaison de la variance due à la variance entre les groupes (appelée effet carré moyen ou MSEffet) et la variance due à la variation au sein du groupe (appelée erreur quadratique moyenne ou MSerreur). Si l’hypothèse nulle (égalité des moyennes dans les deux populations) est vraie, alors on s’attendrait à relativement peu de différence dans les moyennes de l’échantillon en raison de la variation aléatoire. Par conséquent, sous l’hypothèse nulle, la variance intra-groupe coïncidera pratiquement avec la variance totale calculée sans tenir compte de l’appartenance au groupe. Les variances au sein du groupe qui en résultent peuvent être comparées en utilisant F- test qui vérifie si le rapport de variance est significativement supérieur à 1. Dans l'exemple discuté ci-dessus F- le critère montre que la différence entre les moyennes est statistiquement significative.

Logique de base de l'analyse de la variance. Pour résumer, le but de l'ANOVA est de tester la signification statistique de la différence entre les moyennes (pour les groupes ou les variables). Ce contrôle est effectué par analyse de variance, c'est-à-dire en divisant la variance totale (variation) en parties, dont l'une est due à une erreur aléatoire (c'est-à-dire la variabilité intragroupe) et la seconde est associée à des différences de valeurs moyennes. La dernière composante de la variance est ensuite utilisée pour analyser la signification statistique de la différence entre les moyennes. Si cette différence est significative, l’hypothèse nulle est rejetée et l’hypothèse alternative selon laquelle il existe une différence entre les moyennes est acceptée.

Variables dépendantes et indépendantes. Les variables dont les valeurs sont déterminées par des mesures lors d'une expérience (par exemple, un résultat de test) sont appelées dépendant variables. Les variables qui peuvent être contrôlées dans une expérience (par exemple, les méthodes d'enseignement ou d'autres critères pour diviser les observations en groupes) sont appelées facteurs ou indépendant variables. Ces concepts sont décrits plus en détail dans le chapitre Concepts de base des statistiques(Chapitre 8).

Analyse multivariée de la variance

Au dessus exemple simple vous pouvez immédiatement calculer le test t pour des échantillons indépendants en utilisant l'option de module appropriée Statistiques et tableaux de base. Les résultats obtenus coïncideront naturellement avec les résultats de l'analyse de variance. Cependant, ANOVA contient des éléments flexibles et puissants moyens techniques, qui peut être utilisé pour des recherches beaucoup plus complexes.

De nombreux facteurs. Le monde est de nature complexe et multidimensionnelle. Les situations où un certain phénomène est entièrement décrit par une variable sont extrêmement rares. Par exemple, si nous essayons d'apprendre à cultiver de grosses tomates, nous devons prendre en compte les facteurs liés à la structure génétique de la plante, au type de sol, à la lumière, à la température, etc. Ainsi, lorsqu’on mène une expérience typique, on doit faire face à un grand nombre de facteurs. La principale raison pour laquelle l'utilisation de l'ANOVA est préférable aux comparaisons répétées de deux échantillons à différents niveaux de facteurs en utilisant t- critère est que l’analyse de la variance est plus efficace et, pour les petits échantillons, plus informatif.

Gestion des facteurs. Supposons que dans l'exemple d'analyse à deux échantillons discuté ci-dessus, nous ajoutions un autre facteur, par ex. Sol- Genre. Que chaque groupe soit composé de 3 hommes et 3 femmes. Le plan de cette expérience peut être présenté sous la forme d’un tableau 2 par 2 :

Expérience. Groupe 1 Expérience. Groupe 2
Hommes2 6
3 7
1 5
Moyenne2 6
Femmes4 8
5 9
3 7
Moyenne4 8

Avant de faire les calculs, vous pouvez remarquer que dans cet exemple la variance totale a au moins trois sources :

(1) erreur aléatoire (au sein de la variance du groupe),

(2) la variabilité associée à l'appartenance à un groupe expérimental, et

(3) variabilité due au sexe des objets d'observation.

(Notez qu'il existe une autre source possible de variabilité - interaction de facteurs, dont nous parlerons plus tard). Que se passe-t-il si nous n'incluons pas solgenre comme facteur dans l'analyse et calculer l'habituel t-critère? Si nous calculons des sommes de carrés, en ignorant sol -genre(c'est-à-dire combiner des objets de sexes différents en un seul groupe lors du calcul de la variance au sein du groupe, obtenant ainsi une somme de carrés pour chaque groupe égale à SS=10, et la somme totale des carrés SS= 10+10 = 20), alors on obtient une valeur de variance intragroupe plus grande qu'avec une analyse plus précise avec division supplémentaire en sous-groupes selon semi- genre(dans ce cas, les moyennes intra-groupe seront égales à 2, et la somme totale des carrés intra-groupe sera égale à SS = 2+2+2+2 = 8). Cette différence est due au fait que la valeur moyenne de Hommes - mâles inférieur à la moyenne pour femmes -femelle, et cette différence de moyenne augmente la variabilité globale au sein du groupe lorsque le sexe n'est pas pris en compte. Le contrôle de la variance d'erreur augmente la sensibilité (puissance) du test.

Cet exemple montre un autre avantage de l'analyse de variance par rapport à l'analyse conventionnelle. t- critère pour deux échantillons. L'analyse de variance permet d'étudier chaque facteur en contrôlant les valeurs des facteurs restants. C’est en fait la principale raison de sa plus grande puissance statistique (des échantillons plus petits sont nécessaires pour obtenir des résultats significatifs). Pour cette raison, l'analyse de variance, même sur de petits échantillons, donne des résultats statistiquement plus significatifs que de simples t- critère.

Effets d'interaction

Il existe un autre avantage à utiliser l’analyse de variance par rapport à l’analyse conventionnelle. t- critère : l’analyse de variance permet de détecter interaction entre les facteurs et permet donc l’étude de modèles plus complexes. Pour illustrer, considérons un autre exemple.

Principaux effets, interactions par paires (à deux facteurs). Supposons qu'il y ait deux groupes d'étudiants et que, psychologiquement, les étudiants du premier groupe soient déterminés à accomplir les tâches assignées et soient plus déterminés que les étudiants du deuxième groupe, composé d'étudiants plus paresseux. Divisons chaque groupe au hasard en deux et donnons à une moitié de chaque groupe une tâche difficile et à l'autre moitié une tâche facile. Nous mesurerons ensuite à quel point les étudiants travaillent dur sur ces tâches. Les moyennes de cette étude (fictive) sont présentées dans le tableau :

Quelle conclusion peut-on tirer de ces résultats ? Pouvons-nous conclure que : (1) les étudiants travaillent plus intensément sur une tâche complexe ; (2) Les étudiants motivés travaillent-ils plus dur que les étudiants paresseux ? Aucune de ces déclarations ne saisit l’essence de la nature systématique des moyens présentés dans le tableau. En analysant les résultats, il serait plus correct de dire que seuls les étudiants motivés travaillent plus dur sur les tâches difficiles, tandis que seuls les étudiants paresseux travaillent plus dur sur les tâches faciles. Autrement dit, le caractère des élèves et la difficulté de la tâche interagir s’influencent mutuellement sur l’effort déployé. C'est un exemple interaction en binôme entre le caractère des élèves et la difficulté de la tâche. Notez que les déclarations 1 et 2 décrivent principaux effets.

Interactions d’ordre supérieur. Si les interactions par paires sont encore relativement faciles à expliquer, les interactions d’ordre supérieur sont beaucoup plus difficiles à expliquer. Imaginons que dans l'exemple considéré ci-dessus, un autre facteur soit introduit sol -Genre et nous obtenons le tableau de moyennes suivant :

Quelles conclusions peut-on désormais tirer des résultats obtenus ? Les tracés des moyennes facilitent l’interprétation d’effets complexes. Le module ANOVA vous permet de construire ces graphiques en presque un clic de souris.

L'image dans les graphiques ci-dessous représente l'interaction à trois facteurs étudiée.

En regardant les graphiques, nous pouvons constater que pour les femmes, il existe une interaction entre la personnalité et la difficulté du test : les femmes motivées travaillent plus sur une tâche difficile que sur une tâche facile. Pour les hommes, la même interaction est inversée. On constate que la description de l’interaction entre les facteurs devient plus confuse.

Méthode générale descriptions des interactions. DANS cas général l'interaction entre les facteurs est décrite comme un changement d'un effet sous l'influence d'un autre. Dans l’exemple évoqué ci-dessus, l’interaction à deux facteurs peut être décrite comme une modification de l’effet principal du facteur caractérisant la difficulté de la tâche sous l’influence du facteur décrivant le caractère de l’élève. Pour l'interaction des trois facteurs du paragraphe précédent, on peut dire que l'interaction des deux facteurs (difficulté de la tâche et caractère de l'étudiant) change sous l'influence genreGenre. Si l'interaction de quatre facteurs est étudiée, on peut dire que l'interaction des trois facteurs change sous l'influence du quatrième facteur, c'est-à-dire Il existe différents types d’interactions à différents niveaux du quatrième facteur. Il s’avère que dans de nombreux domaines, l’interaction de cinq facteurs, voire plus, n’est pas inhabituelle.

Des projets compliqués

Plans inter-groupes et intra-groupes (plans à mesures répétées)

Lors de la comparaison de deux groupes différents, il est généralement utilisé t- critère pour les échantillons indépendants (du module Statistiques et tableaux de base). Lorsque deux variables sont comparées sur le même ensemble d'objets (observations), elle est utilisée t-critère pour les échantillons dépendants. Pour l'analyse de la variance, il est également important de savoir si les échantillons sont dépendants ou non. S'il y a des mesures répétées des mêmes variables (avec conditions différentes ou dans temps différent) pour les mêmes objets, puis ils parlent de la présence facteur de mesures répétées(aussi appelé facteur intragroupe, puisque la somme des carrés au sein du groupe est calculée pour évaluer sa signification). Si différents groupes d'objets sont comparés (par exemple, des hommes et des femmes, trois souches de bactéries, etc.), alors la différence entre les groupes est décrite facteur intergroupe. Les méthodes de calcul des critères d’importance pour les deux types de facteurs décrits sont différentes, mais leur logique générale et leurs interprétations sont les mêmes.

Plans inter et intra-groupe. Dans de nombreux cas, l’expérience nécessite l’inclusion à la fois d’un facteur inter-sujets et d’un facteur de mesures répétées dans la conception. Par exemple, les compétences en mathématiques des élèves de sexe féminin et masculin sont mesurées (où sol -Genre-facteur intergroupe) en début et en fin de semestre. Les deux mesures des compétences de chaque élève forment un facteur intra-groupe (facteur de mesures répétées). L’interprétation des principaux effets et interactions pour les facteurs inter-sujets et à mesures répétées est cohérente, et les deux types de facteurs peuvent évidemment interagir les uns avec les autres (par exemple, les femmes acquièrent des compétences au cours d’un semestre, tandis que les hommes les perdent).

Plans incomplets (imbriqués)

Dans de nombreux cas, l’effet d’interaction peut être négligé. Cela se produit soit lorsqu'on sait qu'il n'y a pas d'effet d'interaction dans la population, soit lorsque la mise en œuvre d'un programme complet factorielle le plan est impossible. Par exemple, l'effet de quatre additifs pour carburant sur la consommation de carburant est à l'étude. Quatre voitures et quatre pilotes sont sélectionnés. Complet factorielle l'expérience nécessite que chaque combinaison : additif, conducteur, voiture - apparaisse au moins une fois. Cela nécessite au moins 4 x 4 x 4 = 64 groupes de tests, ce qui prend trop de temps. De plus, il est peu probable qu’il y ait une interaction entre le conducteur et l’additif pour carburant. En tenant compte de cela, vous pouvez utiliser le plan Carrés latins, qui ne contient que 16 groupes tests (les quatre additifs sont désignés par les lettres A, B, C et D) :

Les carrés latins sont décrits dans la plupart des ouvrages sur la conception expérimentale (par exemple, Hays, 1988 ; Lindman, 1974 ; Milliken et Johnson, 1984 ; Winer, 1962) et ne seront pas abordés en détail ici. Notez que les carrés latins sont Pasncomplet conceptions dans lesquelles toutes les combinaisons de niveaux de facteurs ne sont pas incluses. Par exemple, le conducteur 1 conduit la voiture 1 uniquement avec l'additif A, le conducteur 3 conduit la voiture 1 uniquement avec l'additif C. Niveaux de facteurs additifs ( A, B, C et D) sont imbriqués dans les cellules du tableau voiture X conducteur - comme des œufs dans des nids. Ce mnémonique est utile pour comprendre la nature imbriqué ou imbriqué des plans. Module Analyse de variance fournit des moyens simples analyse de plans de ce type.

Analyse de covariance

idée principale

Au chapitre Idées clés L'idée du contrôle factoriel et la manière dont l'inclusion de facteurs additifs réduit la somme des erreurs quadratiques et augmente la puissance statistique du plan ont été brièvement discutées. Tout cela peut être étendu aux variables avec un ensemble continu de valeurs. Lorsque de telles variables continues sont incluses comme facteurs dans un plan, elles sont appelées covariables.

Covariables fixes

Supposons que nous comparions les compétences en mathématiques de deux groupes d’élèves qui ont appris à l’aide de deux manuels différents. Supposons également que les données sur le quotient intellectuel (QI) soient disponibles pour chaque élève. Vous pouvez supposer que le QI est lié aux compétences en mathématiques et utiliser cette information. Pour chacun des deux groupes d'élèves, le coefficient de corrélation entre le QI et les compétences en mathématiques peut être calculé. Grâce à ce coefficient de corrélation, il est possible d'isoler la proportion de variance dans les groupes qui s'explique par l'influence du QI et la proportion de variance inexpliquée (voir aussi Concepts de base des statistiques(Chapitre 8) et Statistiques et tableaux de base(chapitre 9)). La partie restante de la variance est utilisée dans l’analyse comme variance d’erreur. S'il existe une corrélation entre le QI et les compétences en mathématiques, la variance des erreurs peut être considérablement réduite. SS/(n-1) .

Impact des covariables surF- critère. F- le critère évalue la signification statistique de la différence des valeurs moyennes dans les groupes et le rapport de variance intergroupe est calculé ( MSeffet) à la variance d'erreur ( MSerreur) . Si MSerreur diminue, par exemple, en prenant en compte le facteur QI, la valeur F augmente.

Beaucoup de covariables. Le raisonnement utilisé ci-dessus pour une seule covariable (QI) peut facilement être étendu à plusieurs covariables. Par exemple, en plus du QI, vous pouvez inclure des mesures de motivation, de pensée spatiale, etc. Au lieu du coefficient de corrélation habituel, il est utilisé coefficient multiple corrélations.

Lorsque la valeurF -les critères diminuent. Parfois, l’introduction de covariables dans un plan expérimental réduit la signification F-critères . Cela indique généralement que les covariables sont corrélées non seulement à la variable dépendante (par exemple, les compétences en mathématiques), mais également aux facteurs (par exemple, les différents manuels). Supposons que le QI soit mesuré à la fin du semestre, après presque un an d’enseignement à deux groupes d’étudiants utilisant deux manuels différents. Même si les élèves ont été répartis en groupes de manière aléatoire, il se peut que les différences entre les manuels soient si grandes que les compétences en matière de QI et de mathématiques varient considérablement d'un groupe à l'autre. Dans ce cas, les covariables réduisent non seulement la variance d’erreur mais également la variance entre groupes. En d’autres termes, après avoir pris en compte les différences de QI entre les groupes, les différences dans les compétences en mathématiques ne sont plus significatives. Vous pouvez le dire différemment. Après avoir « exclu » l’influence du QI, l’influence du manuel sur le développement des compétences mathématiques est involontairement exclue.

Moyennes ajustées. Lorsqu'une covariable influence le facteur inter-sujets, il faut calculer moyens ajustés, c'est à dire. les moyennes obtenues après suppression de toutes les estimations de covariables.

Interactions entre covariables et facteurs. Tout comme les interactions entre facteurs sont examinées, les interactions entre covariables et entre groupes de facteurs peuvent être examinées. Disons que l'un des manuels est particulièrement adapté aux étudiants intelligents. Le deuxième manuel est ennuyeux pour les étudiants intelligents, et le même manuel est difficile pour les étudiants moins intelligents. En conséquence, il existe une corrélation positive entre le QI et les résultats d’apprentissage dans le premier groupe (élèves plus intelligents, meilleurs résultats) et une corrélation nulle ou légèrement négative dans le deuxième groupe (plus l’élève est intelligent, moins il a de chances d’acquérir des compétences en mathématiques). du deuxième manuel). Certaines études discutent de cette situation comme d'un exemple de violation des hypothèses de l'analyse de covariance. Cependant, le module ANOVA utilisant les méthodes d'analyse de covariance les plus courantes, il est notamment possible d'évaluer la signification statistique de l'interaction entre facteurs et covariables.

Covariables variables

Alors que les covariables fixes sont abordées assez souvent dans les manuels, les covariables variables sont mentionnées beaucoup moins fréquemment. En règle générale, lorsque nous menons des expériences avec des mesures répétées, nous nous intéressons aux différences dans les mesures des mêmes quantités à différents moments. Nous nous intéressons notamment à la signification de ces différences. Si les covariables sont mesurées simultanément avec les mesures des variables dépendantes, la corrélation entre la covariable et la variable dépendante peut être calculée.

Par exemple, l’intérêt et les compétences en mathématiques pourraient être explorés au début et à la fin du semestre. Il serait intéressant de tester si les changements d’intérêt pour les mathématiques sont corrélés aux changements dans les compétences en mathématiques.

Module Analyse de variance V STATISTIQUEévalue automatiquement la signification statistique des changements dans les covariables dans les plans lorsque cela est possible.

Plans multivariés : analyse multivariée de la variance et de la covariance

Plans intergroupes

Tous les exemples discutés précédemment incluaient une seule variable dépendante. Lorsqu'il existe plusieurs variables dépendantes en même temps, seule la complexité des calculs augmente, mais le contenu et les principes de base ne changent pas.

Par exemple, une étude est réalisée sur deux manuels différents. Dans le même temps, la réussite des étudiants dans l'étude de la physique et des mathématiques est étudiée. Dans ce cas, il existe deux variables dépendantes et vous devez découvrir comment deux manuels différents les influencent simultanément. Pour ce faire, vous pouvez utiliser l'analyse de variance multivariée (MANOVA). Au lieu d'être unidimensionnel F critère, multidimensionnel est utilisé F test (test de Wilks'l), basé sur la comparaison de la matrice de covariance d'erreur et de la matrice de covariance intergroupe.

Si les variables dépendantes sont corrélées entre elles, cette corrélation doit alors être prise en compte lors du calcul du critère de signification. Évidemment, si la même mesure est répétée deux fois, rien de nouveau ne peut être obtenu. Si une dimension corrélée est ajoutée à une dimension existante, de nouvelles informations sont obtenues, mais la nouvelle variable contient des informations redondantes, qui se reflètent dans la covariance entre les variables.

Interprétation des résultats. Si le test multivarié global est significatif, nous pouvons conclure que l’effet correspondant (par exemple, le type de manuel) est significatif. Cependant, ils se lèvent prochaines questions. Le type de manuel affecte-t-il uniquement l’amélioration des compétences en mathématiques, uniquement des compétences physiques, ou des deux compétences ? En fait, après avoir obtenu un test multivarié significatif, un test univarié est examiné pour l’effet ou l’interaction principale individuelle. F critère. En d’autres termes, les variables dépendantes qui contribuent à la signification du test multivarié sont examinées séparément.

Conceptions à mesures répétées

Si les compétences des élèves en mathématiques et en physique sont mesurées au début et à la fin du semestre, il s'agit alors de mesures répétées. L'étude du critère de signification dans de tels plans est un développement logique du cas unidimensionnel. Il convient de noter que les techniques d'analyse multivariée de la variance sont également couramment utilisées pour examiner l'importance des facteurs de mesures répétées univariées ayant plus de deux niveaux. Les applications correspondantes seront discutées plus loin dans cette partie.

Somme des valeurs des variables et analyse de variance multivariée

Même les utilisateurs expérimentés de l'analyse de variance univariée et multivariée ont souvent du mal à obtenir des résultats différents lorsqu'ils appliquent une analyse de variance multivariée, par exemple, à trois variables, et lorsqu'ils appliquent une analyse de variance univariée à la somme de ces trois variables, comme si elle étaient une seule variable.

Idée addition variables est que chaque variable contient une variable vraie, qui est étudiée, ainsi qu'une erreur de mesure aléatoire. Par conséquent, lors de la moyenne des valeurs des variables, l'erreur de mesure sera plus proche de 0 pour toutes les mesures et les valeurs moyennes seront plus fiables. En fait, dans ce cas, appliquer l’ANOVA à la somme des variables est une technique raisonnable et puissante. Cependant, si les variables dépendantes sont de nature multidimensionnelle, la somme des valeurs des variables est inappropriée.

Par exemple, supposons que les variables dépendantes soient constituées de quatre indicateurs réussite dans la société. Chaque indicateur caractérise un aspect totalement indépendant de l'activité humaine (par exemple, réussite professionnelle, réussite en affaires, bien-être familial, etc.). Ajouter ces variables, c'est comme ajouter des pommes et des oranges. La somme de ces variables ne constituerait pas une mesure unidimensionnelle appropriée. Par conséquent, ces données doivent être traitées comme des indicateurs multidimensionnels dans analyse multivariée de la variance.

Analyse de contraste et tests post hoc

Pourquoi compare-t-on des ensembles distincts de moyennes ?

Généralement, les hypothèses concernant les données expérimentales ne sont pas formulées simplement en termes d’effets ou d’interactions principaux. Un exemple serait cette hypothèse : un certain manuel améliore les compétences en mathématiques uniquement chez les élèves de sexe masculin, tandis qu'un autre manuel est à peu près aussi efficace pour les deux sexes, mais est encore moins efficace pour les hommes. On peut prédire que l’efficacité des manuels scolaires interagit avec le sexe des élèves. Cependant, cette prévision s'applique également nature interactions. Une différence significative entre les sexes est attendue pour les étudiants utilisant un livre et des résultats pratiquement indépendants selon le sexe pour les étudiants utilisant l'autre livre. Ce type d'hypothèse est généralement examiné à l'aide d'une analyse de contraste.

Analyse des contrastes

En bref, l'analyse des contrastes permet d'évaluer la signification statistique de certaines combinaisons linéaires d'effets complexes. L'analyse du contraste est principale et élément requis tout plan ANOVA complexe. Module Analyse de variance dispose d'une grande variété de capacités d'analyse de contraste qui vous permettent d'isoler et d'analyser tout type de comparaison de moyennes.

A postériori comparaisons

Parfois, à la suite du traitement d’une expérience, un effet inattendu est découvert. Bien que dans la plupart des cas, un chercheur créatif soit capable d’expliquer n’importe quel résultat, cela ne permet pas une analyse plus approfondie ni des estimations à des fins de prédiction. Ce problème est un de ceux pour lesquels critères a posteriori, c'est-à-dire des critères qui n'utilisent pas a priori hypothèses. Pour illustrer, considérons l’expérience suivante. Supposons qu'il y ait 100 cartes contenant des nombres de 1 à 10. En plaçant toutes ces cartes dans un en-tête, nous sélectionnons au hasard 5 cartes 20 fois et calculons la valeur moyenne (la moyenne des nombres écrits sur les cartes) pour chaque échantillon. Pouvez-vous vous attendre à ce qu’il y ait deux échantillons dont les moyennes sont significativement différentes ? C'est très plausible ! En sélectionnant deux échantillons avec une moyenne maximale et une moyenne minimale, vous pouvez obtenir une différence de moyenne très différente de la différence de moyenne, par exemple, des deux premiers échantillons. Cette différence peut être explorée, par exemple, à l’aide d’une analyse de contraste. Sans entrer dans les détails, il existe plusieurs soi-disant a postériori des critères basés exactement sur le premier scénario (en prenant des moyennes extrêmes sur 20 échantillons), c'est-à-dire que ces critères sont basés sur le choix des moyennes les plus différentes pour comparer toutes les moyennes du plan. Ces critères permettent de s'assurer qu'un effet artificiel n'est pas obtenu par hasard, par exemple pour détecter une différence significative entre des moyennes alors qu'il n'y en a pas. Module Analyse de variance des offres large choix de tels critères. Lorsque des résultats inattendus sont rencontrés dans une expérience impliquant plusieurs groupes, alors a postériori procédures pour examiner la signification statistique des résultats obtenus.

Somme des carrés de type I, II, III et IV

Régression multivariée et analyse de variance

Il existe une relation étroite entre la méthode de régression multivariée et l'analyse de variance (analyse de variance). Dans les deux méthodes, un modèle linéaire est étudié. En bref, presque tous les plans expérimentaux peuvent être examinés à l’aide d’une régression multivariée. Considérons la conception simple intergroupe 2 x 2 suivante.

D.V. UN B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Les colonnes A et B contiennent des codes caractérisant les niveaux de facteurs A et B, la colonne AxB contient le produit de deux colonnes A et B. On peut analyser ces données par régression multivariée. Variable D.V. définie comme variable dépendante, les variables de UN avant AxB comme variables indépendantes. L'étude de la significativité des coefficients de régression coïncidera avec les calculs dans l'analyse de variance de la significativité des principaux effets des facteurs. UN Et B et effet d'interaction AxB.

Plans déséquilibrés et équilibrés

Lors du calcul de la matrice de corrélation pour toutes les variables, telles que les données décrites ci-dessus, vous remarquerez que les principaux effets des facteurs UN Et B et effet d'interaction AxB sans corrélation. Cette propriété des effets est aussi appelée orthogonalité. Ils disent les effets UN Et B - orthogonal ou indépendant de chacun d'eux. Si tous les effets d’un plan sont orthogonaux les uns aux autres, comme dans l’exemple ci-dessus, alors le plan est dit équilibré.

Les plans équilibrés ont « bonne propriété" Les calculs pour analyser de tels plans sont très simples. Tous les calculs se résument à calculer la corrélation entre les effets et les variables dépendantes. Puisque les effets sont orthogonaux, les corrélations partielles (comme dans le cas complet) multidimensionnel régressions) ne sont pas calculés. Cependant, dans vrai vie les plans ne sont pas toujours équilibrés.

Considérons des données réelles avec un nombre inégal d'observations dans les cellules.

Facteur A Facteur B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Si nous codons ces données comme ci-dessus et calculons une matrice de corrélation pour toutes les variables, nous constatons que les facteurs de conception sont corrélés les uns aux autres. Les facteurs d'un plan ne sont plus orthogonaux et ces plans sont appelés déséquilibré. A noter que dans l'exemple considéré, la corrélation entre les facteurs est entièrement due à la différence de fréquences de 1 et -1 dans les colonnes de la matrice de données. En d’autres termes, les plans expérimentaux avec des volumes cellulaires inégaux (plus précisément des volumes disproportionnés) seront déséquilibrés, ce qui signifie que les principaux effets et interactions seront confondus. Dans ce cas, la régression multivariée complète doit être calculée pour calculer la signification statistique des effets. Il existe plusieurs stratégies ici.

Somme des carrés de type I, II, III et IV

Type somme des carrésjeEtIII. Pour examiner l'importance de chaque facteur dans un modèle multivarié, la corrélation partielle de chaque facteur peut être calculée, à condition que tous les autres facteurs soient déjà pris en compte dans le modèle. Vous pouvez également saisir des facteurs dans le modèle étape par étape, en corrigeant tous les facteurs déjà entrés dans le modèle et en ignorant tous les autres facteurs. En général, c'est la différence entre taper III Et taperje somme des carrés (cette terminologie a été introduite dans SAS, voir, par exemple, SAS, 1982 ; une discussion détaillée peut également être trouvée dans Searle, 1987, p. 461 ; Woodward, Bonett et Brecht, 1990, p. 216 ; ou Milliken et Johnson, 1984, p. 138).

Type somme des carrésII. La prochaine stratégie « intermédiaire » de formation du modèle consiste à : contrôler tous les effets principaux lors de l’examen de l’importance d’un seul effet principal ; en contrôlant tous les effets principaux et toutes les interactions par paires lors de l'examen de la signification d'une interaction individuelle par paires ; en contrôlant tous les effets principaux de toutes les interactions par paires et de toutes les interactions de trois facteurs ; lors de l'étude de l'interaction individuelle de trois facteurs, etc. Les sommes des carrés des effets ainsi calculées sont appelées taperII somme des carrés. Donc, taperII la somme des carrés contrôle tous les effets du même ordre et inférieur, tout en ignorant tous les effets d'ordre supérieur.

Type somme des carrésIV. Enfin, pour certains plans spéciaux comportant des cellules manquantes (plans incomplets), il est possible de calculer ce qu'on appelle le taper IV somme des carrés. Cette méthode sera discutée ultérieurement à propos des plans incomplets (plans avec cellules manquantes).

Interprétation de l'hypothèse de la somme des carrés des types I, II et III

Somme des carrés taperIII le plus simple à interpréter. Rappelons que les sommes des carrés taperIII examiner les effets après avoir contrôlé tous les autres effets. Par exemple, après avoir trouvé un résultat statistiquement significatif taperIII effet pour le facteur UN dans le module Analyse de variance, on peut dire qu'il n'y en a qu'un effet significatif facteur a UN, après avoir introduit tous les autres effets (facteurs) et interpréter cet effet en conséquence. Dans probablement 99 % de toutes les applications ANOVA, c’est le type de test qui intéresse le chercheur. Ce type de somme des carrés est généralement calculé modulo Analyse de variance par défaut, que l'option soit sélectionnée ou non Approche de régression ou non (approches standards adoptées dans le module Analyse de variance discuté ci-dessous).

Effets significatifs obtenus grâce aux sommes de carrés taper ou taperII les sommes de carrés ne sont pas si faciles à interpréter. Il est préférable de les interpréter dans le contexte d’une régression multivariée pas à pas. Si, en utilisant la somme des carrés taperje l'effet principal du facteur B était significatif (après l'inclusion du facteur A dans le modèle, mais avant l'ajout de l'interaction entre A et B), on peut conclure qu'il existe un effet principal significatif du facteur B, à condition qu'il n'y ait pas d'interaction entre les facteurs A et B. (Si vous utilisez le critère taperIII, le facteur B s'est également avéré significatif, nous pouvons alors conclure qu'il existe un effet principal significatif du facteur B, après avoir introduit tous les autres facteurs et leurs interactions dans le modèle).

En termes d’hypothèse de moyennes marginales taperje Et taperII n’ont généralement pas une interprétation simple. Dans ces cas-là, on dit qu’on ne peut pas interpréter l’importance des effets en considérant uniquement les moyennes marginales. Plutôt présenté p les moyennes sont liées à une hypothèse complexe qui combine les moyennes et la taille de l’échantillon. Par exemple, taperII les hypothèses pour le facteur A dans l’exemple simple d’un plan 2 x 2 discuté plus tôt seraient (voir Woodward, Bonett et Brecht, 1990, p. 219) :

nij- nombre d'observations dans la cellule

uij- valeur moyenne dans la cellule

n. j- moyenne marginale

Sans entrer dans les détails (pour plus de détails, voir Milliken et Johnson, 1984, chapitre 10), il est clair qu’il ne s’agit pas d’hypothèses simples et que, dans la plupart des cas, aucune d’entre elles n’intéresse particulièrement le chercheur. Cependant, il existe des cas où des hypothèses taperje peut être intéressant.

Approche informatique par défaut dans le module Analyse de variance

Par défaut si l'option n'est pas cochée Approche de régression, module Analyse de variance les usages modèle de moyenne cellulaire. La caractéristique de ce modèle est que les sommes des carrés pour différents effets sont calculées pour des combinaisons linéaires de moyennes de cellules. Dans une expérience factorielle complète, cela aboutit à des sommes de carrés identiques aux sommes de carrés discutées précédemment sous la forme taper III. Cependant, dans l'option Comparaisons prévues(dans la fenêtre Résultats de l'ANOVA), l'utilisateur peut tester une hypothèse par rapport à n'importe quelle combinaison linéaire de moyennes de cellules pondérées ou non. Ainsi, l'utilisateur peut tester non seulement des hypothèses taperIII, mais des hypothèses de tout type (y compris taperIV). Cette approche générale est particulièrement utile lors de l’examen de plans comportant des cellules manquantes (appelés plans incomplets).

Pour les plans factoriels complets, cette approche est également utile lorsque l’on souhaite analyser les moyennes marginales pondérées. Par exemple, supposons que dans le plan simple 2 x 2 considéré plus haut, nous devions comparer des résultats pondérés (par niveaux de facteurs) B) moyennes marginales pour le facteur A. Ceci est utile lorsque la distribution des observations entre les cellules n'a pas été préparée par l'expérimentateur, mais a été construite de manière aléatoire, et ce caractère aléatoire se reflète dans la distribution du nombre d'observations entre les niveaux du facteur B dans le agrégat.

Par exemple, il existe un facteur : l’âge des veuves. L'échantillon possible de répondants est divisé en deux groupes : les moins de 40 ans et les plus de 40 ans (facteur B). Le deuxième facteur (facteur A) du plan était de savoir si les veuves bénéficiaient ou non d'un soutien social d'une agence (certaines veuves étaient sélectionnées au hasard, d'autres servaient de contrôle). Dans ce cas, la répartition des veuves par âge dans l’échantillon reflète la répartition réelle des veuves par âge dans la population. Évaluation de l'efficacité du groupe aide sociale veuves par tous ages correspondra à une moyenne pondérée pour deux tranches d’âge (avec des poids correspondant au nombre d’observations dans le groupe).

Comparaisons prévues

Notez que la somme des coefficients de contraste saisis n'est pas nécessairement égale à 0 (zéro). Au lieu de cela, le programme effectuera automatiquement des ajustements pour s'assurer que les hypothèses correspondantes ne sont pas confondues avec la moyenne globale.

Pour illustrer cela, revenons au simple plan 2 x 2 évoqué plus tôt. Rappelons que les nombres d'observations dans les cellules de ce plan déséquilibré sont -1, 2, 3 et 1. Supposons que nous souhaitions comparer les moyennes marginales pondérées du facteur A (pondérées par la fréquence des niveaux du facteur B). Vous pouvez saisir des coefficients de contraste :

Notez que la somme de ces coefficients ne donne pas 0. Le programme définira les coefficients pour qu'ils totalisent 0, tout en conservant leur valeur. valeurs relatives, c'est à dire.:

1/3 2/3 -3/4 -1/4

Ces contrastes compareront les moyennes pondérées du facteur A.

Hypothèses sur la moyenne principale. L’hypothèse selon laquelle la moyenne principale non pondérée est 0 peut être explorée à l’aide des coefficients :

L’hypothèse selon laquelle la moyenne principale pondérée est 0 est testée en utilisant :

En aucun cas le programme n'ajuste les taux de contraste.

Analyse de plans avec cellules manquantes (plans incomplets)

Les plans factoriels qui contiennent des cellules vides (traitant des combinaisons de cellules sans observations) sont dits incomplets. Dans de tels plans, certains facteurs ne sont généralement pas orthogonaux et certaines interactions ne peuvent pas être calculées. N'existe pas du tout meilleure méthode analyse de ces plans.

Approche de régression

Dans certains programmes plus anciens qui reposent sur l'analyse de plans ANOVA à l'aide d'une régression multivariée, les facteurs des plans incomplets sont spécifiés par défaut comme d'habitude (comme si le plan était complet). Des analyses de régression multivariées sont ensuite effectuées sur ces facteurs codés fictivement. Malheureusement, cette méthode produit des résultats très difficiles, voire impossibles, à interpréter car on ne sait pas clairement comment chaque effet contribue à la combinaison linéaire des moyennes. Considérez l’exemple simple suivant.

Facteur A Facteur B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Manqué

Si nous effectuons une régression multivariée de la forme Variable dépendante = Constante + Facteur A + Facteur B, alors l'hypothèse sur l'importance des facteurs A et B en termes de combinaisons linéaires de moyennes ressemble à ceci :

Facteur A : Cellule A1,B1 = Cellule A2,B1

Facteur B : Cellule A1,B1 = Cellule A1,B2

Ce cas est simple. Dans les conceptions plus complexes, il est impossible de déterminer exactement ce qui sera examiné.

Moyennes cellulaires, approche ANOVA , Hypothèses de type IV

L'approche qui est préconisée dans la littérature et qui semble préférable est d'étudier de manière significative (en termes de questions de recherche) a priori hypothèses sur les moyennes observées dans les cellules du plan. Une discussion détaillée de cette approche peut être trouvée dans Dodge (1985), Heiberger (1989), Milliken et Johnson (1984), Searle (1987) ou Woodward, Bonett et Brecht (1990). Les sommes des carrés associées aux hypothèses sur la combinaison linéaire des moyennes dans les plans incomplets qui examinent les estimations d'une partie des effets sont également appelées sommes des carrés. IV.

Génération automatique d'hypothèses de typeIV. Lorsque les plans multivariés présentent des modèles complexes de cellules manquantes, il est souhaitable de définir des hypothèses orthogonales (indépendantes), dont l'étude équivaut à l'étude des effets ou interactions principaux. Des stratégies algorithmiques (informatiques) (basées sur la matrice de conception pseudo-inverse) ont été développées pour générer échelles adaptées pour de telles comparaisons. Malheureusement, les hypothèses finales ne sont pas définies de manière unique. Bien entendu, ils dépendent de l’ordre dans lequel les effets ont été identifiés et permettent rarement une interprétation simple. Il est donc recommandé d’étudier attentivement la nature des cellules manquantes, puis de formuler des hypothèses taperIV, qui correspondent le mieux aux objectifs de l’étude. Explorez ensuite ces hypothèses en utilisant l'option Comparaisons prévues dans la fenêtre résultats. Le moyen le plus simple de spécifier des comparaisons dans ce cas est d'exiger l'introduction d'un vecteur de contrastes pour tous les facteurs ensemble dans la fenêtre Comparaisons prévues. Après avoir appelé la boîte de dialogue Comparaisons prévues Tous les groupes du plan actuel seront affichés et ceux qui manquent seront marqués.

Cellules manquantes et tests pour un effet spécifique

Il existe plusieurs types de plans dans lesquels l'emplacement des cellules manquantes n'est pas aléatoire, mais est soigneusement planifié, permettant une analyse simple des effets principaux sans affecter les autres effets. Par exemple, lorsque le nombre requis de cellules dans un plan n'est pas disponible, des plans sont souvent utilisés Carrés latins estimer les principaux effets de plusieurs facteurs avec un grand nombre de niveaux. Par exemple, un plan factoriel 4 x 4 x 4 x 4 nécessite 256 cellules. En même temps, vous pouvez utiliser Place gréco-latine pour estimer les effets principaux avec seulement 16 cellules dans le plan (Chapitre Planification des expériences, tome IV, contient Description détaillée de tels projets). Les plans incomplets dans lesquels les effets principaux (et certaines interactions) peuvent être estimés à l'aide de simples combinaisons linéaires de moyennes sont appelés plans incomplets équilibrés.

Dans les plans équilibrés, la méthode standard (par défaut) de génération de contrastes (pondérations) pour les effets principaux et les interactions produira alors un tableau d'analyse des variances dans lequel les sommes des carrés des effets respectifs ne sont pas confondues. Option Effets spécifiques fenêtre résultats générera les contrastes manquants en écrivant un zéro dans les cellules manquantes du plan. Immédiatement après la demande de l'option Effets spécifiques pour l'utilisateur qui examine une hypothèse, un tableau de résultats apparaît avec les poids réels. Notez que dans un plan équilibré, les sommes des carrés des effets correspondants sont calculées uniquement si ces effets sont orthogonaux (indépendants) à tous les autres effets et interactions principaux. Sinon, vous devez utiliser l'option Comparaisons prévues explorer des comparaisons significatives entre les moyennes.

Cellules manquantes et effets/termes d’erreur regroupés

Si option Approche de régression dans le panneau de démarrage du module Analyse de variance n'est pas sélectionné, le modèle de moyenne de cellule sera utilisé lors du calcul de la somme des carrés pour les effets (paramètre par défaut). Si le plan n'est pas équilibré, alors lors de la combinaison d'effets non orthogonaux (voir ci-dessus la discussion sur l'option Cellules manquées et effet spécifique) on peut obtenir une somme de carrés constituée de composantes non orthogonales (ou se chevauchant). Les résultats obtenus ne sont généralement pas interprétables. Par conséquent, il faut être très prudent lors de la sélection et de la mise en œuvre de modèles expérimentaux complexes et incomplets.

Il existe de nombreux livres avec des discussions détaillées sur les plans différents types. (Dodge, 1985 ; Heiberger, 1989 ; Lindman, 1974 ; Milliken et Johnson, 1984 ; Searle, 1987 ; Woodward et Bonett, 1990), mais ce type d'informations dépasse le cadre de ce manuel. Cependant, une analyse sera démontrée plus loin dans cette section. divers types des plans.

Hypothèses et effets de la violation des hypothèses

Écart par rapport à l'hypothèse de distributions normales

Supposons que la variable dépendante soit mesurée sur une échelle numérique. Supposons également que la variable dépendante est normalement distribuée au sein de chaque groupe. Analyse de variance contient un large éventail de graphiques et de statistiques pour étayer cette hypothèse.

Effets de perturbation. Du tout F le test est très robuste aux écarts par rapport à la normalité (pour des résultats détaillés, voir Lindman, 1974). Si l'aplatissement est supérieur à 0, alors la valeur de la statistique est F peut devenir très petit. L'hypothèse nulle est acceptée, même si elle peut ne pas être vraie. La situation est inversée lorsque l'aplatissement est inférieur à 0. L'asymétrie de la distribution a généralement peu d'effet sur F statistiques. Si le nombre d’observations dans une cellule est suffisamment grand, il n’y a alors aucun écart par rapport à la normalité. signification particulière En vertu de théorème central limite, selon lequel la distribution de la valeur moyenne est proche de la normale, quelle que soit la distribution initiale. Discussion détaillée sur la durabilité F des statistiques peuvent être trouvées dans Box et Anderson (1955) ou Lindman (1974).

Uniformité de la variance

Hypothèses. On suppose que les variances des différents groupes de conception sont les mêmes. Cette hypothèse est appelée hypothèse homogénéité de la variance. Rappelons qu'au début de cette section, lors de la description du calcul de la somme des erreurs quadratiques, nous avons effectué la sommation au sein de chaque groupe. Si les variances dans deux groupes sont différentes les unes des autres, leur addition n'est pas très naturelle et ne fournit pas une estimation de la variance totale au sein du groupe (puisque dans ce cas, il n'y a pas de variance totale du tout). Module Analyse de variance -ANOVA/MANOVA contient un grand ensemble critères statistiques détecter les écarts par rapport aux hypothèses d’homogénéité de la variance.

Effets de perturbation. Lindman (1974, p. 33) montre que F le critère est assez stable vis-à-vis de la violation des hypothèses d'homogénéité de la variance ( hétérogénéité variance, voir aussi Box, 1954a, 1954b ; Hsu, 1938).

Cas particulier : corrélation des moyennes et des variances. Il y a des moments où F les statistiques peuvent tromper. Cela se produit lorsque les moyennes des cellules du plan sont corrélées à la variance. Module Analyse de variance vous permet de créer des nuages ​​de points de dispersion ou écart-type par rapport aux moyennes pour détecter une telle corrélation. La raison pour laquelle cette corrélation est dangereuse est la suivante. Imaginons qu'il y ait 8 cellules dans le plan, dont 7 ont presque la même moyenne, et dans une cellule la moyenne est beaucoup plus élevée que les autres. Alors F le test peut détecter un effet statistiquement significatif. Mais supposons que dans une cellule avec une valeur moyenne élevée, la variance soit nettement plus grande que les autres, c'est-à-dire la valeur moyenne et la variance dans les cellules dépendent (plus la moyenne est élevée, plus la variance est grande). Dans ce cas, une moyenne élevée n’est pas fiable car elle peut être due à une grande variance dans les données. Cependant F statistiques basées sur uni la variance au sein des cellules capturera la moyenne générale, bien que les tests basés sur la variance au sein de chaque cellule ne considéreront pas toutes les différences de moyennes comme significatives.

Ce type de données (grande moyenne et grande variance) se produit souvent lorsqu'il existe des observations aberrantes. Une ou deux observations aberrantes modifient considérablement la moyenne et augmentent considérablement la variance.

Homogénéité de la variance et de la covariance

Hypothèses. Les plans multivariés avec mesures dépendantes multivariées appliquent également l’hypothèse d’homogénéité de la variance décrite précédemment. Cependant, comme il existe des variables dépendantes multivariées, il est également nécessaire que leurs corrélations croisées (covariances) soient uniformes dans toutes les cellules du plan. Module Analyse de variance des offres différentes façons tester ces hypothèses.

Effets de la perturbation. Analogue multidimensionnel F- critère - Test λ de Wilks. On ne sait pas grand-chose de la robustesse du test de Wilks λ en ce qui concerne les violations des hypothèses ci-dessus. Cependant, puisque l'interprétation des résultats du module Analyse de variance est généralement basé sur l’importance des effets univariés (après avoir établi l’importance critère général), la discussion sur la robustesse concerne principalement l’analyse de variance univariée. Par conséquent, l’importance des effets univariés doit être soigneusement examinée.

Cas particulier : analyse de covariance. Des violations particulièrement graves de l’homogénéité de la variance/covariance peuvent se produire lorsque des covariables sont incluses dans le plan. En particulier, si la corrélation entre les covariables et les mesures dépendantes varie d’une cellule à l’autre dans le plan, une mauvaise interprétation des résultats peut s’ensuivre. N'oubliez pas que l'analyse de covariance effectue essentiellement une analyse de régression au sein de chaque cellule pour isoler la partie de la variance expliquée par la covariable. L’hypothèse d’homogénéité de variance/covariance implique que cette analyse de régression soit menée sous la contrainte suivante : tous équations de régression(pentes) sont les mêmes pour toutes les cellules. Si cela n'est pas prévu, il peut apparaître grosses erreurs. Module Analyse de variance dispose de plusieurs critères spéciaux pour tester cette hypothèse. Il est conseillé d'utiliser ces critères pour garantir que les équations de régression pour différentes cellules sont approximativement les mêmes.

Sphéricité et symétrie complexe : raisons d'utiliser une approche multivariée des mesures répétées en analyse de variance

Dans les plans contenant des facteurs à mesures répétées avec plus de deux niveaux, l'utilisation de l'ANOVA univariée nécessite des hypothèses supplémentaires : l'hypothèse de symétrie composée et l'hypothèse de sphéricité. Ces hypothèses sont rarement satisfaites (voir ci-dessous). Donc dans dernières années l'analyse multivariée de la variance a gagné en popularité dans de tels plans (les deux approches sont combinées dans le module Analyse de variance).

Hypothèse de symétrie complexe L'hypothèse de symétrie composée est que les variances (partagées au sein des groupes) et les covariances (partagées au sein des groupes) pour différentes mesures répétées sont homogènes (les mêmes). Il s'agit d'une condition suffisante pour que le test F univarié pour les mesures répétées soit valide (c'est-à-dire que les valeurs F rapportées sont en moyenne cohérentes avec la distribution F). Cependant, dans dans ce cas cette condition n'est pas nécessaire.

Hypothèse de sphéricité. L'hypothèse de sphéricité est une condition nécessaire et suffisante pour que le test F soit valide. Cela réside dans le fait qu'au sein des groupes toutes les observations sont indépendantes et également réparties. La nature de ces hypothèses, et l'impact de leur violation, ne sont généralement pas bien décrites dans les livres sur l'ANOVA - celles-ci seront abordées dans les paragraphes suivants. Nous montrerons également que les résultats d'une approche univariée peuvent différer des résultats d'une approche multivariée, et nous expliquerons ce que cela signifie.

La nécessité d'indépendance des hypothèses. La manière générale d’analyser les données dans ANOVA est montage du modèle. Si, par rapport au modèle qui ajuste les données, il existe des a priori hypothèses, puis la variance est divisée pour tester ces hypothèses (critères des effets principaux, interactions). D'un point de vue informatique, cette approche génère un ensemble de contrastes (un ensemble de comparaisons de moyennes de plans). Cependant, si les contrastes ne sont pas indépendants les uns des autres, la répartition des variances n’a plus de sens. Par exemple, si deux contrastes UN Et B sont identiques et la partie correspondante de la variance est extraite, puis la même partie est extraite deux fois. Par exemple, il est stupide et inutile d’identifier deux hypothèses : « la moyenne dans la cellule 1 est supérieure à la moyenne dans la cellule 2 » et « la moyenne dans la cellule 1 est supérieure à la moyenne dans la cellule 2 ». Les hypothèses doivent donc être indépendantes ou orthogonales.

Hypothèses indépendantes en mesures répétées. Algorithme général implémenté dans le module Analyse de variance, tentera de générer des contrastes indépendants (orthogonaux) pour chaque effet. Pour le facteur de mesures répétées, ces contrastes fournissent de nombreuses hypothèses concernant différences entre les niveaux du facteur considéré. Cependant, si ces différences sont corrélées au sein des groupes, alors les contrastes qui en résultent ne sont plus indépendants. Par exemple, dans un enseignement où les étudiants sont mesurés trois fois au cours d'un semestre, il peut arriver que l'évolution entre la 1ère et la 2ème mesure soit corrélée négativement avec l'évolution entre la 2ème et la 3ème mesure des matières. Ceux qui ont maîtrisé l'essentiel de la matière entre la 1ère et la 2ème dimension en maîtrisent une plus petite partie pendant le temps qui s'est écoulé entre la 2ème et la 3ème dimension. En fait, dans la plupart des cas où l’ANOVA est utilisée pour des mesures répétées, on peut supposer que les changements entre les niveaux sont corrélés entre les sujets. Cependant, lorsque cela se produit, l’hypothèse de symétrie complexe et l’hypothèse de sphéricité ne sont pas valables et des contrastes indépendants ne peuvent pas être calculés.

L'impact des violations et les moyens de les corriger. Lorsque les hypothèses complexes de symétrie ou de sphéricité ne sont pas respectées, l'ANOVA peut produire des résultats erronés. Avant que les procédures multivariées ne soient suffisamment développées, plusieurs hypothèses ont été proposées pour compenser les violations de ces hypothèses. (Voir, par exemple, Greenhouse & Geisser, 1959 et Huynh & Feldt, 1970). Ces méthodes sont encore largement utilisées (c'est pourquoi elles sont présentées dans le module Analyse de variance).

Analyse multivariée de la variance pour les mesures répétées. D'une manière générale, les problèmes de symétrie complexe et de sphéricité concernent le fait que les ensembles de contrastes inclus dans l'étude des effets de facteurs à mesures répétées (à plus de 2 niveaux) ne sont pas indépendants les uns des autres. Cependant, ils n'ont pas besoin d'être indépendants s'ils sont utilisés multidimensionnel un test permettant de tester simultanément la signification statistique de deux ou plusieurs contrastes de facteurs à mesures répétées. C'est la raison pour laquelle les techniques d'analyse multivariée de la variance sont de plus en plus utilisées pour tester la signification des facteurs de mesures répétées univariées comportant plus de 2 niveaux. Cette approche est largement acceptée car elle ne nécessite généralement pas de symétrie ou de sphéricité complexe.

Cas dans lesquels l’approche d’analyse de variance multivariée ne peut pas être utilisée. Il existe des exemples (plans) où l’approche d’analyse de variance multivariée ne peut pas être appliquée. Il s'agit généralement de cas où il n'y a pas un grand nombre de sujets dans la conception et de nombreux niveaux dans le facteur de mesures répétées. Il se peut alors qu’il y ait trop peu d’observations pour mener une analyse multivariée. Par exemple, s'il y a 12 sujets, p = 4 facteur de mesures répétées, et chaque facteur a k = 3 les niveaux. Alors l’interaction de 4 facteurs va « consommer » (k-1)P = 2 4 = 16 degrés de liberté. Cependant, il n’y a que 12 sujets, donc un test multivarié ne peut pas être réalisé dans cet exemple. Module Analyse de variance détectera indépendamment ces observations et calculera uniquement des critères unidimensionnels.

Différences dans les résultats univariés et multivariés. Si une étude implique un grand nombre de mesures répétées, il peut y avoir des cas où l'approche ANOVA à mesures répétées univariées produit des résultats très différents de ceux obtenus avec l'approche multivariée. Cela signifie que les différences entre les niveaux des mesures répétées correspondantes sont corrélées entre les sujets. Parfois, ce fait présente un intérêt indépendant.

Analyse multivariée de la variance et modélisation d'équations structurelles

Ces dernières années, la modélisation par équations structurelles est devenue populaire comme alternative à l'analyse de variance multivariée (voir, par exemple, Bagozzi et Yi, 1989 ; Bagozzi, Yi et Singh, 1991 ; Cole, Maxwell, Arvey et Salas, 1993). . Cette approche permet de tester des hypothèses non seulement sur les moyennes dans différents groupes, mais également sur les matrices de corrélation des variables dépendantes. Par exemple, on pourrait assouplir les hypothèses d’homogénéité des variances et des covariances et inclure explicitement les variances et covariances d’erreur dans le modèle pour chaque groupe. Module STATISTIQUEModélisation d'équations structurelles (SEPATH) (voir Tome III) permet une telle analyse.

Dans les activités pratiques des médecins lorsqu'ils mènent des recherches biomédicales, sociologiques et expérimentales, il est nécessaire d'établir l'influence de facteurs sur les résultats de l'étude de l'état de santé de la population, lors de l'évaluation de l'activité professionnelle et de l'efficacité des innovations.

Il existe un certain nombre de méthodes statistiques qui permettent de déterminer la force, la direction, les schémas d'influence des facteurs sur le résultat dans une population générale ou un échantillon (calcul du critère I, analyse de corrélation, régression, Χ 2 - (test d'ajustement de Pearson, etc.). L'analyse de la variance a été développée et proposée par le scientifique, mathématicien et généticien anglais Ronald Fisher dans les années 20 du 20e siècle.

L'analyse de variance est plus souvent utilisée dans la recherche scientifique et pratique en santé publique et en soins de santé pour étudier l'influence d'un ou plusieurs facteurs sur une caractéristique de résultat. Elle repose sur le principe de « refléter la diversité des valeurs du ou des facteurs sur la diversité des valeurs de la caractéristique résultante » et établit la force d'influence du ou des facteurs dans les populations échantillonnées.

L'essence de la méthode d'analyse de la variance est de mesurer les variances individuelles (totales, factorielles, résiduelles) et de déterminer en outre la force (part) de l'influence des facteurs étudiés (en évaluant le rôle de chaque facteur, ou leur influence conjointe) sur le ou les attributs résultants.

Analyse de variance est une méthode statistique permettant d'évaluer la relation entre les facteurs et les caractéristiques de performance dans différents groupes, sélectionnés au hasard, basée sur la détermination des différences (diversité) dans les valeurs des caractéristiques. L'analyse de variance repose sur l'analyse des écarts de toutes les unités de la population étudiée par rapport à la moyenne arithmétique. Comme mesure des écarts, la dispersion (B) est prise - le carré moyen des écarts. Les écarts causés par l'influence d'un attribut de facteur (facteur) sont comparés à l'ampleur des écarts causés par des circonstances aléatoires. Si les écarts provoqués par une caractéristique factorielle sont plus importants que les écarts aléatoires, alors le facteur est considéré comme ayant un impact significatif sur la caractéristique résultante.

Afin de calculer la dispersion, les valeurs d'écart de chaque option (chaque valeur numérique enregistrée de l'attribut) par rapport à la moyenne arithmétique sont mises au carré. Cela élimine les signes négatifs. Ensuite, ces écarts (différences) sont additionnés et divisés par le nombre d'observations, c'est-à-dire écarts moyens. Ainsi, les valeurs de variance sont obtenues.

Une importance méthodologique importante pour l’utilisation de l’analyse de variance est la sélection correcte de l’échantillon. En fonction du but et des objectifs, des groupes d'échantillons peuvent être constitués de manière aléatoire indépendamment les uns des autres (groupes témoins et expérimentaux pour étudier un indicateur, par exemple l'influence d'un niveau élevé pression artérielle sur l'évolution de l'AVC). De tels échantillons sont appelés indépendants.

Souvent, les résultats de l'exposition à des facteurs sont étudiés dans le même groupe d'échantillons (par exemple, les mêmes patients) avant et après l'exposition (traitement, prévention, mesures de rééducation) ; ces échantillons sont dits dépendants.

L'analyse de variance, qui teste l'influence d'un facteur, est appelée analyse à un facteur (analyse univariée). Lors de l'étude de l'influence de plusieurs facteurs, une analyse de variance multivariée (analyse multivariée) est utilisée.

Les caractéristiques factorielles sont les caractéristiques qui influencent le phénomène étudié.
Les caractéristiques efficaces sont les caractéristiques qui changent sous l'influence des caractéristiques factorielles.

Pour effectuer une analyse de variance, des caractéristiques tant qualitatives (sexe, profession) que quantitatives (nombre d'injections, patients dans le service, nombre de jours d'hospitalisation) peuvent être utilisées.

Méthodes d'analyse des écarts :

  1. Méthode de Fisher - critère F (pour les valeurs F, voir annexe n°1) ;
    La méthode est utilisée dans l'analyse de variance unidirectionnelle, où la variance totale de toutes les valeurs observées est décomposée en variance au sein des groupes individuels et en variance entre les groupes.
  2. La méthode du « modèle linéaire général ».
    Elle est basée sur une analyse de corrélation ou de régression utilisée en analyse multivariée.

Généralement, dans la recherche biomédicale, seuls des complexes de dispersion à un facteur, ou tout au plus à deux facteurs, sont utilisés. Les complexes multifactoriels peuvent être étudiés en analysant séquentiellement des complexes à un ou deux facteurs isolés de l’ensemble de la population observée.

Conditions d'utilisation de l'analyse des écarts :

  1. L'objectif de l'étude est de déterminer la force de l'influence d'un (jusqu'à 3) facteurs sur le résultat ou de déterminer la force de l'influence combinée de divers facteurs (sexe et âge, activité physique et nutrition, etc.).
  2. Les facteurs étudiés doivent être indépendants (sans rapport) les uns avec les autres. Par exemple, il est impossible d’étudier l’influence conjointe de l’expérience professionnelle et de l’âge, de la taille et du poids des enfants, etc. sur la morbidité de la population.
  3. La sélection des groupes pour l'étude est effectuée de manière aléatoire (sélection aléatoire). L'organisation d'un complexe de dispersion avec la mise en œuvre du principe du hasard dans la sélection des options est appelée randomisation (traduit de l'anglais - random), c'est-à-dire choisi au hasard.
  4. Des caractéristiques à la fois quantitatives et qualitatives (attributives) peuvent être utilisées.

Lors de la réalisation d'une analyse de variance unidirectionnelle, il est recommandé ( condition nécessaire applications):

  1. Normalité de distribution des groupes analysés ou correspondance des groupes d'échantillons avec des populations générales à distribution normale.
  2. Indépendance (et non parenté) de la répartition des observations en groupes.
  3. Disponibilité de la fréquence (répétition) des observations.

La normalité de la distribution est déterminée par la courbe de Gauss (De Mavoor), qui peut être décrite par la fonction y = f(x), puisqu'elle est l'une des lois de distribution utilisées pour approximer la description de phénomènes aléatoires, probabilistes. dans la nature. Le sujet de la recherche biomédicale est les phénomènes probabilistes ; on retrouve assez souvent une distribution normale dans de telles recherches.

Principe d'application de la méthode de l'analyse de variance

Tout d'abord, une hypothèse nulle est formulée, c'est-à-dire qu'on suppose que les facteurs étudiés n'ont aucun effet sur les valeurs de la caractéristique résultante et que les différences obtenues sont aléatoires.

Ensuite, nous déterminons quelle est la probabilité d’obtenir les différences observées (ou plus fortes), à condition que l’hypothèse nulle soit vraie.

Si cette probabilité est faible*, alors nous rejetons l’hypothèse nulle et concluons que les résultats de l’étude sont statistiquement significatifs. Cela ne signifie pas que l'effet des facteurs étudiés soit prouvé (c'est avant tout une question de planification de la recherche), mais il est encore peu probable que le résultat soit dû au hasard.
__________________________________
* La probabilité maximale acceptable de rejeter une véritable hypothèse nulle est appelée niveau de signification et est désignée par α = 0,05.

Si toutes les conditions d'application de l'analyse de la variance sont remplies, la décomposition de la variance totale ressemble mathématiquement à ceci :

D total = D fait + D repos. ,

D total - la dispersion totale des valeurs observées (variante), caractérisée par la dispersion de la variante par rapport à la moyenne générale. Mesure la variation d'un trait dans son intégralité sous l'influence de tous les facteurs ayant provoqué cette variation. La diversité globale comprend la diversité intergroupe et intragroupe ;

D fait - dispersion factorielle (intergroupe), caractérisée par la différence de moyennes dans chaque groupe et dépend de l'influence du facteur étudié, par lequel chaque groupe est différencié. Par exemple, dans les groupes qui diffèrent par le facteur étiologique de l'évolution clinique de la pneumonie, le niveau moyen de journée au lit n'est pas le même - une diversité intergroupe est observée.

D repos. - la variance résiduelle (intra-groupe), qui caractérise la dispersion du variant au sein des groupes. Reflète une variation aléatoire, c'est-à-dire une partie de la variation qui se produit sous l'influence de facteurs non spécifiés et ne dépend pas de la caractéristique - le facteur qui constitue la base du groupe. La variation du trait étudié dépend de la force de l'influence de certains facteurs aléatoires non pris en compte, à la fois organisés (définis par le chercheur) et aléatoires (inconnus).

Par conséquent, la variation totale (variance) comprend la variation causée par des facteurs organisés (donnés), appelés variation factorielle, et des facteurs non organisés, c'est-à-dire variation résiduelle (aléatoire, inconnue).

L'analyse de variance classique s'effectue selon les étapes suivantes :

  1. Construction d'un complexe de dispersion.
  2. Calcul des écarts carrés moyens.
  3. Calcul de la variance.
  4. Comparaison des variances factorielles et résiduelles.
  5. Évaluation des résultats à partir des valeurs théoriques de la distribution de Fisher-Snedecor (Annexe n°1).

ALGORITHME POUR RÉALISER UNE ANALYSE DE VARIANCE À L'AIDE D'UNE OPTION SIMPLIFIÉE

L'algorithme d'analyse de variance selon une méthode simplifiée permet d'obtenir les mêmes résultats, mais les calculs sont beaucoup plus simples :

Étape I. Construction d'un complexe de dispersion

Construire un complexe de dispersion signifie construire un tableau dans lequel les facteurs, le signe effectif et la sélection des observations (patients) dans chaque groupe seraient clairement distingués.

Un complexe à un seul facteur se compose de plusieurs gradations d'un facteur (A). Les gradations sont des échantillons provenant de différentes populations générales (A1, A2, AZ).

Complexe à deux facteurs - se compose de plusieurs gradations de deux facteurs en combinaison les uns avec les autres. Les facteurs étiologiques de l'incidence de la pneumonie sont les mêmes (A1, A2, AD) en combinaison avec différentes formes d'évolution clinique de la pneumonie (H1 - aiguë, H2 - chronique).

Indicateur de résultat (nombre de jours-lits en moyenne) Facteurs étiologiques pour le développement de la pneumonie
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 jours

Étape II. Calcul de la moyenne générale (M total)

Calcul de l'option somme pour chaque gradation de facteurs : Σ Vj = V 1 + V 2 + V 3

Calcul du montant total de l'option (Σ V total) pour toutes les gradations de la caractéristique factorielle : Σ V total = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Calcul de la caractéristique factorielle moyenne du groupe (M gr.): M gr. = ΣVj/N,
où N est la somme du nombre d'observations pour toutes les gradations de la caractéristique du facteur I (Σn par groupe).

Stade III. Calcul des écarts :

Si toutes les conditions d’application de l’analyse de variance sont remplies, la formule mathématique est la suivante :

D total = D fait + D repos.

D total - dispersion totale, caractérisée par la diffusion de variantes (valeurs observées) par rapport à la moyenne générale ;
D fait. - la dispersion factorielle (intergroupe), caractérise l'écart des moyennes de groupe par rapport à la moyenne globale ;
D repos. - la variance résiduelle (intra-groupe), caractérise la dispersion du variant au sein des groupes.

  1. Calcul de la variance factorielle (D fait) : D fait. = Σ h - H
  2. Le calcul de h s'effectue selon la formule : h = (Σ Vj) / N
  3. Le calcul de N s'effectue selon la formule : H = (ΣV)2/N
  4. Calcul de la variance résiduelle : D repos. = (Σ V) 2 - Σ h
  5. Calcul de la variance totale : D total = (Σ V) 2 - Σ H

Stade IV. Calcul de l'indicateur principal de la force d'influence du facteur étudié L'indicateur de la force d'influence (η 2) d'une caractéristique factorielle sur le résultat est déterminé par la part de la variance factorielle (D fact.) dans la variance totale (D total), η 2 (eta) - montre quelle part la L'influence du facteur étudié occupe parmi tous les autres facteurs et est déterminée par la formule :

Étape V. La détermination de la fiabilité des résultats de la recherche par la méthode Fisher s'effectue à l'aide de la formule :


F - Test de Fisher ;
F st. - valeur du tableau (voir annexe 1).
σ 2 fait, σ 2 reste. - écarts factoriels et résiduels (du latin de - from, via - road) - écart par rapport à la ligne médiane, déterminé par les formules :


r est le nombre de gradations de la caractéristique factorielle.

Une comparaison du critère de Fisher (F) avec le standard (tabulaire) F est réalisée selon les colonnes du tableau en tenant compte des degrés de liberté :

v 1 = n - 1
v 2 = N - 1

Déterminez horizontalement v 1 verticalement - v 2 , à leur intersection déterminez la valeur du tableau F, où la valeur du haut du tableau p ≥ 0,05, et le bas correspond à p > 0,01, et comparez avec le critère calculé F. Si la valeur du calculé le critère F est égal ou supérieur au tableau, alors les résultats sont fiables et H 0 n'est pas rejeté.

La tâche:

Dans l'entreprise de N., le niveau de blessures a augmenté et le médecin a donc mené une étude des facteurs individuels, parmi lesquels l'expérience professionnelle des personnes travaillant dans les ateliers. Les échantillons ont été réalisés à l'entreprise N. dans 4 ateliers présentant des conditions et une nature de travail similaires. Les taux d'accidents sont calculés pour 100 travailleurs au cours de l'année écoulée.

Lors de l'étude du facteur expérience de travail, les données suivantes ont été obtenues :

Sur la base des données de l'étude, une hypothèse nulle (H 0) a été avancée quant à l'influence de l'expérience professionnelle sur le niveau de blessures des salariés de l'entreprise A.

Exercice
Confirmez ou infirmez l'hypothèse nulle à l'aide d'une analyse de variance unidirectionnelle :

  1. déterminer la force de l'influence ;
  2. évaluer la fiabilité de l'influence du facteur.

Étapes pour appliquer l’ANOVA
déterminer l'influence d'un facteur (expérience professionnelle) sur le résultat (taux de blessures)

Conclusion. Dans l'ensemble de l'échantillon, il a été révélé que l'influence de l'expérience professionnelle sur le taux d'accidents représente 80 % du nombre total d'autres facteurs. Pour tous les ateliers de l'usine, on peut affirmer avec une probabilité de 99,7 % (13,3 > 8,7) que l'expérience professionnelle affecte le niveau de blessures.

Ainsi, l'hypothèse nulle (H 0) n'est pas rejetée et l'influence de l'expérience professionnelle sur le niveau de blessures dans les ateliers de l'usine A est considérée comme prouvée.

Valeur F (test de Fisher) standard à p ≥ 0,05 (valeur supérieure) à p ≥ 0,01 (valeur inférieure)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Vlassov V.V. Épidémiologie. - M. : GEOTAR-MED, 2004. 464 p.
  2. Arkhipova G.L., Lavrova I.G., Troshina I.M. Quelques méthodes modernes analyse statistique en médecine. - M. : Metrosnab, 1971. - 75 p.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. Appliqué statistiques médicales. - Saint-Pétersbourg : FOLIANT Publishing House LLC, 2003. - 432 p.
  4. Platonov A.E. Analyse statistique en médecine et biologie : tâches, terminologie, logique, méthodes informatiques. - M. : Maison d'édition de l'Académie russe des sciences médicales, 2000. - 52 p.
  5. Plokhinsky N.A. Biométrie. - Maison d'édition de la branche sibérienne de l'Académie des sciences de l'URSS de Novossibirsk. - 1961. - 364 p.
Articles similaires

2023 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.