Signification des coefficients de corrélation. Test : estimation de la signification des coefficients de régression et de corrélation à l'aide du test f de Student

DONNÉE INITIALE

ÉVALUATION DE LA FIABILITÉ DU COEFFICIENT DE CORRÉLATION

Coefficient corrélation linéaire, calculé à partir de données d'échantillon est Variable aléatoire. Coefficient de corrélation dérivé de l'échantillon r est une estimation du coefficient de corrélation r dans population. Plus le nombre d'observations diminue, plus la fiabilité du coefficient de corrélation diminue. L'évaluation de la significativité (signification) du coefficient de corrélation linéaire est basée sur une comparaison de la valeur r avec son erreur quadratique moyenne :

Lors de l'évaluation de la signification du coefficient de corrélation, les situations suivantes sont généralement prises en compte.

1. Si le nombre d'observations est suffisamment important (généralement supérieur à 30) et que la valeur du coefficient de corrélation ne dépasse pas 0,9, la distribution du coefficient de corrélation r peut être considéré comme approximativement normal avec l'erreur quadratique moyenne

Quand assez grands nombres observations r doit dépasser son erreur moyenne d'au moins trois fois : . Si cette inégalité n'est pas satisfaite, l'existence d'une relation entre les caractéristiques ne peut être considérée comme prouvée.

Étant donné une certaine probabilité, il est possible de construire des bornes de confiance r :

Ainsi, par exemple, avec une probabilité de 0,95, pour laquelle t= 1,96, les limites de confiance seront

,

Avec une probabilité de 0,997, pour laquelle le coefficient de confiance t= 3, les limites de confiance seront

Étant donné que la valeur de r ne peut pas dépasser un, alors si > 1, seule la limite inférieure doit être indiquée, c'est-à-dire qu'il convient d'indiquer que le r réel n'est pas inférieur à .

2. Pour un échantillon de petite taille, avec distribution r loin de la normale, d'autres méthodes d'évaluation de la significativité du coefficient de corrélation sont utilisées. Avec un petit nombre d'observations (n< 30), erreur moyenne coefficient de corrélation linéaire est trouvé par la formule :

et la signification est testée sur la base de t Critère de l'élève. Parallèlement, une hypothèse est émise sur l'égalité du coefficient de corrélation à zéro, c'est-à-dire sur l'absence de lien entre y et x dans la population générale. Pour cela, des statistiques sont utilisées :

,

dont la valeur calculée est comparée à la valeur de la table des tables de distribution de Student. Si l'hypothèse nulle est vraie, c'est r=0, alors la distribution t- le critère obéit à la loi de distribution de Student avec n-2 degrés de liberté et un niveau de signification accepté (habituellement 0,05). Dans chaque cas, selon le tableau de distribution t-Le critère de l'élève est une valeur tabulaire (critique) t, ce qui est acceptable si l'hypothèse nulle est vraie, et la valeur réelle (calculée) y est comparée t. Si un t calc. > t tableau. , alors l'hypothèse nulle est rejetée et coefficient linéaire considéré comme significatif, et la relation entre X et y- essentiel. Et vice versa.



3. Avec un petit nombre d'observations dans l'échantillon et un coefficient de corrélation élevé (distribution r différent de la normale) pour tester l'hypothèse sur la présence d'une corrélation, ainsi que pour construire Intervalle de confiance la transformée en z de Fisher est appliquée.

Pour cela, la valeur est calculée

Distribution z se rapproche de la normale. Variation z s'exprime par la formule

Calculons le test z pour l'exemple 1, puisque dans ce cas nous avons un petit nombre d'observations et un coefficient de corrélation élevé.

.

Afin de ne pas calculer les valeurs des logarithmes, vous pouvez utiliser des tables spéciales de transformations en Z (Efimova M.R. p. 402, Shmoylova R.A. p. 446, Eliseeva I. I. p. 473). Nous constatons que le coefficient de corrélation de 0,94 correspond à Z=1,74.

Attitude Zà l'erreur quadratique moyenne est de 3. Ainsi, nous pouvons supposer qu'il existe une relation réelle entre la valeur de la production et la consommation d'électricité pour l'ensemble des entreprises.

Nous allons calculer les coefficients de corrélation dans le programme STATISTICA.

Figure 1 - Matrice de corrélation.

La corrélation détermine dans quelle mesure les valeurs de deux variables sont "proportionnelles" l'une à l'autre. Proportionnalité signifie simplement dépendance linéaire . La corrélation est élevée si la dépendance « peut être représentée » sur le graphique par une droite (avec une pente positive ou négative). Il s'agit donc du modèle de régression le plus simple décrivant la dépendance d'une variable à un facteur.

Nous rappelons les principales caractéristiques de cet indicateur.

Il peut prendre des valeurs de -1 à +1. Le signe "+" signifie que la relation est directe (lorsque les valeurs d'une variable augmentent, les valeurs de l'autre variable augmentent également), "-" signifie que la relation est inverse.

Plus le coefficient est proche de 1, plus la valeur du coefficient de corrélation est inférieure à 0,3, plus la relation est évaluée comme faible, de 0,31 à 0,5 - modérée, de 0,51 à 0,7 - significative, de 0,71 à 0,9 - proche, 0,91 et plus - très serré.

Si toutes les valeurs des variables sont augmentées (diminuées) du même nombre ou du même nombre de fois, la valeur du coefficient de corrélation ne changera pas.

Le coefficient de corrélation est un indicateur qui évalue l'étroitesse d'une relation linéaire entre les caractéristiques.

À r= ±1 corrélation est une dépendance fonctionnelle linéaire. Dans ce cas, toutes les valeurs observées sont situées sur une ligne droite commune. Elle est aussi appelée droite de régression. À r= 0 il n'y a pas de corrélation linéaire. Dans ce cas, les moyennes de groupe des variables coïncident avec leurs moyennes générales et les droites de régression sont parallèles aux axes de coordonnées.

Égalité r= 0 ne parle que de l'absence d'une dépendance de corrélation linéaire (variables non corrélées), mais pas en général de l'absence de corrélation, et plus encore, d'une dépendance statistique.

Sur la base des coefficients de corrélation, nous ne pouvons pas prouver rigoureusement les relations de cause à effet entre les variables, mais vous pouvez identifier les fausses corrélations, c'est-à-dire les corrélations dues aux influences d'"autres" variables qui restent en dehors de votre champ de vision.

Le principal problème avec la fausse corrélation est que nous ne savons pas

qui est son porteur. Cependant, si nous savons où chercher, alors

vous pouvez utiliser des corrélations partielles , pour contrôler l'influence (partiellement exclue) de certaines variables.


Figure 2 - Diagrammes de dispersion.

COURS DE TRAVAIL

Sujet : Analyse de corrélation

Introduction

1. Analyse de corrélation

1.1 Le concept de corrélation

1.2 Classification générale corrélations

1.3 Les champs de corrélation et le but de leur construction

1.4 Étapes analyse de corrélation

1.5 Coefficients de corrélation

1.6 Coefficient de corrélation de Bravais-Pearson normalisé

1.7 Coefficient corrélation de rang Lancier

1.8 Propriétés de base des coefficients de corrélation

1.9 Vérification de la significativité des coefficients de corrélation

1.10 Valeurs critiques du coefficient de corrélation de paire

2. Planifier une expérience multivariée

2.1 État du problème

2.2 Détermination du centre du plan (niveau principal) et du niveau de variation des facteurs

2.3 Construire une matrice de planification

2.4 Vérification de l'homogénéité de la dispersion et de l'égale précision des mesures dans différentes séries

2.5 Coefficients de l'équation de régression

2.6 Dispersion de reproductibilité

2.7 Vérification de la significativité des coefficients de l'équation de régression

2.8 Vérification de l'adéquation de l'équation de régression

Conclusion

Bibliographie

INTRODUCTION

La planification d'expériences est une discipline mathématique et statistique qui étudie les méthodes d'organisation rationnelle études expérimentales- de choix optimal les facteurs étudiés et la définition du plan même de l'expérience en fonction de son objet aux modalités d'analyse des résultats. Le début de la planification des expériences a été posé par les travaux du statisticien anglais R. Fisher (1935), qui a souligné que la planification rationnelle des expériences n'apporte pas moins de gain significatif dans la précision des estimations que le traitement optimal des résultats de mesure. Dans les années 60 du 20ème siècle, il y avait théorie moderne planification d'expériences. Ses méthodes sont étroitement liées à la théorie de l'approximation des fonctions et à la programmation mathématique. construit plans optimaux et leurs propriétés sont étudiées pour une large classe de modèles.

Planification d'expérience - le choix d'un plan d'expérience qui répond aux exigences spécifiées, un ensemble d'actions visant à développer une stratégie d'expérimentation (de l'obtention d'informations a priori à l'obtention d'un modèle ou d'une définition mathématique exploitable conditions optimales). Il s'agit d'un contrôle délibéré de l'expérience, mis en œuvre dans des conditions de connaissance incomplète du mécanisme du phénomène étudié.

Au cours des mesures, du traitement ultérieur des données, ainsi que de la formalisation des résultats sous la forme d'un modèle mathématique, des erreurs se produisent et une partie des informations contenues dans les données d'origine est perdue. L'utilisation de méthodes de planification d'expériences permet de déterminer l'erreur du modèle mathématique et de juger de son adéquation. Si la précision du modèle s'avère insuffisante, alors l'utilisation de méthodes de planification d'expériences permet de moderniser modèle mathématique avec des expériences supplémentaires sans perte des informations précédentes et à un coût minime.

Le but de la planification d'expériences est de trouver de telles conditions et règles pour mener des expériences dans lesquelles il est possible d'obtenir des informations fiables et fiables sur l'objet avec le moins de coûts de main-d'œuvre, ainsi que de présenter ces informations sous une forme compacte et pratique avec un quantitatif évaluation de l'exactitude.

Parmi les principales méthodes de planification utilisées dans differentes etapes la recherche utilise :

Planification d'une expérience de dépistage, dont le sens principal est la sélection d'un groupe de facteurs significatifs parmi la totalité des facteurs faisant l'objet d'une étude plus approfondie;

Planifier une expérience pour analyse de la variance, c'est à dire. établir des plans d'objets avec des facteurs qualitatifs;

Planification d'une expérience de régression permettant d'obtenir des modèles de régression (polynomiaux et autres);

Planification d'une expérience extrême, dans laquelle la tâche principale est l'optimisation expérimentale de l'objet d'étude ;

Planification dans l'étude des processus dynamiques, etc.

L'étude de la discipline a pour objectif de préparer les étudiants aux activités de production et techniques de la spécialité en utilisant les méthodes de la théorie de la planification et des technologies de l'information modernes.

Objectifs de la discipline : étude méthodes modernes planifier, organiser et optimiser des expériences scientifiques et industrielles, conduire des expériences et traiter les résultats.

1. ANALYSE DE CORRÉLATION

1.1 Le concept de corrélation

Le chercheur s'intéresse souvent à la manière dont deux ou plusieurs variables sont liées entre elles dans un ou plusieurs des échantillons étudiés. Par exemple, la taille peut-elle affecter le poids d'une personne ou la pression peut-elle affecter la qualité du produit ?

Ce type de relation entre les variables est appelé corrélation ou corrélation. Une corrélation est un changement constant de deux caractéristiques, reflétant le fait que la variabilité d'une caractéristique est en ligne avec la variabilité de l'autre.

On sait, par exemple, qu'il existe en moyenne une relation positive entre la taille des personnes et leur poids, et telle que plus la taille est grande, plus le poids d'une personne est important. Il existe cependant des exceptions à cette règle lorsque les personnes relativement petites sont en surpoids, et, à l'inverse, les asthéniques, lorsque haut avoir un faible poids. La raison de telles exclusions est que chaque trait biologique, physiologique ou psychologique est déterminé par l'influence de nombreux facteurs : environnementaux, génétiques, sociaux, écologiques, etc.

Les corrélations sont des changements probabilistes qui ne peuvent être étudiés que sur des échantillons représentatifs par des méthodes statistiques mathématiques. Les deux termes - corrélation et dépendance de corrélation - sont souvent utilisés de manière interchangeable. La dépendance signifie influence, connexion - tout changement coordonné qui peut s'expliquer par des centaines de raisons. Les corrélations ne peuvent pas être considérées comme la preuve d'une relation causale, elles indiquent seulement que les modifications d'une caractéristique s'accompagnent généralement de certaines modifications d'une autre.

Dépendance à la corrélation - sont les changements que les valeurs d'une caractéristique apportent à la probabilité d'occurrence différentes valeurs un autre signe.

La tâche de l'analyse de corrélation est réduite à établir la direction (positive ou négative) et la forme (linéaire, non linéaire) de la relation entre des caractéristiques variables, à mesurer son étanchéité et, enfin, à vérifier le niveau de signification de la corrélation obtenue. coefficients.

Les corrélations diffèrent dans la forme, la direction et le degré (force) .

La forme de la corrélation peut être rectiligne ou curviligne. Par exemple, la relation entre le nombre de sessions de formation sur le simulateur et le nombre de problèmes correctement résolus lors de la session de contrôle peut être simple. Curviligne peut être, par exemple, la relation entre le niveau de motivation et l'efficacité de la tâche (Figure 1). Avec une augmentation de la motivation, l'efficacité de la tâche augmente d'abord, puis le niveau optimal de motivation est atteint, ce qui correspond à efficacité maximale achèvement des tâches ; une nouvelle augmentation de la motivation s'accompagne d'une diminution de l'efficacité.

Figure 1 - La relation entre l'efficacité de la résolution de problèmes et la force de la tendance motivationnelle

En direction, la corrélation peut être positive (« directe ») et négative (« inverse »). Avec positif corrélation rectiligne les valeurs supérieures d'un attribut correspondent aux valeurs supérieures de l'autre, et les valeurs inférieures d'un attribut correspondent aux valeurs faibles de l'autre (Figure 2). Avec une corrélation négative, les ratios sont inversés (Figure 3). Avec une corrélation positive, le coefficient de corrélation a signe positif, avec une corrélation négative - un signe négatif.

Figure 2 - Corrélation directe

Figure 3 - Corrélation inverse


Figure 4 - Aucune corrélation

Le degré, la force ou l'étroitesse de la corrélation est déterminé par la valeur du coefficient de corrélation. La force de la connexion ne dépend pas de sa direction et est déterminée par la valeur absolue du coefficient de corrélation.

1.2 Classification générale des corrélations

En fonction du coefficient de corrélation, on distingue les corrélations suivantes :

Fort ou proche avec coefficient de corrélation r>0,70 ;

Moyen (à 0,50

Modéré (à 0,30

Faible (à 0,20

Très faible (à r<0,19).

1.3 Les champs de corrélation et le but de leur construction

La corrélation est étudiée sur la base de données expérimentales, qui sont les valeurs mesurées (x i , y i) de deux caractéristiques. S'il y a peu de données expérimentales, alors la distribution empirique bidimensionnelle est représentée comme une double série de valeurs x i et y i. Dans ce cas, la corrélation entre les caractéristiques peut être décrite de différentes manières. La correspondance entre un argument et une fonction peut être donnée par un tableau, une formule, un graphique, etc.

L'analyse de corrélation, comme d'autres méthodes statistiques, est basée sur l'utilisation de modèles probabilistes qui décrivent le comportement des caractéristiques étudiées dans une certaine population générale, à partir desquelles les valeurs expérimentales x i et y i sont obtenues. Lorsque la corrélation entre des caractéristiques quantitatives, dont les valeurs peuvent être mesurées avec précision en unités d'échelles métriques (mètres, secondes, kilogrammes, etc.), est étudiée, le modèle d'une population générale à deux dimensions normalement distribuée est très souvent adopté. Un tel modèle affiche graphiquement la relation entre les variables xi et yi sous la forme d'un lieu géométrique de points dans un système de coordonnées rectangulaires. Cette dépendance graphique est également appelée nuage de points ou champ de corrélation.
Ce modèle d'une distribution normale bidimensionnelle (champ de corrélation) vous permet de donner une interprétation graphique visuelle du coefficient de corrélation, car la distribution dans l'agrégat dépend de cinq paramètres : μ x , μ y – valeurs moyennes (espérances mathématiques) ; σ x ,σ y sont les écarts-types des variables aléatoires X et Y et p est le coefficient de corrélation, qui est une mesure de la relation entre les variables aléatoires X et Y.
Si p \u003d 0, alors les valeurs, x i , y i , obtenues à partir d'un ensemble normal bidimensionnel, sont situées sur le graphique en coordonnées x, y dans la zone délimitée par un cercle (Figure 5, a). Dans ce cas, il n'y a pas de corrélation entre les variables aléatoires X et Y et elles sont dites non corrélées. Pour une distribution normale à deux dimensions, la non-corrélation signifie en même temps l'indépendance des variables aléatoires X et Y.

Comme cela a été noté à plusieurs reprises, pour une conclusion statistique sur la présence ou l'absence d'une corrélation entre les variables étudiées, il est nécessaire de vérifier la signification du coefficient de corrélation de l'échantillon. Étant donné que la fiabilité des caractéristiques statistiques, y compris le coefficient de corrélation, dépend de la taille de l'échantillon, il peut arriver que la valeur du coefficient de corrélation soit entièrement due à des fluctuations aléatoires de l'échantillon sur la base duquel il est calculé. Avec une relation significative entre les variables, le coefficient de corrélation doit être significativement différent de zéro. S'il n'y a pas de corrélation entre les variables étudiées, alors le coefficient de corrélation de la population générale ρ est égal à zéro. Dans les études pratiques, en règle générale, ils sont basés sur des observations sélectives. Comme toute caractéristique statistique, le coefficient de corrélation de l'échantillon est une variable aléatoire, c'est-à-dire que ses valeurs se dispersent de manière aléatoire autour du paramètre de la population générale du même nom (la vraie valeur du coefficient de corrélation). En l'absence de corrélation entre les variables y et x le coefficient de corrélation dans la population générale est nul. Mais en raison de la nature aléatoire de la diffusion, des situations sont fondamentalement possibles lorsque certains coefficients de corrélation calculés à partir d'échantillons de cette population seront différents de zéro.

Les différences observées peuvent-elles être attribuées à des fluctuations aléatoires de l'échantillon ou reflètent-elles un changement significatif dans les conditions de formation des relations entre les variables ? Si les valeurs du coefficient de corrélation de l'échantillon tombent dans la zone de dispersion en raison de la nature aléatoire de l'indicateur lui-même, cela ne prouve pas l'absence de connexion. Le plus que l'on puisse dire dans ce cas est que les données d'observation ne nient pas l'absence de relation entre les variables. Mais si la valeur du coefficient de corrélation de l'échantillon se situe en dehors de la zone de dispersion mentionnée, on en conclut qu'elle est significativement différente de zéro, et on peut supposer qu'entre les variables y et x il existe une relation statistiquement significative. Le critère utilisé pour résoudre ce problème, basé sur la distribution de diverses statistiques, est appelé critère de signification.

La procédure de test de signification commence par la formulation de l'hypothèse nulle H0 . De manière générale, cela réside dans le fait qu'il n'y a pas de différences significatives entre le paramètre échantillon et le paramètre population. Hypothèse alternative H1 est qu'il existe des différences significatives entre ces paramètres. Par exemple, lors du test de corrélation dans la population, l'hypothèse nulle est que le vrai coefficient de corrélation est égal à zéro ( H0: ρ = 0). Si, à la suite du test, il s'avère que l'hypothèse nulle n'est pas acceptable, alors le coefficient de corrélation de l'échantillon rwow significativement différent de zéro (l'hypothèse nulle est rejetée et l'alternative est acceptée) H1). En d'autres termes, l'hypothèse de variables aléatoires non corrélées dans la population générale devrait être reconnue comme déraisonnable. Inversement, si elle est basée sur le test de signification, l'hypothèse nulle est acceptée, c'est-à-dire rwow se situe dans la zone admissible de dispersion aléatoire, il n'y a aucune raison de considérer comme douteuse l'hypothèse de variables non corrélées dans la population générale.

Dans un test de signification, le chercheur définit un niveau de signification α qui donne une certaine confiance pratique que des conclusions erronées ne seront tirées que dans de très rares cas. Le seuil de signification exprime la probabilité que l'hypothèse nulle H0 rejetée au moment où elle est réellement vraie. Il est clair qu'il est logique de choisir cette probabilité aussi petite que possible.

Soit connue la distribution de la caractéristique de l'échantillon, qui est une estimation non biaisée du paramètre de la population. Le seuil de signification α retenu correspond aux zones grisées sous la courbe de cette distribution (cf. Fig. 24). La zone non ombrée sous la courbe de distribution définit la probabilité P = 1-α . Les limites des segments sur l'axe des x sous les zones ombrées sont appelées valeurs critiques, et les segments eux-mêmes forment la région critique, ou la région de rejet d'hypothèse.

Dans la procédure de test d'hypothèse, la caractéristique de l'échantillon calculée à partir des résultats des observations est comparée à la valeur critique correspondante. Dans ce cas, il convient de distinguer les régions critiques unilatérales et bilatérales. La forme de spécification de la région critique dépend de la formulation du problème dans une étude statistique. Une région critique bilatérale est nécessaire lorsque, lors de la comparaison du paramètre d'échantillon et du paramètre de population, il est nécessaire d'estimer la valeur absolue de l'écart entre eux, c'est-à-dire que les différences positives et négatives entre les valeurs étudiées sont intéressantes . Lorsqu'il faut s'assurer qu'une valeur est en moyenne strictement supérieure ou inférieure à une autre, une région critique unilatérale (droite ou gauche) est utilisée. Il est bien évident que pour une même valeur critique, le niveau de signification lors de l'utilisation d'une région critique unilatérale est moindre que lors de l'utilisation d'une région critique bilatérale. Si la distribution de la caractéristique de l'échantillon est symétrique,

Riz. 24. Tester l'hypothèse nulle H0

alors le niveau de signification de la région critique bilatérale est égal à α, et le niveau de signification de la région critique unilatérale est (voir Fig. 24). On se borne à une formulation générale du problème. Plus de détails sur la justification théorique du test des hypothèses statistiques peuvent être trouvés dans la littérature spécialisée. De plus, nous nous contenterons d'indiquer les critères de significativité des différentes procédures, sans nous attarder sur leur construction.

En vérifiant la significativité du coefficient de corrélation de paire, on établit la présence ou non d'une corrélation entre les phénomènes étudiés. En l'absence de lien, le coefficient de corrélation de la population générale est égal à zéro (ρ = 0). La procédure de vérification commence par la formulation des hypothèses nulle et alternative :

H0: différence entre le coefficient de corrélation de l'échantillon r et ρ = 0 est non significatif,

H1: différence entre r et ρ = 0 est significatif, et donc, entre les variables à et X il y a un lien important. Il découle de l'hypothèse alternative qu'il faut utiliser une région critique bilatérale.

Il a déjà été mentionné dans la section 8.1 que le coefficient de corrélation de l'échantillon, sous certaines hypothèses, est associé à une variable aléatoire t, obéissant à la distribution de Student avec F =n- 2 degrés de liberté. Statistiques calculées à partir des résultats de l'échantillon

est comparée à la valeur critique déterminée à partir du tableau de distribution de Student à un niveau de signification donné α etF =n- 2 degrés de liberté. La règle d'application du critère est la suivante : si | t| >tf,un, alors l'hypothèse nulle au niveau de signification α rejeté, c'est-à-dire que la relation entre les variables est significative ; si | t| ≤tf,un, alors l'hypothèse nulle au niveau de signification α est acceptée. Écart de valeur r de ρ = 0 peut être attribuée à une variation aléatoire. Ces échantillons caractérisent l'hypothèse considérée comme très possible et plausible, c'est-à-dire que l'hypothèse de l'absence de lien n'est pas répréhensible.

La procédure pour tester une hypothèse est grandement simplifiée si au lieu de statistiques t utiliser les valeurs critiques du coefficient de corrélation, qui peuvent être déterminées en fonction des quantiles de la distribution de Student en remplaçant dans (8.38) t= tf, un et r= ρ F, un:

(8.39)

Il existe des tableaux détaillés de valeurs critiques dont un extrait est donné en annexe de cet ouvrage (voir tableau 6). La règle pour tester l'hypothèse dans ce cas est la suivante : si r> ρ F, a, alors on peut affirmer que la relation entre les variables est significative. Si un rRF,un, alors les résultats des observations sont considérés comme cohérents avec l'hypothèse d'absence de lien.

Introduction. 2

1. Évaluation de la significativité des coefficients de régression et de corrélation à l'aide du test f de Student. 3

2. Calcul de la signification des coefficients de régression et de corrélation à l'aide du test f de Student. 6

Conclusion. quinze

Après avoir construit l'équation de régression, il est nécessaire de vérifier sa signification : à l'aide de critères spéciaux, déterminer si la dépendance résultante exprimée par l'équation de régression est aléatoire, c'est-à-dire si elle peut être utilisée à des fins prédictives et pour l'analyse factorielle. En statistique, des méthodes ont été développées pour tester rigoureusement la signification des coefficients de régression en utilisant l'analyse de la variance et le calcul de critères spéciaux (par exemple, le critère F). Une vérification non stricte peut être effectuée en calculant l'écart linéaire relatif moyen (e), appelé erreur d'approximation moyenne :

Passons maintenant à l'évaluation de la significativité des coefficients de régression bj et à la construction d'un intervalle de confiance pour les paramètres du modèle de régression Py (J=l,2,..., p).

Bloc 5 - évaluation de la signification des coefficients de régression par la valeur du test t de Student. Les valeurs calculées de ta sont comparées à la valeur admissible

Bloc 5 - évaluation de la signification des coefficients de régression par la valeur du critère ^. Les valeurs calculées de t0n sont comparées à la valeur admissible 4,/, qui est déterminée à partir des tableaux de t - distributions pour une probabilité d'erreur donnée (a) et le nombre de degrés de liberté (/).

En plus de tester la signification de l'ensemble du modèle, il est nécessaire de tester la signification des coefficients de régression à l'aide du test / de Student. La valeur minimale du coefficient de régression bg doit correspondre à la condition bifob- ^t, où bi est la valeur du coefficient de l'équation de régression en échelle naturelle avec le ième attribut facteur ; un B. - erreur quadratique moyenne de chaque coefficient. incompatibilité entre eux quant à leur significativité des coefficients D ;

Une analyse statistique plus approfondie concerne le test de la signification des coefficients de régression. Pour ce faire, nous trouvons la valeur du critère ^ pour les coefficients de régression. À la suite de leur comparaison, le plus petit critère t est déterminé. Le facteur dont le coefficient correspond au plus petit critère ^ est exclu de l'analyse ultérieure.

Pour évaluer la signification statistique des coefficients de régression et de corrélation, le test t de Student et les intervalles de confiance pour chacun des indicateurs sont calculés. L'hypothèse Mais sur le caractère aléatoire des indicateurs est avancée, c'est-à-dire sur leur différence insignifiante par rapport à zéro. L'évaluation de la signification des coefficients de régression et de corrélation à l'aide du test f de Student s'effectue en comparant leurs valeurs à l'amplitude de l'erreur aléatoire :

L'estimation de la significativité des coefficients de régression pure à l'aide du critère de /-Student se réduit au calcul de la valeur

La qualité du travail est une caractéristique d'un travail particulier, reflétant le degré de sa complexité, sa tension (intensité), ses conditions et son importance pour le développement de l'économie. K.t. est mesuré au moyen d'un système tarifaire qui permet de différencier les salaires en fonction du niveau de qualification (complexité du travail), des conditions, de la sévérité du travail et de son intensité, ainsi que de l'importance des industries et industries individuelles, des régions, territoires pour le développement de l'économie du pays. K.t. trouve son expression dans les salaires des travailleurs, qui se forment sur le marché du travail sous l'influence de l'offre et de la demande de travail (types spécifiques de travail). K.t. - structure complexe

Les scores obtenus pour l'importance relative des conséquences économiques, sociales et environnementales individuelles de la mise en œuvre du projet fournissent en outre une base pour comparer des projets alternatifs et leurs options en utilisant le "critère sans dimension de notation complexe d'efficacité sociale et environnementale-économique" du projet Ek, calculé (en scores de signification moyens) selon la formule

La réglementation intrasectorielle prévoit des différences de salaires pour les travailleurs d'une branche d'industrie donnée, en fonction de l'importance des différents types de production dans cette industrie, de la complexité et des conditions de travail, ainsi que des formes de salaires utilisées.

Le score de notation obtenu de l'entreprise analysée par rapport à l'entreprise de référence, sans tenir compte de l'importance des indicateurs individuels, est comparatif. Lors de la comparaison des notes de plusieurs entreprises, la note la plus élevée appartient à l'entreprise avec la valeur minimale de l'évaluation comparative obtenue.

Comprendre la qualité d'un produit comme une mesure de son utilité soulève une question pratiquement importante sur sa mesure. Sa solution est obtenue en étudiant l'importance des propriétés individuelles pour répondre à un besoin spécifique. L'importance d'une même propriété peut varier selon les conditions de consommation du produit. Par conséquent, l'utilité du bien dans différentes circonstances d'utilisation est différente.

La deuxième étape du travail est l'étude des données statistiques et l'identification de la relation et de l'interaction des indicateurs, la détermination de l'importance des facteurs individuels et les raisons du changement des indicateurs généraux.

Tous les indicateurs pris en considération sont rassemblés de telle manière que le résultat est une évaluation complète de tous les aspects analysés des activités de l'entreprise, en tenant compte des conditions de son activité, en tenant compte du degré d'importance des indicateurs individuels pour divers types d'investisseurs :

Les coefficients de régression montrent l'intensité de l'influence des facteurs sur l'indicateur de performance. Si une normalisation préalable des indicateurs factoriels a été effectuée, alors b0 est égal à la valeur moyenne de l'indicateur effectif dans l'agrégat. Les coefficients b, b2 ..... bl montrent de combien d'unités le niveau de l'indicateur effectif s'écarte de sa valeur moyenne si les valeurs de l'indicateur factoriel s'écartent de la moyenne égale à zéro d'un écart type. Ainsi, les coefficients de régression caractérisent le degré de signification des facteurs individuels pour augmenter le niveau de l'indicateur effectif. Les valeurs spécifiques des coefficients de régression sont déterminées à partir de données empiriques selon la méthode des moindres carrés (à la suite de la résolution de systèmes d'équations normales).

2. Calcul de la significativité des coefficients de régression et de corrélation à l'aide du test f de Student

Considérons la forme linéaire des relations multifactorielles non seulement comme la plus simple, mais aussi comme une forme fournie par les progiciels d'application pour PC. Si la connexion d'un facteur individuel avec un attribut résultant n'est pas linéaire, alors l'équation est linéarisée en remplaçant ou en transformant la valeur de l'attribut du facteur.

La forme générale de l'équation de régression multifactorielle est :


où k est le nombre de caractéristiques factorielles.

Pour simplifier le système d'équations des moindres carrés nécessaire au calcul des paramètres de l'équation (8.32), on introduit généralement les écarts des valeurs individuelles de toutes les caractéristiques par rapport aux valeurs moyennes de ces caractéristiques.

On obtient un système de k équations des moindres carrés :

En résolvant ce système, nous obtenons les valeurs des coefficients de régression conditionnellement purs b. Le terme libre de l'équation est calculé par la formule


Le terme "coefficient de régression conditionnelle-pure" signifie que chacune des valeurs bj mesure l'écart moyen de la population de l'attribut résultant par rapport à sa valeur moyenne lorsque ce facteur xj s'écarte de sa valeur moyenne par unité de sa mesure et à condition que tous les autres les facteurs inclus dans l'équation de régression, fixés sur des valeurs moyennes, ne changent pas, ne varient pas.

Ainsi, contrairement au coefficient de régression par paires, le coefficient de régression conditionnellement pur mesure l'influence d'un facteur, en faisant abstraction de la relation entre la variation de ce facteur et la variation des autres facteurs. S'il serait possible d'inclure dans l'équation de régression tous les facteurs influençant la variation de l'attribut résultant, alors les valeurs bj. pourraient être considérés comme des mesures de l'influence pure des facteurs. Mais comme il est vraiment impossible d'inclure tous les facteurs dans l'équation, les coefficients bj. pas exempt du mélange de l'influence de facteurs non inclus dans l'équation.

Il est impossible d'inclure tous les facteurs dans l'équation de régression pour l'une des trois raisons ou pour tous à la fois, car :

1) certains des facteurs peuvent être inconnus de la science moderne, la connaissance de tout processus est toujours incomplète ;

2) il n'y a pas d'informations sur les facteurs théoriques connus ou elles ne sont pas fiables ;

3) la taille de la population étudiée (échantillon) est limitée, ce qui vous permet d'inclure un nombre limité de facteurs dans l'équation de régression.

Coefficients de régression conditionnellement pure bj. sont des nombres nommés, exprimés dans différentes unités de mesure, et donc incomparables les uns avec les autres. Pour les convertir en indicateurs relatifs comparables, on applique la même transformation que pour obtenir le coefficient de corrélation du couple. La valeur résultante est appelée coefficient de régression standardisé ou coefficient ?.


Le coefficient au facteur xj détermine la mesure de l'influence de la variation du facteur xj sur la variation de la caractéristique effective y lorsque d'autres facteurs inclus dans l'équation de régression sont retirés de la variation concomitante.

Il est utile d'exprimer les coefficients de régression conditionnellement pure sous la forme d'indicateurs de communication comparables relatifs, coefficients d'élasticité :

Le coefficient d'élasticité du facteur xj indique que si la valeur de ce facteur s'écarte de sa valeur moyenne de 1 % et si d'autres facteurs inclus dans l'équation sont soustraits à l'écart concomitant, l'attribut résultant s'écartera de sa valeur moyenne de ej pour cent de y. Le plus souvent, les coefficients d'élasticité sont interprétés et appliqués en termes de dynamique : avec une augmentation du facteur x de 1 % de sa valeur moyenne, l'attribut résultant augmentera de e % de sa valeur moyenne.

Considérons le calcul et l'interprétation de l'équation de régression multivariée sur l'exemple des mêmes 16 fermes (tableau 8.1). La caractéristique effective est le niveau de revenu brut et trois facteurs qui l'influencent sont présentés dans le tableau. 8.7.

Rappelons encore une fois que pour obtenir des indicateurs de corrélation fiables et suffisamment précis, il faut une population plus importante.


Tableau 8.7

Niveau de revenu brut et ses facteurs

Numéros de ferme

Revenu brut, rub./ra

Coûts de la main-d'œuvre, hommes-jours/ha x1

Part des terres arables

rendement laitier par vache,

Tableau 8.8 Indicateurs de l'équation de régression

Variable dépendante : y

Coefficient de régression

Constante-240,112905

Std. erreur d'est. = 79,243276


La solution a été réalisée à l'aide du programme "Microstat" pour PC. Voici les tableaux de l'impression : onglet. 8.7 donne les valeurs moyennes et les écarts-types de toutes les caractéristiques. Languette. 8.8 contient les coefficients de régression et leur estimation probabiliste :

la première colonne "var" - variables, c'est-à-dire facteurs ; la deuxième colonne "coefficient de régression" - coefficients de régression conditionnellement pure bj ; la troisième colonne "std. erreur" - erreurs moyennes des estimations des coefficients de régression ; la quatrième colonne - les valeurs du test t de Student à 12 degrés de liberté de variation; la cinquième colonne "prob" - la probabilité de l'hypothèse nulle concernant les coefficients de régression ;

la sixième colonne "r2 partiel" - coefficients de détermination partiels. Le contenu et la méthodologie de calcul des indicateurs des colonnes 3 à 6 sont examinés plus en détail au chapitre 8. "Constante" - un terme libre de l'équation de régression a ; "std. erreur d'estimation." - erreur quadratique moyenne de l'évaluation de la caractéristique effective selon l'équation de régression. L'équation de régression multiple a été obtenue :

y \u003d 2,26x1 - 4,31x2 + 0,166x3 - 240.

Cela signifie que la valeur du revenu brut par hectare de terre agricole a augmenté en moyenne de 2,26 roubles. avec une augmentation des coûts de main-d'œuvre de 1 h/ha ; diminué en moyenne de 4,31 roubles. avec une augmentation de la part des terres arables dans les terres agricoles de 1% et une augmentation de 0,166 roubles. avec une augmentation de la production laitière par vache de 1 kg. La valeur négative du terme libre est tout à fait naturelle et, comme déjà noté au paragraphe 8.2, la caractéristique effective - le revenu brut devient nulle bien avant d'atteindre les valeurs nulles des facteurs, ce qui est impossible en production.

La valeur négative du coefficient à x^ est un signal de difficultés importantes dans l'économie des exploitations étudiées, où la production végétale n'est pas rentable et où seul l'élevage est rentable. Avec des méthodes agricoles rationnelles et des prix normaux (d'équilibre ou proches) pour les produits de toutes les industries, les revenus ne devraient pas diminuer, mais augmenter avec une augmentation de la part la plus fertile des terres agricoles - les terres arables.

Sur la base des données des deux avant-dernières lignes du tableau. 8.7 et tab. 8.8 calculer les coefficients p et les coefficients d'élasticité selon les formules (8.34) et (8.35).

La variation du niveau de revenu et son éventuel changement de dynamique sont le plus fortement influencés par le facteur x3 - la productivité des vaches, et le plus faible - x2 - la part des terres arables. Les valeurs de Р2/ seront utilisées à l'avenir (tableau 8.9) ;

Tableau 8.9 Influence comparative des facteurs sur le niveau de revenu

Facteurs xj


Ainsi, nous avons obtenu que le coefficient ? du facteur xj se réfère au coefficient d'élasticité de ce facteur, comme le coefficient de variation du facteur au coefficient de variation de la caractéristique effective. Depuis, comme on peut le voir à la dernière ligne du tableau. 8.7, les coefficients de variation de tous les facteurs sont inférieurs au coefficient de variation de l'attribut résultant ; tous les coefficients ? sont inférieurs aux coefficients d'élasticité.

Considérez la relation entre le coefficient de régression apparié et conditionnellement pur en utilisant l'exemple du facteur -c. L'équation linéaire appariée de connexion entre y et x a la forme :

y = 3,886x1 - 243,2

Le coefficient de régression conditionnellement pur à x1 n'est que de 58 % du coefficient apparié. Les 42% restants sont dus au fait que la variation x1 est accompagnée de la variation du facteur x2 x3, qui, à son tour, affecte le trait résultant. Les relations de toutes les caractéristiques et leurs coefficients de régression par paires sont présentés sur le graphique des relations (Fig. 8.2).


Si l'on additionne les estimations de l'influence directe et indirecte de la variation de x1 sur y, c'est-à-dire le produit des coefficients de régression appariés pour tous les « chemins » (Fig. 8.2), on obtient : 2,26 + 12,55 0,166 + (-0,00128 ) (-4,31) + (-0,00128) 17,00 0,166 = 4,344.

Cette valeur est même supérieure au coefficient de couplage par paires x1 avec y. Par conséquent, l'influence indirecte de la variation de x1 à travers les signes-facteurs non inclus dans l'équation est inverse, donnant au total :

1 Ayvazyan S.A., Mkhitaryan V.S. Statistiques appliquées et fondements de l'économétrie. Manuel scolaire pour les lycées. - M. : UNITI, 2008, - 311p.

2 Johnston J. Méthodes économétriques. - M. : Statistiques, 1980,. - 282s.

3 Dougherty K. Introduction à l'économétrie. - M. : INFRA-M, 2004, - 354 p.

4 Dreyer N., Smith G., Analyse de régression appliquée. - M. : Finances et statistiques, 2006, - 191s.

5 Magnus Ya.R., Kartyshev P.K., Peresetsky A.A. Économétrie. Cours initial.-M. : Delo, 2006, - 259p.

6 Atelier d'économétrie / Ed. I.I.Eliseeva.- M. : Finances et statistiques, 2004, - 248p.

7 Économétrie / Éd. I.I.Eliseeva.- M. : Finances et statistiques, 2004, - 541p.

8 Kremer N., Putko B. Econométrie.- M. : UNITY-DANA, 200, - 281p.


Ayvazyan S.A., Mkhitaryan V.S. Statistiques appliquées et fondements de l'économétrie. Manuel scolaire pour les lycées. - M. : UNITI, 2008,–p. 23.

Kremer N., Putko B. Econométrie.- M. : UNITY-DANA, 200, -p.64

Dreyer N., Smith G., Analyse de régression appliquée. - M. : Finances et statistiques, 2006, - p57.

Atelier d'économétrie / Ed. I.I. Eliseeva. - M.: Finances et statistiques, 2004, -p. 172.

Articles similaires

2022 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.