Construire une matrice de coefficients de corrélation appariés. Vérifiez la multicolinéarité. Justifier la sélection des facteurs dans le modèle. Étant donné une matrice de coefficients de corrélation appariés

Matrice des coefficients de corrélation par paires

Oui X1 X2 X3 X4 X5
Oui
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

Les nœuds de la matrice contiennent des coefficients de corrélation appariés qui caractérisent l'étroitesse de la relation entre les caractéristiques des facteurs. En analysant ces coefficients, on constate que plus ils sont nombreux valeur absolue, plus l'influence du signe du facteur correspondant sur celui qui en résulte est grande. L'analyse de la matrice résultante s'effectue en deux étapes :

1. Si la première colonne de la matrice contient des coefficients de corrélation pour lesquels /r /< 0,5, то соответствующие признаки из модели исключаются. В ce cas dans la première colonne de la matrice des coefficients de corrélation, le facteur ou coefficient de croissance de l'inflation est exclu. Ce facteur a un impact moindre sur la caractéristique résultante que les quatre autres caractéristiques.

2. En analysant les coefficients de corrélation des paires de caractéristiques factorielles entre elles, (r XiXj), caractérisant l'étroitesse de leur relation, il est nécessaire d'évaluer leur indépendance les unes par rapport aux autres, car cela condition nécessaire Pour de plus amples analyse de régression. Compte tenu du fait qu'il n'y a pas de signes absolument indépendants dans l'économie, il est nécessaire de distinguer, si possible, les plus indépendants. Les signes factoriels qui sont en étroite corrélation les uns avec les autres sont appelés multicolinéaires. L'inclusion de caractéristiques multicolinéaires dans le modèle rend impossible l'interprétation économique du modèle de régression, car un changement d'un facteur entraîne un changement des facteurs qui lui sont associés, ce qui peut conduire à une « panne » du modèle dans son ensemble.

Le critère de multicollénialité des facteurs est le suivant :

/r XiXj / > 0,8

Dans la matrice résultante de coefficients de corrélation appariés, ce critère est satisfait par deux indicateurs situés à l'intersection des lignes et . De chaque paire de ces fonctionnalités, une doit être laissée dans le modèle, elle doit avoir un impact plus important sur la fonctionnalité résultante. Par conséquent, les facteurs et sont exclus du modèle ; le taux de croissance du coût des ventes et le taux de croissance du volume de sa mise en œuvre.

Ainsi, nous introduisons les facteurs X1 et X2 dans le modèle de régression.

Ensuite, une analyse de régression est effectuée (service, analyse de données, régression). Compile à nouveau un tableau de données initiales avec les facteurs X1 et X2. La régression dans son ensemble est utilisée pour analyser l'impact sur une variable dépendante distincte des valeurs de variables indépendantes (facteurs) et permet de présenter la corrélation entre les caractéristiques sous la forme d'une dépendance fonctionnelle appelée équation de régression ou corrélation- Modèle de régression.

À la suite de l'analyse de régression, nous obtenons les résultats du calcul de la régression multivariée. Analysons les résultats obtenus.

Tous les coefficients de régression sont significatifs selon le test t de Student. Coefficient corrélation multiple R s'élève à 0,925, le carré de cette valeur (coefficient de détermination) signifie que la variation du trait résultant de 85,5 % en moyenne s'explique par la variation des traits factoriels inclus dans le modèle. Le coefficient de déterminisme caractérise l'étroitesse de la relation entre l'ensemble des caractéristiques factorielles et l'indicateur de performance. Comment sens plus proche R au carré égal à 1, plus la relation est étroite. Dans notre cas, un indicateur de 0,855 indique sélection correcte facteurs et la présence de la relation des facteurs avec l'indicateur de performance.

Le modèle considéré est adéquat, puisque la valeur calculée du critère F de Fisher dépasse largement son valeur du tableau(F obl = 52,401 ; F tabl = 1,53).

Comme résultat global L'analyse de corrélation-régression menée est l'équation de régression multiple, qui a la forme :

L'équation de régression qui en résulte répond à l'objectif de l'analyse de corrélation et de régression et est un modèle linéaire de la dépendance du bénéfice du bilan d'une entreprise à deux facteurs : le taux de croissance de la productivité du travail et le facteur de propriété. usage industriel.

Sur la base du modèle obtenu, nous pouvons conclure qu'avec une augmentation du niveau de productivité du travail de 1 % par rapport à la période précédente, le bénéfice du bilan augmentera de 0,95 point de pourcentage ; une augmentation du coefficient de la propriété industrielle de 1% entraînera une augmentation de l'indicateur effectif de 27,9 points de pourcentage. Par conséquent, l'influence dominante sur la croissance du bénéfice du bilan est l'augmentation de la valeur de la propriété industrielle (rénovation et croissance des immobilisations de l'entreprise).

Selon le modèle de régression multiple, une prévision multifactorielle de la caractéristique effective est effectuée. Sachez que X1 = 3,0 et X3 = 0,7. Remplaçons les valeurs des signes de facteurs dans le modèle, nous obtenons Cm = 0,95 * 3,0 + 27,9 * 0,7 - 19,4 = 2,98. Ainsi, avec une augmentation de la productivité du travail et la modernisation des immobilisations de l'entreprise bénéfice du livre au 1er trimestre 2005 par rapport à la période précédente (4ème trimestre 2004) augmentera de 2,98%.

Matrice des coefficients de corrélation par paires est une matrice dont les éléments sont des coefficients de corrélation appariés. Par exemple, pour trois variables, cette matrice ressemble à :
- yx1x2x3
y1 r yx1r yx2r yx3
x1rx1y1 rx1x2rx1x3
x2rx2yrx2x11 rx2x3
x3rx3yrx3x1rx3x21

Insérez la matrice des coefficients appariés dans la boîte.

Exemple. Basé sur les données de 154 entreprises agricoles de la région de Kemerovo en 2003, pour étudier l'efficacité de la production céréalière (tableau 13).

  1. Déterminer les facteurs qui forment la rentabilité du grain dans les entreprises agricoles en 2003.
  2. Tracez une matrice de coefficients de corrélation par paires. Déterminez quels facteurs sont multicolinéaires.
  3. Construisez une équation de régression qui caractérise la dépendance de la rentabilité des céréales à tous les facteurs.
  4. Évaluer la signification de l'équation de régression résultante. Quels facteurs affectent de manière significative la formation de la rentabilité des cultures céréalières dans ce modèle ?
  5. Évaluer la valeur de la rentabilité de la production céréalière dans l'entreprise agricole n° 3.

La solution nous obtenons à l'aide de la calculatrice Équation de régression multiple :

1. Estimation de l'équation de régression.
Définissons le vecteur des estimations des coefficients de régression. Selon la méthode moindres carrés, le vecteur est obtenu à partir de l'expression :
s = (X T X) -1 X T Y
Matrice X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Matrice Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Matrice XT
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Matrices de multiplication, (X T X)
Trouver le déterminant det(X T X) T = 34,35
Nous trouvons matrice inverse(X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Le vecteur des estimations des coefficients de régression est égal à
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Équation de régression (évaluation de l'équation de régression)
Y = 0,1565 + 0,3375X 1 + 0,0043X 2 + 0,2986X 3

Matrice des coefficients de corrélation par paires

Le nombre d'observations est n = 22. Le nombre de variables indépendantes dans le modèle est exactement de 3 et le nombre de régresseurs, compte tenu du vecteur unitaire, est égal au nombre de coefficients inconnus. Compte tenu du signe Y, la dimension de la matrice devient égale à 5. La matrice des variables indépendantes X a la dimension (22 x 5). La matrice X T X est déterminée par multiplication directe ou par les sommes pré-calculées suivantes.
Matrice composée de Y et X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

La matrice transposée.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Matrice A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

La matrice résultante a la correspondance suivante :

Trouvons les coefficients de corrélation appariés.
Pour y et x 1

Moyennes



Dispersion





Coefficient de corrélation

Pour y et x 2
L'équation est y = ax + b
Moyennes



Dispersion


écart-type


Coefficient de corrélation

Pour y et x 3
L'équation est y = ax + b
Moyennes



Dispersion


écart-type


Coefficient de corrélation

Pour x 1 et x 2
L'équation est y = ax + b
Moyennes



Dispersion


écart-type


Coefficient de corrélation

Pour x 1 et x 3
L'équation est y = ax + b
Moyennes



Dispersion


écart-type


Coefficient de corrélation

Pour x 2 et x 3
L'équation est y = ax + b
Moyennes



Dispersion


écart-type


Coefficient de corrélation

Matrice des coefficients de corrélation appariés.
- y x1 x2 x3
y 1 0.62 -0.24 0.61
x1 0.62 1 -0.39 0.99
x2 -0.24 -0.39 1 -0.41
x3 0.61 0.99 -0.41 1

L'analyse de la première ligne de cette matrice permet de sélectionner les caractéristiques factorielles pouvant être incluses dans le modèle de corrélation multiple. Signes factoriels avec r yxi< 0.5 исключают из модели.
La colinéarité est la relation entre les facteurs. Le respect des inégalités suivantes peut être pris comme critère de multicolinéarité :
r(x j y) > r(x k x j) ; r(x k y) > r(x k x j).
Si l'une des inégalités n'est pas observée, alors on exclut le paramètre x k ou x j dont la relation avec l'indicateur effectif Y est la moins proche.
3. Analyse des paramètres de l'équation de régression.
Passons à analyses statistiques de l'équation de régression résultante : vérification de la significativité de l'équation et de ses coefficients, étude des erreurs d'approximation absolues et relatives
Pour une estimation non biaisée de la variance, nous effectuons les calculs suivants :
Erreur non biaisée e = Y - X*s ( erreur absolue approximations)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
L'estimation sans biais de la variance est

Noter écart-type est égal à

Trouver une estimation de la matrice de covariance du vecteur k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Les dispersions des paramètres du modèle sont déterminées par la relation S 2 i = K ii , soit sont les éléments de la diagonale principale
Afin d'élargir les possibilités d'une analyse significative du modèle de régression, des coefficients d'élasticité partielle sont utilisés, qui sont déterminés par la formule :


Coefficient partiel d'élasticité E 1< 1. Следовательно, его влияние на результативный признак Y незначительно.

Coefficient partiel d'élasticité E 2< 1. Следовательно, его влияние на результативный признак Y незначительно.

Coefficient partiel d'élasticité E 3< 1. Следовательно, его влияние на результативный признак Y незначительно.
La proximité de l'influence conjointe des facteurs sur le résultat est estimée par l'indice de corrélation multiple (de 0 à 1)

La relation entre le trait Y et les facteurs X est modérée
Coefficient de détermination
R 2 = 0,62 2 = 0,38
ceux. dans 38,0855 % des cas, les modifications de x entraînent une modification de y. En d'autres termes, la précision de la sélection de l'équation de régression est moyenne
Signification du coefficient de corrélation

D'après la table de Student, on trouve Ttable
Tableau T (n-m-1 ; a) = (18 ; 0,05) = 1,734
Puisque Tobs > Ttabl, nous rejetons l'hypothèse que le coefficient de corrélation est égal à 0. En d'autres termes, le coefficient de corrélation est statistiquement significatif
Estimation d'intervalle pour le coefficient de corrélation (intervalle de confiance)

Intervalle de confiance pour le coefficient de corrélation
r(0,3882 ; 0,846)
5. Tester des hypothèses concernant les coefficients de l'équation de régression (tester la signification des paramètres de l'équation de régression multiple).
1) statistique t


La signification statistique du coefficient de régression b 0 n'est pas confirmée

La signification statistique du coefficient de régression b 1 n'est pas confirmée

La signification statistique du coefficient de régression b 2 n'est pas confirmée

La signification statistique du coefficient de régression b 3 n'est pas confirmée
Intervalle de confiance pour les coefficients de l'équation de régression
définissons intervalles de confiance coefficients de régression, qui, avec une fiabilité de 95 %, seront les suivants :
(b je - t je S je ; b je + t je S je)
b0 : (-0,7348 ;1,0478)
b 1 : (-2,9781;3,6531)
b2 : (-0,4466 ; 0,4553)
b 3 : (-4,8459 ; 5,4431)

2) Statistiques F. Critère de Fisher


fkp = 2,93
Parce que F< Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Vérifier la présence d'hétéroscédasticité par analyse graphique des résidus.
Dans ce cas, les valeurs de la variable explicative X i sont portées en abscisse et les carrés de l'écart e i 2 sont portés en ordonnée.

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02

Une analyse de la matrice des coefficients de corrélation appariés montre que l'indicateur de performance est le plus étroitement lié à l'indicateur X(4) - la quantité d'engrais utilisée pour 1 ha ().

Dans le même temps, la relation entre les caractéristiques-arguments est assez étroite. Ainsi, il existe pratiquement une relation fonctionnelle entre le nombre de tracteurs à roues ( X(1)) et le nombre d'outils de travail du sol
.

La présence de multicolinéarité est également mise en évidence par les coefficients de corrélation
et
. Compte tenu de la relation étroite des indicateurs X (1) , X(2) et X(3) , un seul d'entre eux peut entrer dans le modèle de régression de rendement.

Pour démontrer l'impact négatif de la multicolinéarité, considérons un modèle de régression de rendement incluant toutes les entrées :


Porte-clés = 121.

Entre parenthèses sont les valeurs des estimations corrigées des écarts-types des estimations des coefficients de l'équation
.

Sous l'équation de régression, les paramètres d'adéquation suivants sont présentés : coefficient de détermination multiple
; estimation de la variance résiduelle corrigée
, erreur relative moyenne d'approximation et valeur-critère calculée Fobs = 121.

L'équation de régression est significative car F obl = 121 > F kp = 2,85 trouvé dans le tableau F-distributions à =0,05 ;  1 =6 et  2 =14.

Il en résulte que 0, c'est-à-dire et au moins un des coefficients de l'équation  j (j= 0, 1, 2, ..., 5) n'est pas égal à zéro.

Pour tester l'hypothèse sur la signification des coefficients de régression individuels H0 :  j =0, où j=1,2,3,4,5, comparer la valeur critique t kp = 2,14, trouvé à partir du tableau t-distributions au niveau de signification=2 Q=0.05 et le nombre de degrés de liberté=14, avec la valeur calculée . Il découle de l'équation que le coefficient de régression n'est statistiquement significatif que lorsque X(4) , depuis t 4 =2,90 > t kp=2,14.

Les signes négatifs des coefficients de régression à X(1) et X(5) . Des valeurs négatives des coefficients, il résulte qu'une augmentation de la saturation de l'agriculture avec des tracteurs à roues ( X(1)) et produits phytosanitaires ( X(5)) affecte négativement le rendement. Ainsi, l'équation de régression résultante est inacceptable.

Pour obtenir une équation de régression avec des coefficients significatifs, nous utilisons un algorithme d'analyse de régression pas à pas. Dans un premier temps, nous utilisons un algorithme pas à pas avec élimination de variables.

Exclure une variable du modèle X(1) , qui correspond à la valeur absolue minimale t 1 =0,01. Pour les variables restantes, nous allons à nouveau construire l'équation de régression :

L'équation résultante est significative, car F obs = 155 > F kp = 2,90, trouvé à un niveau de signification =0,05 et des nombres de degrés de liberté  1 =5 et  2 =15 selon le tableau F-distributions, c'est-à-dire vecteur0. Cependant, seul le coefficient de régression est significatif dans l'équation à X(quatre) . Valeurs estimées t j  pour les autres coefficients inférieurs à t kr = 2,131 trouvé dans le tableau t-distributions à =2 Q=0,05 et =15.

Exclure une variable du modèle X(3) , qui correspond à la valeur minimale t 3 =0,35 et obtenir l'équation de régression :

(2.9)

Dans l'équation résultante, il n'est pas statistiquement significatif et nous ne pouvons pas interpréter économiquement le coefficient à X(5) . À l'exclusion X(5) nous obtenons l'équation de régression :

(2.10)

Nous avons obtenu une équation de régression significative avec des coefficients significatifs et interprétables.

Cependant, l'équation qui en résulte n'est pas le seul « bon » ou « meilleur » modèle de rendement dans notre exemple.

Montrons que dans la condition de multicolinéarité, l'algorithme pas à pas avec inclusion de variables est plus efficace. La première étape du modèle de rendement y comprend une variable X(4) , qui a le coefficient de corrélation le plus élevé avec y, expliqué par la variable r(y,X(4))=0,58. Dans la deuxième étape, y compris l'équation avec X(4) variables X(1) ou X(3) , on obtiendra des modèles supérieurs à (2.10) pour des raisons économiques et des caractéristiques statistiques :

(2.11)

(2.12)

L'inclusion de l'une des trois variables restantes dans l'équation aggrave ses propriétés. Voir, par exemple, l'équation (2.9).

Ainsi, nous avons trois « bons » modèles de rendement, parmi lesquels un doit être choisi pour des raisons économiques et statistiques.

Selon des critères statistiques, le modèle (2.11) est le plus adéquat. Il correspond aux valeurs minimales de la variance résiduelle =2,26 et l'erreur relative moyenne d'approximation et les plus grandes valeurs
et Porte-clés = 273.

Le modèle (2.12) a des indicateurs d'adéquation un peu moins bons, puis le modèle (2.10).

Nous allons maintenant choisir le meilleur des modèles (2.11) et (2.12). Ces modèles diffèrent les uns des autres par des variables X(1) et X(3) . Cependant, dans les modèles de rendement, la variable X(1) (nombre de tracteurs à roues pour 100 ha) est préférable à variable X(3) (nombre d'outils de travail du sol pour 100 ha), ce qui est un peu secondaire (ou dérivé de X (1)).

A cet égard, pour des raisons économiques, il convient de privilégier le modèle (2.12). Ainsi, après avoir mis en œuvre l'algorithme d'analyse de régression pas à pas avec l'inclusion de variables et en tenant compte du fait qu'une seule des trois variables liées doit entrer dans l'équation ( X (1) ,X(2) ou X(3)) choisissez l'équation de régression finale :

L'équation est significative à =0,05, car F obl = 266 > F kp = 3,20 trouvé dans le tableau F-distributions à = Q\u003d 0,05 ;  1 \u003d 3 et  2 \u003d 17. Tous les coefficients de régression sont également significatifs. et dans l'équation t j> t kp (=2 Q\u003d 0,05 ;  \u003d 17) \u003d 2,11. Le coefficient de régression  1 doit être reconnu comme significatif ( 1  0) pour des raisons économiques, alors que t 1 =2,09 seulement un peu moins t kp = 2,11.

Il ressort de l'équation de régression qu'une augmentation par unité du nombre de tracteurs pour 100 hectares de terres arables (avec une valeur fixe X(4)) conduit à une augmentation des rendements en grains de 0,345 c/ha en moyenne.

Un calcul approximatif des coefficients d'élasticité e 1  0,068 et e 2  0,161 montre qu'avec une augmentation des indicateurs X(1) et X(4) de 1 %, le rendement en grain augmente en moyenne de 0,068 % et 0,161 %, respectivement.

Coefficient de détermination multiple
indique que seulement 46,9 % de la variation de rendement est expliquée par les indicateurs inclus dans le modèle ( X(1) et X(4)), c'est-à-dire la saturation de la production agricole avec des tracteurs et des engrais. Le reste de la variation est dû à l'action de facteurs non pris en compte ( X (2) ,X (3) ,X(5) , conditions météorologiques, etc.). L'erreur d'approximation relative moyenne caractérise l'adéquation du modèle, ainsi que la valeur de la variance résiduelle
. Lors de l'interprétation de l'équation de régression, les valeurs des erreurs d'approximation relatives sont intéressantes
. Rappeler que - la valeur modèle de l'indicateur résultant, caractérise la valeur de rendement moyenne pour la totalité des surfaces considérées, à condition que les valeurs des variables explicatives X(1) et X(4) fixé au même niveau, à savoir X (1) =X je(1) et X (4) =x je(quatre) . Puis par les valeurs  je les rendements peuvent être comparés. Domaines auxquels correspondent des valeurs je>0, avoir un rendement supérieur à la moyenne, a je <0 - ниже среднего.

Dans notre exemple, en termes de rendement, la production agricole est la plus efficace dans la zone qui correspond à  7 = 28 %, où le rendement est supérieur de 28 % à la moyenne de la région, et le moins efficace - dans la région de c 20 =27,3%.

Les facteurs colinéaires sont...

La solution:

On suppose que deux variables sont clairement colinéaires, c'est-à-dire sont linéairement liés les uns aux autres si . Dans notre modèle, seul le coefficient de régression linéaire appariée entre les facteurs et est supérieur à 0,7. , donc les facteurs et sont colinéaires.

4. Dans le modèle régression multiple le déterminant de la matrice des coefficients de corrélation appariés entre les facteurs , et est proche de zéro. Cela signifie que les facteurs , et ...

multicolinéaire

indépendant

quantifiable

La solution:

Pour évaluer la multicolinéarité des facteurs, le déterminant de la matrice des coefficients de corrélation appariés entre facteurs peut être utilisé. Si les facteurs ne sont pas corrélés entre eux, alors la matrice des coefficients de corrélation par paires entre les facteurs serait unique. Étant donné que tous les éléments hors diagonale serait égal à zéro.
, car = = et = = =0.
S'il existe une dépendance linéaire complète entre les facteurs et que tous les coefficients de corrélation de paires sont égaux à un, alors le déterminant d'une telle matrice est égal à zéro.


Plus le déterminant de la matrice de corrélation interfactorielle est proche de zéro, plus la multicolinéarité des facteurs est forte et moins les résultats de la régression multiple sont fiables. A l'inverse, plus le déterminant de la matrice de corrélation interfactorielle est proche de un, plus la multicolinéarité des facteurs est faible.

5. Pour le modèle économétrique d'une équation de régression multiple linéaire, une matrice de coefficients de corrélation linéaire appariés ( y est la variable dépendante ; x (1),x (2), x (3), x(4)- variables indépendantes):


Variables indépendantes (explicatives) colinéaires (étroitement liées) ne sont pas

x(2) et x(3)

x(1) et x(3)

x(1) et x(4)

x(2) et x(4)

La solution:

Lors de la construction d'un modèle de régression multiple, il est nécessaire d'exclure la possibilité d'une relation linéaire étroite entre des variables indépendantes (explicatives), ce qui conduit au problème de la multicolinéarité. En même temps, les coefficients de corrélation linéaire sont vérifiés pour chaque paire de variables indépendantes (explicatives). Ces valeurs sont reflétées dans la matrice des coefficients de corrélation linéaire par paires. On pense que la présence de coefficients de corrélation de paires entre les variables explicatives dépassant 0,7 en valeur absolue reflète une relation étroite entre ces variables (l'étroitesse de la relation avec la variable y pas pris en compte dans ce cas). De telles variables indépendantes sont dites colinéaires. Si la valeur du coefficient de corrélation du couple entre variables explicatives ne dépasse pas 0,7 en valeur absolue, alors ces variables explicatives ne sont pas colinéaires. Considérons les valeurs du couple coefficients de corrélation interfactorielle : entre x(1) et x(2) la valeur est 0,45 ; entre x(1) et x(3)- égal à 0,82 ; entre x(1) et x(4)- égal à 0,94 ; entre x(2) et x(3)– égal à 0,3 ; entre x(2) et x(4)- égal à 0,7 ; entre x(3) et x(4) est égal à 0,12. Ainsi, les valeurs , , , ne dépassent pas 0,7. Donc colinéaire ne sont pas les facteurs x(1) et x(2), x(2) et x(3), x(3) et x(4). Parmi les dernières paires répertoriées, il y a une paire dans les options de réponse x(2) et x(3) est la bonne réponse. Pour les autres couples : x(1 et x(3), x(1) et x(4), x(2) et x(4)- les valeurs des coefficients de couple de corrélation interfactorielle dépassent 0,7, et ces facteurs sont colinéaires.

Sujet 3 : Variables factices

1. Étant donné un tableau de données initiales pour construire un modèle de régression économétrique :

variables muettes ne sont pas

l'expérience professionnelle

la productivité du travail

le niveau d'instruction

niveau de compétence des employés

La solution:

Lors de la construction d'un modèle de régression, une situation peut se présenter lorsqu'il est nécessaire d'inclure dans l'équation, en plus des variables quantitatives, des variables reflétant certaines caractéristiques attributives (sexe, éducation, région, etc.). Ces variables qualitatives sont appelées variables "fictives". Pour construire le modèle spécifié dans l'énoncé de la tâche, des variables muettes sont utilisées : le niveau d'études et le niveau de qualification du salarié. Autres variables ne sont pas fictif, des options proposées est l'ancienneté et la productivité du travail.

2. Lors de l'étude de la dépendance de la consommation de viande au niveau de revenu et au sexe du consommateur, nous pouvons recommander ...

utiliser une variable fictive - le sexe du consommateur

diviser la population en deux : pour les consommatrices et pour les consommateurs masculins

utiliser une variable fictive - niveau de revenu

exclure de la considération le sexe du consommateur, puisque ce facteur ne peut pas être mesuré quantitativement

La solution:

Lors de la construction d'un modèle de régression, une situation peut se présenter lorsqu'il est nécessaire d'inclure dans l'équation, en plus des variables quantitatives, des variables reflétant certaines caractéristiques attributives (sexe, éducation, région, etc.). Ces variables qualitatives sont appelées variables "fictives". Ils reflètent l'hétérogénéité de la population statistique étudiée et permettent de mieux modéliser les dépendances dans des objets d'observation aussi hétérogènes. Lors de la modélisation de dépendances individuelles sur des données hétérogènes, vous pouvez également utiliser la méthode consistant à diviser l'ensemble de la collection de données hétérogènes en plusieurs collections distinctes, dont le nombre est égal au nombre d'états de la variable fictive. Ainsi, les bonnes réponses sont : « utiliser une variable muette - le sexe du consommateur » et « diviser la population en deux : pour les consommatrices et pour les consommateurs masculins ».

3. Nous étudions la dépendance du prix de l'appartement ( à) de son espace de vie ( X) et le type de maison. Le modèle comprend des variables muettes reflétant les types de maisons considérés : monolithique, à panneaux, en brique. L'équation de régression est obtenue : ,
,
Les équations de régression particulières pour la brique et le monolithique sont ...

pour brique type maison

pour maison type monolithique

pour brique type maison

pour maison type monolithique

La solution:

Il est nécessaire de trouver l'équation de régression privée pour les maisons en briques et monolithiques. Pour une maison en brique, les valeurs des variables muettes sont les suivantes , . L'équation prendra la forme : ou pour le type de maison en brique.
Pour une maison monolithique, les valeurs des variables muettes sont les suivantes , . L'équation prendra la forme
ou pour le type de maison monolithique.

Pour déterminer le degré de dépendance entre plusieurs indicateurs, plusieurs coefficients de corrélation sont utilisés. Ils sont ensuite résumés dans un tableau séparé, appelé matrice de corrélation. Les noms des lignes et des colonnes d'une telle matrice sont les noms des paramètres dont la dépendance les uns par rapport aux autres est établie. Les coefficients de corrélation correspondants sont situés à l'intersection des lignes et des colonnes. Voyons comment vous pouvez effectuer un calcul similaire à l'aide des outils Excel.

Il est d'usage de déterminer le niveau de relation entre les différents indicateurs comme suit, en fonction du coefficient de corrélation :

  • 0 - 0,3 - pas de connexion ;
  • 0,3 - 0,5 - connexion faible ;
  • 0,5 - 0,7 - connexion moyenne ;
  • 0,7 - 0,9 - élevé ;
  • 0,9 - 1 - très fort.

Si le coefficient de corrélation est négatif, cela signifie que la relation des paramètres est inverse.

Afin de compiler une matrice de corrélation dans Excel, un outil est utilisé, inclus dans le package "L'analyse des données". C'est comme ça que ça s'appelle - "Corrélation". Voyons comment il peut être utilisé pour calculer plusieurs scores de corrélation.

Étape 1 : Activer le pack d'analyse

Il faut dire tout de suite que le package par défaut "L'analyse des données" désactivé. Par conséquent, avant de procéder à la procédure de calcul direct des coefficients de corrélation, vous devez l'activer. Malheureusement, tous les utilisateurs ne savent pas comment faire cela. Par conséquent, nous allons nous concentrer sur cette question.


Après l'action spécifiée, le package d'outils "L'analyse des données" sera activé.

Etape 2 : calcul du coefficient

Vous pouvez maintenant passer directement au calcul du coefficient de corrélation multiple. Utilisons l'exemple du tableau des indicateurs de la productivité du travail, du rapport capital-travail et du rapport puissance/poids dans diverses entreprises pour calculer le coefficient de corrélation multiple de ces facteurs à l'aide de l'exemple ci-dessous.


Etape 3 : analyse du résultat

Voyons maintenant comment comprendre le résultat que nous avons obtenu dans le processus de traitement des données par l'outil "Corrélation" dans le programme Excel.

Comme on peut le voir dans le tableau, le coefficient de corrélation du ratio capital-travail (Colonne 2) et rapport puissance/poids ( Colonne 1) est de 0,92, ce qui correspond à une relation très forte. Entre la productivité du travail ( Colonne 3) et rapport puissance/poids ( Colonne 1) cet indicateur est égal à 0,72, ce qui correspond à un degré de dépendance élevé. Coefficient de corrélation entre la productivité du travail ( Colonne 3) et le ratio capital-travail ( Colonne 2) est égal à 0,88, ce qui correspond également à un degré de dépendance élevé. Ainsi, nous pouvons dire que la relation entre tous les facteurs étudiés peut être tracée assez forte.

Comme vous pouvez le voir, le paquet "L'analyse des données" dans Excel est un outil très pratique et assez facile à utiliser pour déterminer le coefficient de corrélation multiple. Il peut également être utilisé pour calculer la corrélation habituelle entre deux facteurs.

Articles similaires

2022 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.