L'analyse de corrélation révèle. Analyse de corrélation : définition de base et portée

Concepts de base de l'analyse de corrélation

Il existe plusieurs types liens entre les variables:

Dépendance à la corrélation suppose la cohérence mutuelle des changements de variables, ainsi que le fait que ces changements peuvent être mesurés une fois ou à plusieurs reprises (dans ce cas, ils parlent de la densité de la connexion des variables, mais pas des relations causales); par exemple, dans la société russe moderne, plus l'âge est élevé, plus le statut social d'une personne est bas; les manifestations individuelles de la gérontocratie ne violent pas ce modèle.

Impact fonctionnel suppose que les changements de la variable indépendante s'accompagnent de changements de plus en plus accélérés de la variable dépendante (les relations de cause à effet fixent l'influence de la variable indépendante sur la dépendante); par exemple, plus une personne a des opinions politiques radicales, plus elle n'accepte pas le régime politique existant ; en même temps, on ne peut pas prétendre que plus une personne évalue négativement les autorités, plus elle a des opinions radicales.

Dépendance fonctionnelle - la relation des variables, ce qui signifie qu'un changement dans une variable a un impact sur un changement dans une autre, qui à son tour affecte la première variable, c'est-à-dire ce sont des liens d'interaction ; par exemple, la sensibilité d'une personne à la politique est directement liée à son intérêt pour celle-ci ; Plus une personne s'intéresse à la politique, plus elle la comprend.

La communication peut être non linéaire et non monotone.

Quel que soit le type de relation entre les variables, vous devez vous assurer qu'elle existe en principe. L'analyse de corrélation est utilisée pour déterminer l'interaction et les tendances des caractéristiques du phénomène à l'étude.

La période des années 1870-1880 est considérée comme l'étape initiale de son développement, et l'auteur du concept de « coefficient de corrélation » est Francis Galton. Les développements les plus sérieux dans le domaine de l'analyse des corrélations au tournant des XIX-XX siècles. interprété par Karl Pearson. Traditionnellement, l'analyse krélationnelle est utilisée pour tester l'hypothèse selon laquelle deux variables ou plus sont statistiquement dépendantes. Comme aide, l'analyse de corrélation peut être utilisée pour tester la validité des hypothèses expérimentales et pour inclure des variables dans les analyses factorielles et de régression. Analyse de corrélation s'effectue par comparaison et comparaison de séries de distribution, construites à partir de regroupements selon diverses caractéristiques.

Corrélation - la présence d'une relation statistique de caractéristiques, lorsque chaque valeur spécifique d'une caractéristique X correspond à une certaine valeur À (ou un ensemble de valeurs de la série K de la distribution). L'analyse de corrélation révèle la dépendance fonctionnelle entre les variables, qui se caractérise par le fait que chaque valeur de l'une d'elles correspond à une valeur bien définie de l'autre. Cependant, l'analyse de corrélation n'implique pas l'identification de relations causales, par conséquent, lors de l'interprétation des résultats, des énoncés tels que "variable X affecte la variable à" ou "variables X dépend de la variable à" ne sont pas permis.

Distinguer chambre à vapeur et corrélations multiples. La corrélation de paires caractérise le type, la forme et la densité de la relation entre deux caractéristiques, multiples - entre plusieurs.

La dépendance à la corrélation se produit le plus souvent lorsqu'un phénomène est sous l'influence d'un grand nombre de facteurs agissant avec des forces différentes, il existe donc des mesures spéciales de corrélation appelées coefficients de corrélation. Les coefficients (en statistique, leur nombre total est calculé en dizaines) montrent le degré d'interconnexion des phénomènes ( densité de corrélation, Parfois, les chercheurs parlent de intensité de connexion) et la nature de cette relation orientation ). La communication peut être directe et inverse. Par exemple, plus l'électeur est âgé, plus il participe activement aux élections. Plus le niveau de revenu des gens est élevé, moins ils sont enclins à participer aux élections en tant qu'électeurs (rétroaction). Plus le coefficient de corrélation entre deux variables est élevé, plus vous pouvez prédire avec précision les valeurs de l'une d'entre elles à partir des valeurs de l'autre. La nature de la connexion est également définie dans les catégories " monotone " (la direction du changement d'une variable ne change pas lorsque la deuxième variable change) et " non monotone " lien. En plus d'évaluer la densité et la direction de la communication, il est nécessaire de prendre en compte fiabilité (authenticité ) Connexions.

L'analyse de corrélation résout systématiquement trois problèmes pratiques :

    détermination du champ de corrélation et compilation de la corrélation (en ce cas est un tableau combiné) ;

    calculer des corrélations d'échantillons ou des coefficients de corrélation ;

    tester l'hypothèse statistique de la signification de la connexion.

Le coefficient de corrélation ne contient pas d'informations indiquant si cette relation entre eux est causale ou concomitante (générée par une cause commune). Le chercheur doit trancher cette question de manière indépendante sur la base d'idées significatives sur la structure, la dynamique des objets sociaux étudiés, les corrélations entre les caractéristiques étudiées, utiliser d'autres méthodes. analyses statistiques(régression, factorielle, discriminante, chemin, etc.). Mais la valeur du coefficient permet d'évaluer la densité de communication comme moindre (insignifiante) ou supérieure. Par le signe du coefficient de corrélation pour les séries ordinales, on peut dire si cette relation est directe ou inverse (pour les séries nominales, le signe du coefficient ne porte pas de charge sémantique).

Pour établir une corrélation entre deux attributs, il est nécessaire de prouver que toutes les autres variables n'affectent pas la relation des deux variables qui font l'objet de l'étude. Sinon, la situation se présente fausse corrélation. Le secret d'une fausse corrélation est que deux phénomènes, dont la relation est formellement étayée par la présence d'une relation statistique, ont une cause commune qui affecte également chacun d'eux.

L'analyse de corrélation est précédée de l'étape de calcul statistiques X 2 - Mais sur la base de la valeur obtenue des statistiques X 2 nous ne pouvons rien dire sur la densité de la connexion des variables analysées. Pour résoudre un tel problème, il faut se tourner vers les coefficients de corrélation.

La manière traditionnelle d'effectuer une analyse de corrélation consiste à utiliser le coefficient de corrélation de Pearson (Pearson)P (dans la littérature, il est aussi noté d).

Si, lors de la description d'un objet politique, seule la présence ou l'absence d'une caractéristique est déterminée, ou si la relation entre des caractéristiques alternatives est étudiée, alors les tables de corrélation (tables d'une caractéristique associée) sont à 4 cellules. Dans ce cas appliquer coefficient Yula(O) et facteur de contingence (F). Ils sont basés sur le principe de l'occurrence conjointe d'événements (valeurs caractéristiques de l'objet d'étude) et conviennent à l'analyse de toutes les caractéristiques (métriques, ordinales et même nominales).

Si les échelles nominales ont plus de deux valeurs, alors pour déterminer la relation entre les signes, les coefficients de contingence de Pearson sont utilisés ( R ), Chuprov (7) et Kramer (À). Dans ce cas, la dimension du tableau a une certaine valeur. Avec sur le à, qui affiche les valeurs de deux caractéristiques. Coefficients de Chuprov et Kramer sont considérés comme plus rigoureux que Coefficient de contingence de Pearson. Mais comme les calculs qu'ils contiennent sont construits en tenant compte des statistiques x 2, toutes les restrictions qui y sont associées s'appliquent également à ces coefficients.

Coefficient de corrélation multiple (IV) qui est parfois appelé le coefficient concordance, utilisé pour évaluer la cohérence de deux ou plusieurs séries de valeurs classées de variables.

Il existe deux options pour calculer les coefficients de corrélation entre les caractéristiques dans le progiciel statistique SPSS.

Lorsqu'il étudie la santé publique et les soins de santé à des fins scientifiques et pratiques, un chercheur doit souvent effectuer une analyse statistique des relations entre le facteur et les caractéristiques résultantes d'une population statistique (relation de cause à effet) ou déterminer la dépendance de changements parallèles dans plusieurs caractéristiques de cette population à partir d'une troisième valeur (de leur cause commune). ). Il est nécessaire de pouvoir étudier les caractéristiques de cette connexion, de déterminer sa taille et sa direction, ainsi que d'évaluer sa fiabilité. Pour cela, des méthodes de corrélation sont utilisées.

  1. Types de manifestation de relations quantitatives entre les caractéristiques
    • connexion fonctionnelle
    • corrélation
  2. Définitions de fonctionnelle et de corrélation

    connexion fonctionnelle- ce type de relation entre deux traits, lorsque chaque valeur de l'un d'eux correspond à une valeur strictement définie de l'autre (l'aire d'un cercle dépend du rayon du cercle, etc.). La connexion fonctionnelle est caractéristique des processus physiques et mathématiques.

    corrélation- une telle relation dans laquelle chaque valeur spécifique d'un attribut correspond à plusieurs valeurs d'un autre attribut interconnecté avec lui (la relation entre la taille et le poids corporel d'une personne; la relation entre la température corporelle et le pouls, etc.). La corrélation est caractéristique des processus biomédicaux.

  3. L'importance pratique de l'établissement d'une corrélation. Identification d'une relation de cause à effet entre le facteur et les caractéristiques résultantes (lors de l'évaluation Développement physique, pour déterminer la relation entre les conditions de travail, la vie et l'état de santé, lors de la détermination de la dépendance de la fréquence des cas de la maladie à l'âge, à l'ancienneté, à la présence de risques industriels, etc.)

    La dépendance des changements parallèles de plusieurs caractéristiques à une troisième quantité. Par exemple, sous l'influence d'une température élevée dans l'atelier, des modifications de la pression artérielle, de la viscosité du sang, du pouls, etc.

  4. La valeur caractérisant la direction et la force de la relation entre les entités. Coefficient de corrélation, qui en un nombre donne une idée de la direction et de la force de la connexion entre les signes (phénomènes), les limites de ses fluctuations sont de 0 à ± 1
  5. Méthodes de représentation de corrélation
    • graphique (nuage de points)
    • Coefficient de corrélation
  6. Sens de corrélation
    • droit
    • inverse
  7. La force de la corrélation
    • fort : ±0,7 à ±1
    • moyenne : ±0,3 à ±0,699
    • faible : 0 à ±0,299
  8. Méthodes de détermination du coefficient de corrélation et formules
    • méthode des carrés (méthode de Pearson)
    • méthode des rangs (méthode de Spearman)
  9. Exigences méthodologiques pour l'utilisation du coefficient de corrélation
    • la mesure des associations n'est possible que dans des populations qualitativement homogènes (par exemple, mesurer la relation entre la taille et le poids dans des populations homogènes par sexe et par âge)
    • le calcul peut être effectué en utilisant des valeurs absolues ou dérivées
    • pour calculer le coefficient de corrélation, non groupé série de variantes(cette exigence s'applique uniquement lors du calcul du coefficient de corrélation à l'aide de la méthode des carrés)
    • nombre d'observations pas moins de 30
  10. Recommandations pour l'application de la méthode corrélation de rang(Méthode Spearman)
    • lorsqu'il n'est pas nécessaire d'établir avec précision la force de la connexion, mais plutôt des données indicatives
    • lorsque les signes sont représentés non seulement par des valeurs quantitatives, mais aussi par des valeurs attributives
    • lorsque les séries de distribution des fonctionnalités ont options ouvertes(par exemple, expérience de travail jusqu'à 1 an, etc.)
  11. Recommandations pour l'utilisation de la méthode des carrés (méthode de Pearson)
    • lorsqu'il est nécessaire d'établir avec précision la force de la relation entre les caractéristiques
    • quand les signes n'ont qu'une expression quantitative
  12. Méthodologie et procédure de calcul du coefficient de corrélation

    1) Méthode des carrés

    2) Méthode de classement

  13. Schéma d'évaluation de la corrélation par le coefficient de corrélation
  14. Calcul de l'erreur du coefficient de corrélation
  15. Estimation de la fiabilité du coefficient de corrélation obtenu par la méthode de corrélation de rang et la méthode des carrés

    Méthode 1
    La fiabilité est déterminée par la formule :

    Le critère t est évalué selon le tableau des valeurs t, en tenant compte du nombre de degrés de liberté (n - 2), où n est le nombre d'options appariées. Le critère t doit être égal ou supérieur au critère tabulaire, correspondant à la probabilité p ≥ 99 %.

    Méthode 2
    La fiabilité est estimée selon un tableau spécial de coefficients de corrélation standard. Parallèlement, un tel coefficient de corrélation est considéré comme fiable lorsque, pour un certain nombre de degrés de liberté (n - 2), il est égal ou supérieur à celui tabulaire, correspondant au degré de prévision sans erreur p ≥ 95 %.

appliquer la méthode des carrés

Exercer: calculer le coefficient de corrélation, déterminer la direction et la force de la relation entre la quantité de calcium dans l'eau et la dureté de l'eau, si les données suivantes sont connues (tableau 1). Évaluer la fiabilité de la connexion. Faites une conclusion.

Tableau 1

Justification du choix de la méthode. Pour résoudre le problème, la méthode des carrés (Pearson) a été choisie, car chacun des signes (dureté de l'eau et quantité de calcium) a une expression numérique ; aucune option ouverte.

La solution.
La séquence des calculs est décrite dans le texte, les résultats sont présentés dans le tableau. Après avoir construit des rangées de signes comparables appariés, désignez-les par x (dureté de l'eau en degrés) et par y (quantité de calcium dans l'eau en mg / l).

Dureté de l'eau
(en degrés)
La quantité de calcium dans l'eau
(en mg/l)
réx ré x x ré y j x 2 d et 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = Σ x / n M y \u003d Σ y / n Σ ré X X ré y \u003d 7078 Σ d x 2 \u003d 982 Σ d y 2 =51056
M x \u003d 120/6 \u003d 20 Mon \u003d 852 / 6 \u003d 142
  1. Déterminez les valeurs moyennes M x dans l'option de ligne "x" et M y dans l'option de ligne "y" selon les formules :
    Ü x = Σх/n (colonne 1) et
    Ü y = Σу/n (colonne 2)
  2. Trouver l'écart (d x et d y) de chaque option par rapport à la valeur de la moyenne calculée dans la série "x" et dans la série "y"
    d x \u003d x - M x (colonne 3) et d y \u003d y - M y (colonne 4).
  3. Trouver le produit des écarts d x x d y et les additionner : Σ d x x d y (colonne 5)
  4. Mettez au carré chaque écart d x et d y et additionnez leurs valeurs le long de la série « x » et le long de la série « y » : Σ d x 2 = 982 (colonne 6) et Σ d y 2 = 51056 (colonne 7).
  5. Déterminer le produit Σ d x 2 x Σ d y 2 et extraire la racine carrée de ce produit
  6. Les quantités obtenues Σ (d x x d y) et √ (Σd x 2 x Σd y 2) on substitue dans la formule de calcul du coefficient de corrélation :
  7. Déterminez la fiabilité du coefficient de corrélation :
    1er chemin. Trouvez l'erreur du coefficient de corrélation (mr xy) et du critère t à l'aide des formules :

    Critère t = 14,1, qui correspond à la probabilité d'une prévision sans erreur p > 99,9 %.

    2ème voie. La fiabilité du coefficient de corrélation est estimée selon le tableau "Coefficients de corrélation standard" (voir annexe 1). Avec le nombre de degrés de liberté (n - 2) = 6 - 2 = 4, notre coefficient de corrélation calculé r xу = + 0,99 est supérieur à celui du tableau (r table = + 0,917 à p = 99%).

    Conclusion. Plus il y a de calcium dans l'eau, plus elle est dure directe, solide et fiable: rxy = + 0,99, p > 99,9%).

    appliquer la méthode du classement

    Exercer: en utilisant la méthode du classement pour établir la direction et la force de la relation entre la durée de service en années et la fréquence des blessures, si les données suivantes sont obtenues :

    Justification du choix de la méthode : pour résoudre le problème, seule la méthode de corrélation de rang peut être choisie, puisque la première ligne de l'attribut "expérience professionnelle en années" a des options ouvertes (expérience professionnelle jusqu'à 1 an et 7 ans ou plus), ce qui ne permet pas d'utiliser plus de méthode exacte- méthode des carrés.

    La solution. La séquence des calculs est décrite dans le texte, les résultats sont présentés dans le tableau. 2.

    Tableau 2

    Expérience professionnelle en années Nombre de blessés Nombres ordinaux (rangs) Différence de rang différence de rang au carré
    X Oui d(x-y) d2
    Jusqu'à 1 an 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 ou plus 6 5 1 +4 16
    Σ d 2 \u003d 38,5

    Coefficients de corrélation standard considérés comme fiables (selon L.S. Kaminsky)

    Nombre de degrés de liberté - 2 Niveau de probabilité p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Vlasov V.V. Épidémiologie. - M. : GEOTAR-MED, 2004. - 464 p.
    2. Lisitsyn Yu.P. Santé publique et soins de santé. Manuel scolaire pour les lycées. - M. : GEOTAR-MED, 2007. - 512 p.
    3. Medik V.A., Yuriev V.K. Un cours de conférences sur la santé publique et les soins de santé: Partie 1. Santé publique. - M. : Médecine, 2003. - 368 p.
    4. Minyaev V.A., Vishnyakov N.I. et autres Médecine sociale et organisation des soins (Guide en 2 volumes). - Saint-Pétersbourg, 1998. -528 p.
    5. Kucherenko V.Z., Agarkov N.M. etc. Hygiène sociale et organisation des soins ( Didacticiel) - Moscou, 2000. - 432 p.
    6. S.Glantz. Statistiques médico-biologiques. Par de l'anglais. - M., Pratique, 1998. - 459 p.

La notion de relation est assez courante dans recherche psychologique. Un psychologue doit opérer avec elle lorsqu'il devient nécessaire de comparer les mesures de deux ou plusieurs indicateurs de signes ou de phénomènes afin de tirer des conclusions.

La nature de la relation entre les phénomènes étudiés peut être sans ambiguïté, c'est-à-dire comme lorsqu'une certaine valeur d'un attribut correspond à une valeur claire et définie d'un autre. Ainsi, par exemple, dans le sous-test de recherche de modèles de tests de fonctions mentales, le nombre de points "bruts" marqués est déterminé par la formule:
Xi \u003d Stz - Soz / Stz + Spz * Sbc,
où Xi est la valeur des variantes, Sтз est le nombre de modèles spécifiés a priori (correspondances) dans le sous-test, Soz est le nombre de correspondances indiquées par erreur aux sujets de test, Soz est le nombre de correspondances non indiquées (manquantes) à les sujets de test, Sbс est le nombre de tous les mots vus par les sujets de test dans le test.

Une telle relation est dite fonctionnelle : ici un indicateur est fonction d'un autre, qui est un argument par rapport au premier.

Cependant, une relation claire n'est pas toujours trouvée. Le plus souvent, on doit faire face à une situation dans laquelle une valeur d'une caractéristique peut correspondre à plusieurs valeurs d'une autre. Ces valeurs varient dans des limites plus ou moins définies. Ce type de relation est appelé corrélation ou corrélatif.

Il existe plusieurs types d'expressions corrélation. Ainsi, pour exprimer la relation entre les caractéristiques qui ont un caractère quantitatif de la variation de leurs valeurs, on utilise des mesures de la tendance centrale : tabulation suivie du calcul du coefficient de corrélation du couple, du coefficient de corrélation multiple et partielle, du coefficient de détermination multiple, le rapport de corrélation.

S'il est nécessaire d'étudier la relation entre des caractéristiques dont la variation est de nature qualitative (résultats de méthodes projectives de recherche sur la personnalité, études utilisant la méthode différentielle sémantique, études utilisant des échelles ouvertes, etc.), alors utilisez la méthode qualitative coefficient de corrélation alternatif (indicateur tétrachorique), critère de Pearson x2, indicateurs de contingence (contingency) de Pearson et Chuprov.

Pour déterminer la corrélation qualitative-quantitative, c'est-à-dire une telle corrélation, lorsqu'un signe a une variation qualitative et l'autre - quantitative Des méthodes spéciales sont utilisées.

Le coefficient de corrélation (le terme a été introduit pour la première fois par F. Galton en 1888) est un indicateur de la force de la relation entre deux options d'échantillons comparés. Quelle que soit la formule utilisée pour calculer le coefficient de corrélation, sa valeur varie de -1 à +1. Dans le cas d'une corrélation positive complète, ce coefficient est égal à plus 1, et dans le cas d'une corrélation négative complète, il est égal à moins 1. Il s'agit généralement d'une droite passant par les points d'intersection des valeurs de chaque paire de données.

Si les valeurs de la variante ne s'alignent pas sur une ligne droite, mais forment un «nuage», alors le coefficient de corrélation pour valeur absolue devient inférieur à un et à mesure que le "nuage" s'arrondit, il se rapproche de zéro. Si le coefficient de corrélation est de 0, les deux options sont complètement indépendantes l'une de l'autre.

Toute valeur calculée (empirique) du coefficient de corrélation doit être vérifiée pour sa validité ( signification statistique) selon les tableaux correspondants des valeurs critiques du coefficient de corrélation. Si la valeur empirique est inférieure ou égale à la valeur tabulée pour le niveau de 5 % (P = 0,05), la corrélation n'est pas significative. Si la valeur calculée du coefficient de corrélation est supérieure à la valeur tabulée pour P = 0,01, la corrélation est statistiquement significative (significative).

Dans le cas où la valeur du coefficient est comprise entre 0,05 > P > 0,01, on parle en pratique de significativité de la corrélation pour P = 0,05.

Le coefficient de corrélation de Bravais-Pearson (r) est un indicateur paramétrique proposé en 1896, pour le calcul duquel la moyenne arithmétique et les valeurs quadratiques moyennes de la variante sont comparées. Pour calculer ce coefficient, la formule suivante est utilisée (elle peut sembler différente selon les auteurs) :
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

où E Xi Xi1 - la somme des produits des valeurs des options comparables par paires, n est le nombre de paires comparées, NXap, X1ap - la moyenne arithmétique des options Xi, Xi; respectivement, Qx, Qx, -moyennes écarts types distributions x et x.

Le coefficient de corrélation de rang de Spearman Rs (coefficient de corrélation de rang, coefficient de Spearman) est la forme la plus simple coefficient de corrélation et mesure la relation entre les rangs (places) d'une variante donnée sur divers terrains, sans tenir compte de son valeur propre. Ici, la relation est plus qualitative que quantitative.

En règle générale, ce test non paramétrique est utilisé dans les cas où il est nécessaire de tirer des conclusions non pas tant sur les intervalles entre les données que sur leurs rangs, et également lorsque les courbes de distribution sont extrêmement asymétriques et ne permettent pas l'utilisation de tels tests paramétriques. comme le coefficient de corrélation de Bravais-Pearson (dans ces cas, il peut être nécessaire de convertir des données quantitatives en données ordinales). Si le coefficient Rs est proche de +1, alors cela signifie que les deux lignes de l'échantillon classées selon certaines caractéristiques coïncident pratiquement, et si ce coefficient est proche de - 1, on peut parler d'une relation inverse complète.

Comme pour le calcul du coefficient de corrélation de Bravais-Pearson, il est plus commode de présenter les calculs du coefficient Rs sous forme de tableau.

La régression généralise la notion de relation fonctionnelle au cas d'un caractère stochastique (probabiliste) de la relation entre les valeurs d'une variante. Le but de résoudre la catégorie des problèmes de régression est d'estimer la valeur de la variance de sortie continue à partir des valeurs des options d'entrée.

Toute loi de la nature ou du développement social peut être représentée par la description d'un ensemble de relations. Si ces dépendances sont stochastiques et que l'analyse est effectuée sur un échantillon de la population générale, alors ce domaine de recherche fait référence aux tâches d'étude statistique des dépendances, qui comprennent la corrélation, la régression, la variance, l'analyse de covariance et l'analyse de Tableaux de contingence.

    Existe-t-il une relation entre les variables étudiées ?

    Comment mesurer la proximité des connexions ?

Le schéma général de la relation entre les paramètres dans une étude statistique est illustré à la fig. une.

La figure S est un modèle de l'objet réel étudié.Des variables explicatives (indépendantes, factorielles) décrivent les conditions de fonctionnement de l'objet. facteurs aléatoires- ce sont des facteurs dont l'influence est difficile à prendre en compte ou dont l'influence est actuellement négligée. Les variables résultantes (dépendantes, expliquées) caractérisent le résultat du fonctionnement de l'objet.

Le choix de la méthode d'analyse de la relation s'effectue en tenant compte de la nature des variables analysées.

Analyse de corrélation - une méthode de traitement des données statistiques, qui consiste à étudier la relation entre les variables.

Le but de l'analyse de corrélation est de fournir des informations sur une variable à l'aide d'une autre variable. Dans les cas où il est possible d'atteindre l'objectif, les variables sont dites corrélées. La corrélation reflète uniquement la dépendance linéaire des quantités, mais ne reflète pas leur connectivité fonctionnelle. Par exemple, si nous calculons le coefficient de corrélation entre les valeurs A = sin(x) et B = cos(x), alors il sera proche de zéro, c'est-à-dire il n'y a pas de relation entre les quantités.

Lors de l'étude de la corrélation, des approches graphiques et analytiques sont utilisées.

L'analyse graphique commence par la construction d'un champ de corrélation. Le champ de corrélation (ou nuage de points) est une relation graphique entre les résultats de mesure de deux entités. Pour le construire, les données initiales sont tracées sur un graphique, affichant chaque paire de valeurs (xi, yi) sous la forme d'un point de coordonnées xi et yi dans un système de coordonnées rectangulaires.

L'analyse visuelle du champ de corrélation permet de faire une hypothèse sur la forme et le sens de la relation entre les deux indicateurs étudiés. Selon la forme de la relation, les dépendances de corrélation sont généralement divisées en linéaires (voir Fig. 1) et non linéaires (voir Fig. 2). Avec une dépendance linéaire, l'enveloppe du champ de corrélation est proche d'une ellipse. Relation linéaire de deux Variables aléatoires est que lorsqu'une variable aléatoire augmente, une autre variable aléatoire tend à augmenter (ou diminuer) de façon linéaire.

Le sens de la relation est positif si une augmentation de la valeur d'un attribut entraîne une augmentation de la valeur du second (voir Fig. 3) et négatif si une augmentation de la valeur d'un attribut entraîne une diminution de la valeur de la seconde (voir Fig. 4).

Les dépendances qui n'ont que des directions positives ou négatives sont dites monotones.

Les biométriciens anglais F. Galton (1822-1911) et K. Pearson (1857-1936) sont considérés comme les fondateurs de la théorie de la corrélation. Le terme « corrélation » signifie rapport, correspondance. L'idée de corrélation en tant qu'interdépendance de variables aléatoires sous-tend la théorie statistique de la corrélation - l'étude de la dépendance d'une variation de caractéristique sur les conditions environnementales. Certains signes agissent comme influents (factoriels), d'autres - qui sont influencés, efficaces. Les relations entre les caractéristiques peuvent être fonctionnelles et corrélationnelles. Les relations fonctionnelles sont caractérisées par une correspondance complète entre le changement de l'attribut du facteur et le changement de la valeur effective. Chaque valeur de l'attribut-facteur correspond à une certaine valeur de l'attribut effectif. Il n'y a pas de correspondance complète dans les corrélations entre le changement du facteur et le signe résultant. Dans une interaction complexe se trouve la fonctionnalité effective elle-même. Par conséquent, les résultats de l'analyse de corrélation sont importants à cet égard, et l'interprétation de ces résultats dans vue générale nécessite la construction d'un système de corrélations. Ils sont caractérisés par une multitude de causes et d'effets, et avec leur aide, une tendance est établie pour le changement de l'attribut résultant lorsque la valeur de l'attribut facteur change. Par exemple, la productivité du travail est influencée par des facteurs tels que le degré d'amélioration de la technologie et de la technologie, le niveau de mécanisation et d'automatisation du travail, la spécialisation de la production, la rotation du personnel, etc.

Dans la nature et la société, les phénomènes et les événements se déroulent selon la nature de la corrélation, lorsque, avec un changement dans la valeur d'un attribut, il y a une tendance à changer l'autre attribut. La corrélation est cas particulier lien statistique. L'analyse de corrélation est utilisée pour établir l'étroitesse de la relation entre les phénomènes, les processus, les objets.

Le but de l'étude est souvent d'établir la relation (corrélation) entre les signes. La connaissance de la dépendance permet de résoudre la tâche cardinale de toute recherche - la capacité de prévoir et de prédire l'évolution de la situation lorsque le facteur d'influence change. La corrélation ne peut donner qu'une évaluation formelle de la relation. Par conséquent, avant de procéder au calcul des coefficients de corrélation entre toutes les caractéristiques, il convient d'établir théoriquement s'il existe une relation entre ces caractéristiques. En effet, formellement, les statistiques peuvent prouver des relations inexistantes, par exemple, entre la hauteur d'un bâtiment dans une ville et le rendement du blé dans les exploitations agricoles.

La relation entre les phénomènes (corrélation) est déterminée par la mise en place d'expériences, l'analyse statistique. La corrélation ne doit pas être assimilée à la causalité. Cependant, il faut garder à l'esprit que la preuve d'un lien mathématique doit être basée sur véritable dépendance entre les phénomènes. Par exemple, la minéralisation de l'eau diminue du nord au sud de la Biélorussie, dans le même sens la teneur nutriments dans le sol. Une relation significative positive peut être obtenue entre les indicateurs considérés. Cependant, le degré de minéralisation de l'eau ne détermine pas la teneur optimale en éléments nutritifs du sol. Sinon, dans les paysages désertiques, la fertilité serait maximale, puisqu'ici la minéralisation maximale de l'eau (le sol et les nappes phréatiques sont saumâtres), ce qui est contraire à la vérité. Par conséquent, une telle connexion dans les paysages désertiques n'a pas de sens. Vous pouvez trouver le meilleur loyer journalier d'appartements de différents niveaux de confort auprès des propriétaires sans commission sur le site piter.stay24.ru. Une recherche pratique vous permettra de trouver rapidement appartement désiré selon vos exigences, en y consacrant un minimum de temps.

Tout indicateur de connexion sert d'estimation approximative de la dépendance considérée et n'est pas une garantie de l'existence d'une subordination rigide (fonctionnelle). L'absence de dépendance rigide dans la nature et la société contribue à l'autorégulation des processus, phénomènes, systèmes

Dans le sens de la communication peut être direct et inverse; par nature - fonctionnelle ou statistique (corrélation) ; en taille - faible, moyenne ou forte; sous forme - linéaire et non linéaire; par le nombre de signes corrélés - appariés et multiples.

La dépendance fonctionnelle est caractéristique de formes géométriques, systèmes techniques lorsque chaque valeur d'un attribut correspond à valeur exacte une autre. Ceci est un exemple de la relation entre l'aire d'un rectangle et la longueur de l'un de ses côtés. Cette dépendance est complète ou exhaustive.

Il existe plusieurs types de corrélation de paires :

Parallèle-corrélatif, ou associatif, lorsque les deux signes changent de manière conjuguée, en partie sous l'influence de causes et d'effets communs (confinement de la végétation et des sols à certaines formes le soulagement; développement industriel et croissance démographique aux matières premières);

sous-causal, lorsqu'un facteur agit comme une cause distincte d'un changement associé dans un trait (relation entre la biomasse et les précipitations ; la croissance démographique et la fertilité) ;

s'anticipant mutuellement, lorsque la cause et l'effet, étant dans une relation mutuelle stable, s'influencent constamment (humidité de l'air et précipitations).

Si un trait est influencé par plusieurs facteurs, alors plusieurs corrélations doivent être évaluées. Corrélation multiple sert de base pour identifier les relations entre les caractéristiques, mais nécessite une normalité et une rectitude strictes de la distribution, de sorte que son utilisation peut être difficile. À mesure que le nombre de variables augmente, la quantité de travail de calcul augmente proportionnellement au carré du nombre de variables. Dans ce cas, il est plus difficile d'apprécier la significativité des résultats, car les erreurs sur les coefficients de corrélation augmentent. En pratique, dans de tels cas, ils se limitent à étudier uniquement les principaux facteurs. Cependant, la nature de l'influence des principaux facteurs sur le trait est étudiée plus en détail et avec précision par l'analyse factorielle.

À Travaux pratiques pour établir une corrélation entre signes et phénomènes, il faut respecter la séquence suivante :

sur la base des études menées, il est préalablement déterminé s'il existe un lien entre les signes considérés ;

S'il existe un lien entre eux, établissez sa forme, sa direction et son étanchéité à l'aide d'un graphique.

Au début, des séries variationnelles conjuguées sont compilées, dans lesquelles l'argument x et la fonction y doivent être déterminés :

Un graphe est construit pour les options conjuguées, ce qui permet d'établir le type de relation entre l'argument et la fonction. Le traitement ultérieur des données expérimentales ou statistiques dépend de la forme de la corrélation. Dépendance linéaire implique le calcul du coefficient de corrélation r et celui non linéaire - le rapport de corrélation η (Fig. 5.1). Le degré de diffusion de fréquence ou la variante par rapport à la droite de régression sur le graphique indique approximativement l'étroitesse de la connexion : plus la diffusion est faible, plus la connexion est forte (Fig. 5.2).

L'analyse de corrélation résout les tâches suivantes :

Établissement de la direction et de la forme de communication,

évaluation de l'étanchéité de la connexion,

évaluation de la représentativité des estimations statistiques de la relation,

· détermination de l'ampleur de la détermination (part d'influence mutuelle) des facteurs corrélés.

Riz. 5.1. Formulaire de corrélation :

une ligne droite; b - linéaire inverse; c - parabalique; g - hyperbolique

Pour évaluer la connexion, les critères numériques (coefficients) de corrélation suivants sont utilisés :

coefficient de corrélation (r) avec une dépendance linéaire,

rapport de corrélation (η) avec une dépendance non linéaire,

coefficients de régression multiples,

coefficients de rang corrélation linéaire Pearson ou Kendall.

Articles similaires

2022 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.