Comment calculer l'intervalle de confiance en chimie. Calcul d'un intervalle de confiance dans Microsoft Excel

L'une des méthodes permettant de résoudre les problèmes statistiques consiste à calculer l'intervalle de confiance. Elle constitue une alternative préférable à l’estimation ponctuelle lorsque la taille de l’échantillon est petite. Il convient de noter que le processus de calcul de l’intervalle de confiance lui-même est assez complexe. Mais les outils Excel rendent les choses un peu plus faciles. Voyons comment cela se fait dans la pratique.

Cette méthode est utilisée pour l'estimation par intervalles de diverses quantités statistiques. La tâche principale de ce calcul est de s'affranchir des incertitudes de l'estimation ponctuelle.

Dans Excel, il existe deux options principales pour effectuer des calculs à l'aide de cette méthode : lorsque la variance est connue et lorsqu'elle est inconnue. Dans le premier cas, la fonction est utilisée pour les calculs NORME DE CONFIANCE, et dans le second - Administrateur.ÉTUDIANT.

Méthode 1 : fonction CONFIDENCE NORM

Opérateur NORME DE CONFIANCE, qui appartient au groupe de fonctions statistiques, est apparu pour la première fois dans Excel 2010. Les versions antérieures de ce programme utilisent son analogue CONFIANCE. Le but de cet opérateur est de calculer un intervalle de confiance avec une distribution normale pour la moyenne population.

Sa syntaxe est la suivante :

CONFIDENCE.NORM(alpha;standard_off;size)

"Alpha"— un argument indiquant le niveau de signification utilisé pour calculer le niveau de confiance. Le niveau de confiance est égal à l’expression suivante :

(1-"Alpha")*100

"Écart-type"- Il s'agit d'un argument dont l'essence ressort clairement du nom. Ce écart-typeéchantillon proposé.

"Taille"— argument définissant la taille de l'échantillon.

Tous les arguments de cet opérateur sont obligatoires.

Fonction CONFIANCE a exactement les mêmes arguments et possibilités que le précédent. Sa syntaxe est :

CONFIANCE(alpha, standard_off, taille)

Comme vous pouvez le constater, les différences concernent uniquement le nom de l'opérateur. Fonction spécifiée pour des raisons de compatibilité, laissé dans Excel 2010 et les versions plus récentes dans une catégorie spéciale "Compatibilité". Dans les versions d'Excel 2007 et antérieures, il est présent dans le groupe principal des opérateurs statistiques.

La limite de l'intervalle de confiance est déterminée à l'aide de la formule suivante :

X+(-)NORME DE CONFIANCE

X est la valeur moyenne de l'échantillon, située au milieu de la plage sélectionnée.

Voyons maintenant comment calculer un intervalle de confiance sur exemple spécifique. 12 tests ont été effectués, aboutissant à différents résultats rapportés dans le tableau. C'est notre totalité. L'écart type est de 8. Nous devons calculer l'intervalle de confiance au niveau de confiance de 97 %.

  1. Sélectionnez la cellule où le résultat du traitement des données sera affiché. Cliquez sur le bouton "Insérer une fonction".
  2. Apparaît Assistant de fonction. Aller à la catégorie "Statistique" et surlignez le nom "CONFIANCE.NORME". Après cela, cliquez sur le bouton "D'ACCORD".
  3. La fenêtre des arguments s'ouvre. Ses champs correspondent naturellement aux noms des arguments.
    Placez le curseur dans le premier champ - "Alpha". Ici, nous devons indiquer le niveau de signification. On s'en souvient, notre niveau de confiance est de 97%. En même temps, nous avons dit qu'il se calculait ainsi :

    (niveau de confiance 1)/100

    Autrement dit, en substituant la valeur, nous obtenons :

    Par de simples calculs, nous découvrons que l'argument "Alpha"équivaut à 0,03 . Entrez cette valeur dans le champ.

    Comme on le sait, par condition l'écart type est égal à 8 . Ainsi, sur le terrain "Écart-type" notez simplement ce numéro.

    Sur le terrain "Taille" vous devez saisir le nombre d'éléments de test effectués. Comme on s'en souvient, leur 12 . Mais afin d'automatiser la formule et de ne pas la modifier à chaque fois que nous effectuons un nouveau test, définissons cette valeur non numéro régulier, et en utilisant l'opérateur VÉRIFIER. Alors plaçons le curseur dans le champ "Taille", puis cliquez sur le triangle situé à gauche de la barre de formule.

    Une liste des fonctions récemment utilisées apparaît. Si l'opérateur VÉRIFIER a été utilisé par vous récemment, il devrait figurer sur cette liste. Dans ce cas, il vous suffit de cliquer sur son nom. Sinon, si vous ne le trouvez pas, allez au point "Autres fonctions...".

  4. Un déjà familier apparaît Assistant de fonction. Revenons au groupe "Statistique". Nous soulignons le nom ici "VÉRIFIER". Cliquez sur le bouton "D'ACCORD".
  5. La fenêtre d'argument pour l'instruction ci-dessus apparaît. Cette fonction est conçue pour calculer le nombre de cellules dans une plage spécifiée contenant des valeurs numériques. Sa syntaxe est la suivante :

    COUNT(valeur1,valeur2,…)

    Groupe d'arguments "Valeurs" est une référence à la plage dans laquelle vous souhaitez calculer le nombre de cellules remplies de données numériques. Il peut y avoir jusqu'à 255 arguments de ce type au total, mais dans notre cas, nous n'en avons besoin que d'un seul.

    Placez le curseur dans le champ "Valeur1" et, en maintenant enfoncé le bouton gauche de la souris, sélectionnez sur la feuille la plage qui contient notre collection. Ensuite, son adresse sera affichée dans le champ. Cliquez sur le bouton "D'ACCORD".

  6. Après cela, l'application effectuera le calcul et affichera le résultat dans la cellule où il se trouve. Dans notre cas particulier, la formule ressemblait à ceci :

    NORME DE CONFIANCE(0.03,8,COUNT(B2:B13))

    Le résultat global des calculs était 5,011609 .

  7. Mais ce n'est pas tout. Comme on s'en souvient, la limite de l'intervalle de confiance est calculée en ajoutant et en soustrayant le résultat du calcul de la moyenne de l'échantillon. NORME DE CONFIANCE. De cette manière, les limites droite et gauche de l’intervalle de confiance sont calculées respectivement. La moyenne de l'échantillon elle-même peut être calculée à l'aide de l'opérateur MOYENNE.

    Cet opérateur est conçu pour calculer la moyenne valeur arithmétique plage de nombres sélectionnée. Il a la syntaxe suivante assez simple :

    MOYENNE(numéro1,numéro2,…)

    Argument "Nombre" peut être soit une valeur numérique unique, soit une référence à des cellules ou même à des plages entières qui les contiennent.

    Alors, sélectionnez la cellule dans laquelle sera affiché le calcul de la valeur moyenne, et cliquez sur le bouton "Insérer une fonction".

  8. Ouvre Assistant de fonction. Retour à la catégorie "Statistique" et sélectionnez un nom dans la liste "MOYENNE". Comme toujours, cliquez sur le bouton "D'ACCORD".
  9. La fenêtre des arguments s'ouvre. Placez le curseur dans le champ "Numéro 1" et en maintenant enfoncé le bouton gauche de la souris, sélectionnez toute la plage de valeurs. Une fois les coordonnées affichées dans le champ, cliquez sur le bouton "D'ACCORD".
  10. Après cela MOYENNE affiche le résultat du calcul dans un élément de feuille.
  11. Nous calculons la limite droite de l'intervalle de confiance. Pour ce faire, sélectionnez une cellule séparée et mettez le signe «=» et additionner le contenu des éléments de la feuille dans lesquels se trouvent les résultats des calculs de fonctions MOYENNE Et NORME DE CONFIANCE. Pour effectuer le calcul, appuyez sur le bouton Entrer. Dans notre cas, nous avons la formule suivante :

    Résultat du calcul : 6,953276

  12. De la même manière on calcule la limite gauche de l'intervalle de confiance, seulement cette fois à partir du résultat du calcul MOYENNE soustraire le résultat du calcul de l'opérateur NORME DE CONFIANCE. La formule résultante pour notre exemple est du type suivant :

    Résultat du calcul : -3,06994

  13. Nous avons essayé de décrire en détail toutes les étapes de calcul de l'intervalle de confiance, nous avons donc décrit chaque formule en détail. Mais vous pouvez combiner toutes les actions en une seule formule. Le calcul de la limite droite de l’intervalle de confiance peut s’écrire comme suit :

    MOYENNE(B2:B13)+CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))

  14. Un calcul similaire pour la bordure gauche ressemblerait à ceci :

    MOYENNE(B2:B13)-CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))

Méthode 2 : fonction TRUST.STUDENT

De plus, Excel dispose d'une autre fonction associée au calcul de l'intervalle de confiance - Administrateur.ÉTUDIANT. Il n'est apparu que dans Excel 2010. Cet opérateur calcule l'intervalle de confiance de la population à l'aide de la distribution de Student. Il est très pratique à utiliser lorsque la variance et, par conséquent, l'écart type sont inconnus. La syntaxe de l'opérateur est :

CONFIDENCE.ÉTUDIANT(alpha,standard_off,taille)

Comme vous pouvez le constater, les noms des opérateurs sont restés inchangés dans ce cas.

Voyons comment calculer les limites d'un intervalle de confiance avec un écart type inconnu en utilisant l'exemple de la même population que nous avons considérée dans la méthode précédente. Prenons le niveau de confiance de la dernière fois à 97%.

  1. Sélectionnez la cellule dans laquelle le calcul sera effectué. Cliquez sur le bouton "Insérer une fonction".
  2. Dans l'ouvert Assistant de fonction aller à la catégorie "Statistique". Sélectionnez un nom "ÉTUDIANT DE CONFIANCE". Cliquez sur le bouton "D'ACCORD".
  3. La fenêtre des arguments pour l'opérateur spécifié est lancée.

    Sur le terrain "Alpha", étant donné que le niveau de confiance est de 97%, on note le nombre 0,03 . Pour la deuxième fois nous ne nous attarderons pas sur les principes de calcul de ce paramètre.

    Après cela, placez le curseur dans le champ "Écart-type". Cette fois cet indicateur nous est inconnu et doit être calculé. Cela se fait à l'aide d'une fonction spéciale - STDEV.V. Pour ouvrir la fenêtre de cet opérateur, cliquez sur le triangle à gauche de la barre de formule. Si nous ne trouvons pas le nom souhaité dans la liste qui s'ouvre, alors accédez à l'élément "Autres fonctions...".

  4. Départs Assistant de fonction. Passer à la catégorie "Statistique" et marque le nom dedans "STDEV.B". Cliquez ensuite sur le bouton "D'ACCORD".
  5. La fenêtre des arguments s'ouvre. Tâche de l'opérateur STDEV.V consiste à déterminer l’écart type d’un échantillon. Sa syntaxe ressemble à ceci :

    ÉCART TYPE.B(numéro1;numéro2;…)

    Il n'est pas difficile de deviner que l'argument "Nombre" est l'adresse de l'élément de sélection. Si la sélection est placée dans un seul tableau, vous ne pouvez utiliser qu'un seul argument pour fournir un lien vers cette plage.

    Placez le curseur dans le champ "Numéro 1" et, comme toujours, en maintenant enfoncé le bouton gauche de la souris, sélectionnez la collection. Une fois les coordonnées sur le terrain, ne vous précipitez pas pour appuyer sur le bouton "D'ACCORD", puisque le résultat sera incorrect. Nous devons d’abord revenir à la fenêtre des arguments de l’opérateur Administrateur.ÉTUDIANT pour ajouter l'argument final. Pour cela, cliquez sur le nom correspondant dans la barre de formule.

  6. La fenêtre d'arguments de la fonction déjà familière s'ouvre à nouveau. Placez le curseur dans le champ "Taille". Cliquez à nouveau sur le triangle que nous connaissons déjà pour accéder à la sélection des opérateurs. Comme vous l'avez compris, nous avons besoin d'un nom "VÉRIFIER". Depuis que nous avons utilisé cette fonction lors du calcul selon la méthode précédente, il est présent dans cette liste, il suffit donc de cliquer dessus. Si vous ne le trouvez pas, suivez l'algorithme décrit dans la première méthode.
  7. Une fois dans la fenêtre des arguments VÉRIFIER, placez le curseur dans le champ "Numéro 1" et avec le bouton de la souris enfoncé, sélectionnez la collection. Cliquez ensuite sur le bouton "D'ACCORD".
  8. Après cela, le programme effectue un calcul et affiche la valeur de l'intervalle de confiance.
  9. Pour déterminer les limites, nous devrons à nouveau calculer la moyenne de l’échantillon. Mais étant donné que l'algorithme de calcul utilisant la formule MOYENNE la même chose que dans la méthode précédente, et même le résultat n'a pas changé, nous n'y reviendrons pas en détail une seconde fois.
  10. Additionner les résultats du calcul MOYENNE Et Administrateur.ÉTUDIANT, nous obtenons la limite droite de l’intervalle de confiance.
  11. Soustraire des résultats de calcul de l'opérateur MOYENNE résultat du calcul Administrateur.ÉTUDIANT, nous avons la limite gauche de l’intervalle de confiance.
  12. Si le calcul est écrit dans une formule, alors le calcul de la limite droite dans notre cas ressemblera à ceci :

    MOYENNE(B2:B13)+CONFIDENCE.ÉTUDIANT(0,03,STDEV.B(B2:B13),COUNT(B2:B13))

  13. En conséquence, la formule de calcul de la bordure gauche ressemblera à ceci :

    MOYENNE(B2:B13)-CONFIDENCE.ÉTUDIANT(0.03,STDEV.B(B2:B13),COUNT(B2:B13))

Comme vous pouvez le constater, les outils Programmes Excel permettre de simplifier considérablement le calcul de l'intervalle de confiance et de ses limites. À ces fins, des opérateurs distincts sont utilisés pour les échantillons dont la variance est connue et inconnue.

Et d'autres. Tous sont des estimations de leurs analogues théoriques, qui pourraient être obtenues si l'on ne disposait pas d'un échantillon, mais d'une population générale. Mais hélas, la population en général coûte très cher et est souvent inaccessible.

Le concept d'estimation d'intervalle

Toute estimation par échantillon comporte une certaine dispersion, car est Variable aléatoire, en fonction des valeurs d'un échantillon particulier. Par conséquent, pour obtenir des conclusions statistiques plus fiables, il convient de connaître non seulement l'estimation ponctuelle, mais également l'intervalle qui, avec une forte probabilité γ (gamma) couvre l’indicateur évalué θ (thêta).

Formellement, ce sont deux de ces valeurs (statistiques) T1 (X) Et T2 (X), Quoi T1< T 2 , pour lequel à un niveau de probabilité donné γ la condition est remplie :

Bref, il est probable γ ou plus le véritable indicateur est entre les points T1 (X) Et T2 (X), appelées limites inférieure et supérieure Intervalle de confiance.

L'une des conditions de construction des intervalles de confiance est leur étroitesse maximale, c'est-à-dire il doit être le plus court possible. L'envie est tout à fait naturelle, car... le chercheur tente de localiser plus précisément l'emplacement du paramètre souhaité.

Il s'ensuit que l'intervalle de confiance doit couvrir les probabilités maximales de la distribution. et l'évaluation elle-même devrait être au centre.

Autrement dit, la probabilité d'un écart (du véritable indicateur par rapport à l'estimation) vers le haut est égale à la probabilité d'un écart vers le bas. Il convient également de noter que pour les distributions asymétriques, l'intervalle de droite n'est pas égal à l'intervalle gauche.

La figure ci-dessus montre clairement que plus la probabilité de confiance est grande, plus l'intervalle est large – une relation directe.

Il s'agissait d'une brève introduction à la théorie. estimation d'intervalle paramètres inconnus. Passons à la recherche des limites de confiance pour l'espérance mathématique.

Intervalle de confiance pour l'espérance mathématique

Si les données originales sont réparties sur , alors la moyenne sera une valeur normale. Cela découle de la règle selon laquelle une combinaison linéaire de valeurs normales a également distribution normale. Par conséquent, pour calculer les probabilités, nous pourrions utiliser l’appareil mathématique de la loi de distribution normale.

Cependant, cela nécessitera de connaître deux paramètres : l’espérance et la variance, qui sont généralement inconnus. Vous pouvez bien sûr utiliser des estimations à la place des paramètres (moyenne arithmétique et ), mais alors la distribution de la moyenne ne sera pas tout à fait normale, elle sera légèrement aplatie vers le bas. Ce fait a été intelligemment noté par le citoyen irlandais William Gosset, publiant sa découverte dans le numéro de mars 1908 de la revue Biometrica. Pour des raisons de secret, Gosset s'est signé Étudiant. C'est ainsi qu'est apparue la distribution t de Student.

Cependant, la distribution normale des données, utilisée par K. Gauss pour analyser les erreurs des observations astronomiques, est extrêmement rare dans la vie terrestre et il est assez difficile de l'établir (par exemple haute précision environ 2 mille observations sont nécessaires). Par conséquent, il est préférable d’abandonner l’hypothèse de normalité et d’utiliser des méthodes qui ne dépendent pas de la distribution des données originales.

La question se pose : quelle est la distribution de la moyenne arithmétique si elle est calculée à partir des données d'une distribution inconnue ? La réponse est donnée par la théorie bien connue des probabilités Théorème central limite(CPT). En mathématiques, il en existe plusieurs variantes (tout au long pendant de longues années la formulation a été clarifiée), mais tous, grosso modo, se résument à l'affirmation selon laquelle le montant grande quantité les variables aléatoires indépendantes obéissent à la loi de distribution normale.

Lors du calcul de la moyenne arithmétique, la somme des variables aléatoires est utilisée. De là, il s'avère que la moyenne arithmétique a une distribution normale, dans laquelle l'espérance est l'espérance des données originales et la variance est .

Personnes intelligentes savons comment prouver le CLT, mais nous le vérifierons à l'aide d'une expérience menée dans Excel. Simulons un échantillon de 50 variables aléatoires uniformément distribuées (en utilisant Fonctions Excel CAS ENTRE). Ensuite, nous réaliserons 1 000 échantillons de ce type et calculerons la moyenne arithmétique pour chacun. Regardons leur distribution.

On constate que la distribution de la moyenne est proche de la loi normale. Si la taille et le nombre de l’échantillon sont encore plus grands, la similarité sera encore meilleure.

Maintenant que nous avons constaté de nos propres yeux la validité du CLT, nous pouvons, à l'aide de , calculer des intervalles de confiance pour la moyenne arithmétique, qui probabilité donnée couvrir la vraie moyenne ou l’espérance mathématique.

Pour établir les limites supérieure et inférieure, vous devez connaître les paramètres de la distribution normale. En règle générale, il n'y en a pas, c'est pourquoi des estimations sont utilisées : moyenne arithmétique Et variance de l'échantillon. Je le répète, cette méthode ne donne une bonne approximation qu'avec de grands échantillons. Lorsque les échantillons sont petits, il est souvent recommandé d’utiliser la distribution Student. N'y croyez pas ! La distribution de Student pour la moyenne se produit uniquement lorsque les données d'origine sont distribuées normalement, c'est-à-dire presque jamais. Par conséquent, il est préférable de fixer immédiatement une barre minimale pour la quantité de données requises et d'utiliser des méthodes asymptotiquement correctes. On dit que 30 observations suffisent. Prenez-en 50, vous ne vous tromperez pas.

T1.2– limites inférieure et supérieure de l’intervalle de confiance

– exemple de moyenne arithmétique

s 0– écart type de l’échantillon (impartial)

n - taille de l'échantillon

γ – probabilité de confiance (généralement égale à 0,9, 0,95 ou 0,99)

c γ =Φ -1 ((1+γ)/2)valeur réciproque fonctions de distribution normale standard. En termes simples, il s'agit du nombre d'erreurs types depuis la moyenne arithmétique jusqu'à la borne inférieure ou supérieure (ces trois probabilités correspondent aux valeurs de 1,64, 1,96 et 2,58).

L'essence de la formule est que la moyenne arithmétique est prise, puis un certain montant en est mis de côté ( avec γ) erreurs types ( s 0 /√n). Tout est connu, prenez-le et réfléchissez-y.

Avant utilisation de masse Un PC a été utilisé pour obtenir les valeurs de la fonction de distribution normale et de son inverse. Ils sont encore utilisés aujourd'hui, mais il est plus efficace d'utiliser des formules Excel toutes faites. Tous les éléments de la formule ci-dessus ( , et ) peuvent être facilement calculés dans Excel. Mais il existe une formule toute faite pour calculer l'intervalle de confiance - NORME DE CONFIANCE. Sa syntaxe est la suivante.

CONFIDENCE.NORM(alpha;standard_off;size)

alpha– le niveau de signification ou niveau de confiance, qui dans la notation adoptée ci-dessus est égal à 1- γ, soit la probabilité que le résultat mathématiquel'espérance sera en dehors de l'intervalle de confiance. À probabilité de confiance 0,95, alpha est 0,05, etc.

standard_off– écart type des données de l'échantillon. Il n'est pas nécessaire de calculer l'erreur type ; Excel lui-même divisera par la racine de n.

taille– taille de l'échantillon (n).

Le résultat de la fonction CONFIDENCE NORM est le deuxième terme de la formule de calcul de l'intervalle de confiance, c'est-à-dire demi-intervalle En conséquence, les points inférieur et supérieur sont la moyenne ± la valeur obtenue.

Ainsi, il est possible de construire un algorithme universel de calcul des intervalles de confiance pour la moyenne arithmétique, qui ne dépend pas de la distribution des données d'origine. Le prix de l’universalité est sa nature asymptotique, c’est-à-dire la nécessité d'utiliser des échantillons relativement grands. Cependant, à l'époque technologies modernes collecter quantité requise les données ne sont généralement pas difficiles.

Tester des hypothèses statistiques à l’aide d’intervalles de confiance

(module 111)

L'un des principaux problèmes résolus dans les statistiques est. Son essence est brièvement la suivante. On suppose par exemple que les attentes de la population générale sont égales à une certaine valeur. Ensuite, la distribution des moyennes d'échantillon pouvant être observées pour une attente donnée est construite. Ensuite, ils examinent où se situe la moyenne réelle dans cette distribution conditionnelle. Si elle sort limites admissibles, alors l'apparition d'une telle moyenne est très improbable, et avec une seule répétition de l'expérience c'est presque impossible, ce qui contredit l'hypothèse avancée, qui est rejetée avec succès. Si la moyenne ne dépasse pas le niveau critique, alors l'hypothèse n'est pas rejetée (mais pas non plus prouvée !).

Ainsi, à l'aide d'intervalles de confiance, dans notre cas des attentes, vous pouvez également tester certaines hypothèses. C'est très facile à faire. Disons que la moyenne arithmétique d'un certain échantillon est égale à 100. L'hypothèse est testée que la valeur attendue est, disons, 90. Autrement dit, si nous posons primitivement la question, cela ressemble à ceci : est-ce possible avec le vrai valeur de la moyenne égale à 90, la moyenne observée s'est avérée être de 100 ?

Pour répondre à cette question, vous aurez en outre besoin d'informations sur la moyenne écart carré et la taille de l'échantillon. Disons écart-type est de 30 et le nombre d'observations est de 64 (afin que la racine puisse être facilement extraite). L’erreur type de la moyenne est alors de 30/8 ou 3,75. Pour calculer un intervalle de confiance à 95 %, vous devrez en réserver deux de chaque côté de la moyenne. erreurs types(plus précisément, 1,96 chacun). L'intervalle de confiance sera d'environ 100 ± 7,5 ou de 92,5 à 107,5.

Le raisonnement supplémentaire est le suivant. Si la valeur testée se situe dans l’intervalle de confiance, elle ne contredit pas l’hypothèse, car se situe dans les limites des fluctuations aléatoires (avec une probabilité de 95 %). Si le point vérifié se situe en dehors de l'intervalle de confiance, alors la probabilité qu'un tel événement se produise est très faible, au moins inférieure niveau admissible. Cela signifie que l’hypothèse est rejetée car contredisant les données observées. Dans notre cas, l’hypothèse sur la valeur attendue se situe en dehors de l’intervalle de confiance (la valeur testée de 90 n’est pas incluse dans l’intervalle 100 ± 7,5), elle doit donc être rejetée. En répondant à la question primitive ci-dessus, il faut dire : non, cela ne peut en aucun cas, cela arrive extrêmement rarement. Souvent, ils indiquent la probabilité spécifique de rejeter par erreur l'hypothèse (niveau p), et non pas le niveau spécifié sur lequel l'intervalle de confiance a été construit, mais nous y reviendrons une autre fois.

Comme vous pouvez le constater, construire un intervalle de confiance pour la moyenne (ou l’espérance mathématique) n’est pas difficile. L’essentiel est d’en saisir l’essence, et ensuite les choses avanceront. En pratique, la plupart des cas utilisent un intervalle de confiance de 95 %, soit environ deux erreurs types de part et d’autre de la moyenne.

C'est tout pour le moment. Tous mes vœux!

Intervalles de confiance (Anglais Intervalles de confiance) l'un des types d'estimations d'intervalle utilisées dans les statistiques, qui sont calculées pour un niveau de signification donné. Ils nous permettent d'affirmer que la vraie valeur d'un paramètre statistique inconnu de la population se situe dans la plage de valeurs obtenue avec une probabilité spécifiée par le niveau sélectionné. signification statistique.

Distribution normale

Lorsque la variance (σ 2) de la population de données est connue, le score z peut être utilisé pour calculer les limites de confiance (les points limites de l'intervalle de confiance). Par rapport à l'utilisation de la distribution t, l'utilisation du score z vous permettra de construire non seulement un intervalle de confiance plus étroit, mais également des estimations plus fiables de la valeur attendue et de l'écart type (σ), puisque le score z est basé sur un distribution normale.

Formule

Pour déterminer les points limites de l'intervalle de confiance, à condition que l'écart type de la population de données soit connu, la formule suivante est utilisée

L = X - Z α/2 σ
√n

Exemple

Supposons que la taille de l'échantillon est de 25 observations, la valeur attendue de l'échantillon est de 15 et l'écart type de la population est de 8. Pour un niveau de signification de α=5 %, le score Z est Z α/2 =1,96. Dans ce cas, les limites inférieure et supérieure de l'intervalle de confiance seront

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Ainsi, nous pouvons dire qu'avec une probabilité de 95%, l'espérance mathématique de la population se situera entre 11,864 et 18,136.

Méthodes pour réduire l'intervalle de confiance

Supposons que la fourchette soit trop large pour les besoins de notre étude. Il existe deux manières de réduire la plage de l’intervalle de confiance.

  1. Réduire le niveau de signification statistique α.
  2. Augmenter la taille de l’échantillon.

En réduisant le niveau de signification statistique à α=10%, nous obtenons un score Z égal à Z α/2 =1,64. Dans ce cas, les limites inférieure et supérieure de l'intervalle seront

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

Et l’intervalle de confiance lui-même peut s’écrire sous la forme

Dans ce cas, nous pouvons supposer qu’avec une probabilité de 90 %, les attentes mathématiques de la population se situeront dans la fourchette .

Si nous ne voulons pas réduire le niveau de signification statistique α, la seule alternative est d’augmenter la taille de l’échantillon. En l'augmentant à 144 observations, nous obtenons les valeurs de limites de confiance suivantes

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

L'intervalle de confiance lui-même aura la forme suivante

Ainsi, réduire l’intervalle de confiance sans réduire le niveau de signification statistique n’est possible qu’en augmentant la taille de l’échantillon. S’il n’est pas possible d’augmenter la taille de l’échantillon, la réduction de l’intervalle de confiance peut être obtenue uniquement en réduisant le niveau de signification statistique.

Construire un intervalle de confiance pour une distribution autre que normale

Si l'écart type de la population n'est pas connu ou si la distribution est différente de la normale, la distribution t est utilisée pour construire un intervalle de confiance. Cette technique est plus conservatrice, ce qui se reflète dans des intervalles de confiance plus larges, par rapport à la technique basée sur le score Z.

Formule

Pour calculer les limites inférieure et supérieure de l'intervalle de confiance en fonction de la distribution t, utilisez les formules suivantes

L = X - t α σ
√n

La distribution de Student ou distribution t ne dépend que d'un seul paramètre - le nombre de degrés de liberté, qui est égal au nombre de valeurs individuelles de l'attribut (le nombre d'observations dans l'échantillon). La valeur du test t de Student pour un nombre donné de degrés de liberté (n) et le niveau de signification statistique α peuvent être retrouvés dans les tableaux de référence.

Exemple

Supposons que la taille de l'échantillon est de 25 valeurs individuelles, la valeur attendue de l'échantillon est de 50 et l'écart type de l'échantillon est de 28. Il est nécessaire de construire un intervalle de confiance pour le niveau de signification statistique α = 5 %.

Dans notre cas, le nombre de degrés de liberté est de 24 (25-1), donc la valeur correspondante du tableau du test t de Student pour le niveau de signification statistique α = 5 % est de 2,064. Par conséquent, les limites inférieure et supérieure de l’intervalle de confiance seront

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

Et l'intervalle lui-même peut s'écrire sous la forme

Ainsi, nous pouvons dire qu'avec une probabilité de 95%, les attentes mathématiques de la population seront de l'ordre de .

L'utilisation de la distribution t vous permet de réduire l'intervalle de confiance soit en réduisant la signification statistique, soit en augmentant la taille de l'échantillon.

En réduisant la signification statistique de 95 % à 90 % dans les conditions de notre exemple, nous obtenons la valeur du tableau correspondant du test t de Student de 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

Dans ce cas, nous pouvons dire qu'avec une probabilité de 90%, les attentes mathématiques de la population seront dans la fourchette .

Si nous ne voulons pas réduire la signification statistique, la seule alternative est d’augmenter la taille de l’échantillon. Disons qu'il s'agit de 64 observations individuelles, et non de 25 comme dans la condition originale de l'exemple. Valeur du tableau Le test t de Student pour 63 degrés de liberté (64-1) et le niveau de signification statistique α=5 % est de 1,998.

L = 50 - 1.998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Cela nous permet de dire qu'avec une probabilité de 95%, les attentes mathématiques de la population seront dans la fourchette .

Grands échantillons

Les grands échantillons sont des échantillons d'une population de données dans laquelle le nombre d'observations individuelles dépasse 100. Des études statistiques ont montré que les échantillons plus grands ont tendance à être distribués normalement, même si la distribution de la population n'est pas normale. De plus, pour de tels échantillons, l'utilisation d'un score z et d'une distribution t donne à peu près les mêmes résultats lors de la construction d'intervalles de confiance. Ainsi, pour les grands échantillons, il est acceptable d’utiliser le score z pour la distribution normale au lieu de la distribution t.

Résumons-le

Construisons dans MS EXCEL confiance intervalle d'estimation de la valeur moyenne de la distribution dans le cas valeur connueécarts.

Bien sûr le choix niveau de confiance dépend entièrement du problème à résoudre. Ainsi, le degré de confiance d'un passager aérien dans la fiabilité d'un avion devrait sans aucun doute être supérieur au degré de confiance d'un acheteur dans la fiabilité d'une ampoule électrique.

Formulation du problème

Supposons qu'à partir de population ayant été pris échantillon taille n. Il est entendu que écart-type cette répartition est connue. Il faut sur cette base échantillonsévaluer l'inconnu moyenne de distribution(μ, ) et construisons le correspondant double face Intervalle de confiance.

Estimation ponctuelle

Comme on le sait de statistiques(notons-le X moyenne) est estimation impartiale de la moyenne ce population et a une distribution N(μ;σ 2 /n).

Note: Que faire si vous devez construire Intervalle de confiance dans le cas d'une distribution qui n'est pas normale? Dans ce cas, vient à la rescousse, qui dit qu'avec suffisamment grande taille échantillons n de la distribution ne pas être normale, répartition de l'échantillon des statistiques X moy volonté environ correspondre distribution normale avec des paramètres N(μ;σ 2 /n).

Donc, estimation ponctuelle moyenne valeurs de distribution nous avons - ceci moyenne de l'échantillon, c'est à dire. X moyenne. Maintenant, commençons Intervalle de confiance.

Construire un intervalle de confiance

Habituellement, connaissant la distribution et ses paramètres, nous pouvons calculer la probabilité que la variable aléatoire prenne une valeur dans l'intervalle que nous spécifions. Faisons maintenant l’inverse : trouvons l’intervalle dans lequel la variable aléatoire tombera avec une probabilité donnée. Par exemple, à partir des propriétés distribution normale on sait qu'avec une probabilité de 95 %, une variable aléatoire répartie sur loi normale, se situera dans la plage d'environ +/- 2 de valeur moyenne(voir article sur). Cet intervalle nous servira de prototype Intervalle de confiance.

Voyons maintenant si nous connaissons la distribution , calculer cet intervalle ? Pour répondre à la question, il faut indiquer la forme de la distribution et ses paramètres.

Nous connaissons la forme de distribution - c'est distribution normale(rappelez-vous que nous parlons de distribution d'échantillonnage statistiques X moyenne).

Le paramètre μ nous est inconnu (il suffit de l’estimer à l’aide de Intervalle de confiance), mais nous en avons une estimation X moyenne, calculé sur la base des échantillons, qui peut être utilisé.

Deuxième paramètre - écart type de la moyenne de l'échantillon nous le considérerons comme connu, il est égal à σ/√n.

Parce que on ne connaît pas μ, alors on va construire l'intervalle +/- 2 écarts types Pas de valeur moyenne, et d'après son estimation connue X moyenne. Ceux. lors du calcul Intervalle de confiance nous ne supposerons PAS que X moyenne se situe dans la plage +/- 2 écarts types de μ avec une probabilité de 95%, et nous supposerons que l'intervalle est de +/- 2 écarts types depuis X moyenne avec une probabilité de 95 %, il couvrira μ – moyenne de la population générale, d'où il est tiré échantillon. Ces deux énoncés sont équivalents, mais le deuxième énoncé permet de construire Intervalle de confiance.

De plus, clarifions l'intervalle : une variable aléatoire répartie sur loi normale, avec une probabilité de 95 %, se situe dans l'intervalle +/- 1,960 les écarts types, pas +/- 2 écarts types. Cela peut être calculé à l'aide de la formule =NORM.ST.REV((1+0.95)/2), cm. exemple de fichier Intervalle de feuille.

Nous pouvons maintenant formuler un énoncé probabiliste qui nous servira à former Intervalle de confiance:
"La probabilité que population signifie situé à partir de moyenne de l'échantillon dans les 1 960" écarts types de la moyenne de l'échantillon", égal à 95%".

La valeur de probabilité mentionnée dans la déclaration porte un nom spécial , qui est associé à niveau de signification α (alpha) par une expression simple Niveau de confiance =1 . Dans notre cas niveau de signification α =1-0,95=0,05 .

Maintenant, sur la base de cet énoncé probabiliste, nous écrivons une expression pour calculer Intervalle de confiance:

où Z α/2 standard distribution normale(cette valeur de la variable aléatoire z, Quoi P.(z>=Zα/2 )=α/2).

Note: Quantile α/2 supérieur définit la largeur Intervalle de confiance V écarts types moyenne de l’échantillon. Quantile α/2 supérieur standard distribution normale toujours supérieur à 0, ce qui est très pratique.

Dans notre cas, avec α=0,05, quantile α/2 supérieur est égal à 1,960. Pour les autres niveaux de signification α (10 % ; 1 %) quantile α/2 supérieur Zα/2 peut être calculé à l'aide de la formule =NORM.ST.REV(1-α/2) ou, si connu Niveau de confiance, =NORM.ST.OBR((1+niveau de confiance)/2).

Généralement lors de la construction intervalles de confiance pour estimer la moyenne utiliser seulement α supérieur/2-quantile et n'utilise pas α inférieur/2-quantile. Ceci est possible parce que standard distribution normale symétriquement par rapport à l'axe x ( sa densité de distribution symétrique environ moyenne, c'est-à-dire 0). Il n’est donc pas nécessaire de calculer quantile α/2 inférieur(on l'appelle simplement α /2-quantile), parce que c'est égal α supérieur/2-quantile avec un signe moins.

Rappelons que, malgré la forme de la distribution de la valeur x, la variable aléatoire correspondante X moyenne distribué environ Bien N(μ;σ 2 /n) (voir article sur). Par conséquent, dans cas général, l'expression ci-dessus pour Intervalle de confiance n'est qu'une approximation. Si la valeur x est répartie sur loi normale N(μ;σ 2 /n), alors l'expression de Intervalle de confiance est exact.

Calcul de l'intervalle de confiance dans MS EXCEL

Résolvons le problème.
Le temps de réponse d'un composant électronique à un signal d'entrée est caractéristique importante dispositifs. Un ingénieur souhaite construire un intervalle de confiance pour le temps de réponse moyen à un niveau de confiance de 95 %. Depuis Experience precedente L'ingénieur sait que l'écart type du temps de réponse est de 8 ms. On sait que pour évaluer le temps de réponse, l'ingénieur a effectué 25 mesures, la valeur moyenne était de 78 ms.

Solution: L'ingénieur veut connaître le temps de réponse appareil électronique, mais il comprend que le temps de réponse n'est pas une valeur fixe, mais une variable aléatoire qui a sa propre distribution. Le mieux qu’il puisse espérer est donc de déterminer les paramètres et la forme de cette distribution.

Malheureusement, à partir des conditions problématiques, nous ne connaissons pas la forme de la distribution des temps de réponse (il n'est pas nécessaire que ce soit le cas). normale). , cette distribution est également inconnue. Lui seul est connu écart-type=8. Par conséquent, même si nous ne pouvons pas calculer les probabilités et construire Intervalle de confiance.

Cependant, même si nous ne connaissons pas la répartition temps réponse séparée, nous savons que d'après CPT, distribution d'échantillonnage temps de réponse moyen est d'environ normale(nous supposerons que les conditions CPT sont effectués, parce que taille échantillons assez grand (n=25)) .

De plus, moyenne cette répartition est égale à valeur moyenne distribution d'une seule réponse, c'est-à-dire µ. UN écart-type de cette distribution (σ/√n) peut être calculée à l'aide de la formule =8/ROOT(25) .

On sait également que l'ingénieur a reçu estimation ponctuelle paramètre µ égal à 78 ms (X moy). Par conséquent, nous pouvons maintenant calculer des probabilités, car nous connaissons la forme de distribution ( normale) et ses paramètres (X moy et σ/√n).

L'ingénieur veut savoir valeur attendue Distributions des temps de réponse μ. Comme indiqué ci-dessus, ce μ est égal à espérance mathématique distribution de l'échantillon du temps de réponse moyen. Si nous utilisons distribution normale N(X moy; σ/√n), alors le μ souhaité sera compris dans la plage +/-2*σ/√n avec une probabilité d'environ 95 %.

Niveau de signification est égal à 1-0,95=0,05.

Enfin, trouvons les bordures gauche et droite Intervalle de confiance.
Bordure gauche : =78-NORM.ST.REV(1-0.05/2)*8/RACINE(25) = 74,864
Bordure droite : =78+NORM.ST.INV(1-0.05/2)*8/RACINE(25)=81.136

Bordure gauche : =NORM.REV(0.05/2; 78; 8/RACINE(25))
Bordure droite : =NORM.REV(1-0.05/2; 78; 8/RACINE(25))

Répondre: Intervalle de confianceà Niveau de confiance de 95 % et σ=8msecéquivaut à 78+/-3,136 ms.

DANS fichier exemple sur la feuille Sigma connu, a créé un formulaire de calcul et de construction double face Intervalle de confiance pour arbitraire échantillons avec σ donné et niveau de signification.

Fonction CONFIDENCE.NORM()

Si les valeurs échantillons sont dans la gamme B20:B79 , UN niveau de significationégal à 0,05 ; puis la formule MS EXCEL :
= MOYENNE (B20: B79) -CONFIDENCE.NORM (0,05; σ; COMPTE (B20: B79))
renverra la bordure gauche Intervalle de confiance.

La même limite peut être calculée à l'aide de la formule :
= MOYENNE (B20: B79) -NORM.ST.REV (1-0,05/2) * σ / RACINE (COMTE (B20: B79))

Note: La fonction CONFIDENCE.NORM() est apparue dans MS EXCEL 2010. Dans les versions antérieures de MS EXCEL, la fonction TRUST() était utilisée.

INTERVALLES DE CONFIANCE POUR LES FRÉQUENCES ET LES FRACTIONS

© 2008

Institut national de santé publique, Oslo, Norvège

L'article décrit et discute le calcul des intervalles de confiance pour les fréquences et les proportions à l'aide des méthodes de Wald, Wilson, Clopper - Pearson, en utilisant transformation angulaire et par la méthode Wald avec correction Agresti-Coll. Le matériel présenté donne informations générales sur les méthodes de calcul des intervalles de confiance pour les fréquences et les proportions et vise à susciter l'intérêt des lecteurs de revues non seulement à utiliser les intervalles de confiance lors de la présentation des résultats de leurs propres recherches, mais également à lire la littérature spécialisée avant de commencer à travailler sur de futures publications.

Mots clés : intervalle de confiance, fréquence, proportion

L'une des publications précédentes mentionnait brièvement la description des données qualitatives et signalait que leur estimation par intervalles est préférable à l'estimation ponctuelle pour décrire la fréquence d'apparition de la caractéristique étudiée dans la population. En effet, puisque la recherche est menée à partir de données d’échantillonnage, la projection des résultats sur la population doit contenir une part d’imprécision d’échantillonnage. L'intervalle de confiance est une mesure de la précision du paramètre estimé. Il est intéressant de noter que certains ouvrages sur les statistiques de base destinés aux médecins ignorent complètement le sujet des intervalles de confiance pour les fréquences. Dans cet article, nous examinerons plusieurs manières de calculer des intervalles de confiance pour les fréquences, impliquant des caractéristiques d'échantillon telles que la non-répétition et la représentativité, ainsi que l'indépendance des observations les unes par rapport aux autres. Dans cet article, la fréquence n'est pas comprise comme un nombre absolu indiquant combien de fois une valeur particulière apparaît dans l'ensemble, mais comme une valeur relative qui détermine la proportion de participants à l'étude chez lesquels la caractéristique étudiée apparaît.

En recherche biomédicale, les intervalles de confiance de 95 % sont les plus couramment utilisés. Cet intervalle de confiance est la zone dans laquelle se situe la véritable proportion dans 95 % des cas. En d’autres termes, nous pouvons dire avec une fiabilité de 95 % que la valeur réelle de la fréquence d’apparition d’un trait dans la population se situera dans l’intervalle de confiance de 95 %.

La plupart des manuels de statistiques destinés aux chercheurs en médecine indiquent que l'erreur de fréquence est calculée à l'aide de la formule

où p est la fréquence d'apparition de la caractéristique dans l'échantillon (valeur de 0 à 1). La plupart des articles scientifiques nationaux indiquent la fréquence d'apparition d'un trait dans un échantillon (p), ainsi que sa ou ses erreurs sous la forme p ± s. Il est cependant plus approprié de présenter un intervalle de confiance de 95 % pour la fréquence d'apparition d'un trait dans la population, qui inclura des valeurs de

avant.

Certains manuels recommandent que pour les petits échantillons, remplacez la valeur de 1,96 par la valeur de t pour N – 1 degrés de liberté, où N est le nombre d'observations dans l'échantillon. La valeur t se trouve dans les tableaux de distribution t, disponibles dans presque tous les manuels de statistiques. L'utilisation de la distribution t pour la méthode de Wald n'offre pas d'avantages visibles par rapport aux autres méthodes discutées ci-dessous et n'est donc pas recommandée par certains auteurs.

La méthode présentée ci-dessus pour calculer les intervalles de confiance des fréquences ou des proportions est nommée Wald en l'honneur d'Abraham Wald (1902-1950) car large application cela a commencé après la publication de Wald et Wolfowitz en 1939. Cependant, la méthode elle-même a été proposée par Pierre Simon Laplace (1749-1827) en 1812.

La méthode Wald est très populaire, mais son application est associée à des problèmes importants. La méthode n'est pas recommandée pour les échantillons de petite taille, ainsi que dans les cas où la fréquence d'apparition d'une caractéristique tend vers 0 ou 1 (0 % ou 100 %) et est tout simplement impossible pour les fréquences de 0 et 1. De plus, la méthode l'approximation de la distribution normale, utilisée lors du calcul de l'erreur, « ne fonctionne pas » dans les cas où n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Puisque la nouvelle variable est normalement distribuée, les limites inférieure et supérieure de l'intervalle de confiance à 95 % pour la variable φ seront φ-1,96 et φ+1,96left">

Au lieu de 1,96 pour les petits échantillons, il est recommandé de remplacer la valeur t par N – 1 degrés de liberté. Cette méthode ne donne pas valeurs négatives et permet des estimations plus précises des intervalles de confiance pour les fréquences que la méthode Wald. En outre, il est décrit dans de nombreux ouvrages de référence nationaux sur statistiques médicales, ce qui n'a cependant pas conduit à son utilisation répandue dans la recherche médicale. Le calcul des intervalles de confiance par transformation angulaire n'est pas recommandé pour les fréquences proches de 0 ou 1.

C'est là que se termine généralement la description des méthodes d'estimation des intervalles de confiance dans la plupart des ouvrages sur les bases des statistiques destinées aux chercheurs en médecine, et ce problème est typique non seulement de la littérature nationale mais aussi de la littérature étrangère. Les deux méthodes sont basées sur le théorème central limite, ce qui implique un grand échantillon.

Compte tenu des inconvénients de l'estimation des intervalles de confiance à l'aide des méthodes ci-dessus, Clopper et Pearson ont proposé en 1934 une méthode de calcul de l'intervalle de confiance dit exact, prenant en compte distribution binomiale le trait étudié. Cette méthode est disponible dans de nombreux calculateurs en ligne, mais les intervalles de confiance ainsi obtenus sont dans la plupart des cas trop larges. Dans le même temps, cette méthode est recommandée dans les cas où une évaluation prudente est nécessaire. Le degré de prudence de la méthode augmente à mesure que la taille de l'échantillon diminue, en particulier lorsque N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Selon de nombreux statisticiens, l'évaluation la plus optimale des intervalles de confiance pour les fréquences est réalisée par la méthode Wilson, proposée en 1927, mais pratiquement non utilisée dans la recherche biomédicale nationale. Cette méthode permet non seulement d’estimer les intervalles de confiance pour des fréquences très petites et très grandes, mais est également applicable à un petit nombre d’observations. DANS vue générale L'intervalle de confiance selon la formule de Wilson a la forme



où prend la valeur 1,96 lors du calcul de l'intervalle de confiance à 95 %, N est le nombre d'observations et p est la fréquence d'apparition de la caractéristique dans l'échantillon. Cette méthode est disponible dans les calculateurs en ligne, son utilisation ne pose donc pas de problème. et je ne recommande pas d'utiliser cette méthode pour n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Outre la méthode Wilson, la méthode Wald avec correction Agresti – Coll est également censée fournir une estimation optimale de l'intervalle de confiance pour les fréquences. La correction Agresti-Coll est un remplacement dans la formule de Wald de la fréquence d'apparition d'une caractéristique dans un échantillon (p) par p`, lors du calcul dont 2 est ajouté au numérateur et 4 est ajouté au dénominateur, c'est-à-dire p` = (X + 2) / (N + 4), où X est le nombre de participants à l'étude qui présentent la caractéristique étudiée et N est la taille de l'échantillon. Cette modification produit des résultats très similaires à la formule de Wilson, sauf lorsque la fréquence des événements approche 0 % ou 100 % et que l'échantillon est petit. En plus des méthodes ci-dessus pour calculer les intervalles de confiance pour les fréquences, des corrections de continuité ont été proposées pour les méthodes de Wald et Wilson pour les petits échantillons, mais des études ont montré que leur utilisation est inappropriée.

Considérons l'application des méthodes ci-dessus pour calculer les intervalles de confiance à l'aide de deux exemples. Dans le premier cas, nous étudions un large échantillon de 1 000 participants à l'étude sélectionnés au hasard, parmi lesquels 450 présentent le trait étudié (cela peut être un facteur de risque, un résultat ou tout autre trait), ce qui représente une fréquence de 0,45, soit 45. %. Dans le deuxième cas, l'étude est réalisée sur un petit échantillon, disons seulement 20 personnes, et seul 1 participant à l'étude (5 %) possède le trait étudié. Les intervalles de confiance utilisant la méthode Wald, la méthode Wald avec correction Agresti – Coll et la méthode Wilson ont été calculés à l'aide d'un calculateur en ligne développé par Jeff Sauro (//www. /wald. htm). Les intervalles de confiance corrigés par continuité de Wilson ont été calculés à l'aide du calculateur fourni par Wassar Stats : Web Site for Statistical Computation (//faculty.vassar.edu/lowry/prop1.html). Les calculs de transformation angulaire de Fisher ont été effectués manuellement en utilisant la valeur t critique pour 19 et 999 degrés de liberté, respectivement. Les résultats des calculs sont présentés dans le tableau pour les deux exemples.

Intervalles de confiance calculés par six différentes façons pour les deux exemples décrits dans le texte

Méthode de calcul de l'intervalle de confiance

P = 0,0500, soit 5 %

IC à 95 % pour X=450, N=1 000, P=0,4500 ou 45 %

–0,0455–0,2541

Wald avec correction Agresti-Coll

<,0001–0,2541

Wilson avec correction de continuité

Clopper – Pearson "méthode exacte"

Transformation angulaire

<0,0001–0,1967

Comme le montre le tableau, pour le premier exemple, l'intervalle de confiance calculé selon la méthode de Wald « généralement admise » entre dans la région négative, ce qui ne peut pas être le cas pour les fréquences. Malheureusement, de tels incidents ne sont pas rares dans la littérature russe. La manière traditionnelle de présenter les données en termes de fréquence et d’erreur masque en partie ce problème. Par exemple, si la fréquence d'apparition d'un trait (en pourcentage) est présentée comme 2,1 ± 1,4, alors ce n'est pas aussi « offensant pour l'œil » que 2,1 % (IC à 95 % : –0,7 ; 4,9), bien que et signifie la même chose. La méthode Wald avec correction Agresti – Coll et le calcul par transformation angulaire donnent une borne inférieure tendant vers zéro. La méthode de Wilson à correction de continuité et la « méthode exacte » produisent des intervalles de confiance plus larges que la méthode de Wilson. Pour le deuxième exemple, toutes les méthodes donnent à peu près les mêmes intervalles de confiance (les différences n'apparaissent qu'en millièmes), ce qui n'est pas surprenant, puisque la fréquence d'apparition de l'événement dans cet exemple n'est pas très différente de 50 % et la taille de l'échantillon est assez grand.

Pour les lecteurs intéressés par ce problème, nous pouvons recommander les travaux de R. G. Newcombe et Brown, Cai et Dasgupta, qui présentent respectivement les avantages et les inconvénients de l'utilisation de 7 et 10 méthodes différentes pour calculer les intervalles de confiance. Parmi les manuels nationaux, nous recommandons le livre et, qui, en plus d'une description détaillée de la théorie, présente les méthodes de Wald et Wilson, ainsi qu'une méthode de calcul des intervalles de confiance prenant en compte la distribution binomiale des fréquences. En plus des calculateurs en ligne gratuits (http://www. /wald. htm et http://faculty. vassar. edu/lowry/prop1.html), des intervalles de confiance pour les fréquences (et pas seulement !) peuvent être calculés à l'aide du Programme CIA (Confiance Intervals Analysis), téléchargeable sur http://www. école de médecine. soton. ac. Royaume-Uni/cia/ .

Le prochain article examinera les manières univariées de comparer des données qualitatives.

Bibliographie

Banerji A. Statistiques médicales en langage clair : un cours d'introduction / A. Banerjee. – M. : Médecine Pratique, 2007. – 287 p. Statistiques médicales / . – M. : Agence d'Information Médicale, 2007. – 475 p. Glanz S. Statistiques médicales et biologiques / S. Glanz. – M. : Praktika, 1998. Types de données, tests de distribution et statistiques descriptives // Human Ecology – 2008. – N° 1. – P. 52-58. Zhijin K. S.. Statistiques médicales : manuel / . – Rostov s/d : Phoenix, 2007. – 160 p. Statistiques médicales appliquées / , . – Saint-Pétersbourg. : Foliot, 2003. – 428 p. Lakin G. F.. Biométrie / . – M. : Lycée, 1990. – 350 p. Médecin V.A. Statistiques mathématiques en médecine / , . – M. : Finances et Statistiques, 2007. – 798 p. Statistiques mathématiques en recherche clinique / , . – M. : GEOTAR-MED, 2001. – 256 p. Junkerov V.. ET. Traitement médical et statistique des données de la recherche médicale / , . – Saint-Pétersbourg. : VmedA, 2002. – 266 p. Agresti A. Mieux vaut approximatif qu'exact pour l'estimation par intervalles de proportions binomiales / A. Agresti, B. Coull // statisticien américain. – 1998. – N 52. – P. 119-126. Altman D. Statistiques en toute confiance // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londres : BMJ Books, 2000. – 240 p. Brun L.D. Estimation d'intervalle pour une proportion binomiale / L. D. Brown, T. T. Cai, A. Dasgupta // Science statistique. – 2001. – N 2. – P. 101-133. Clopper C.J. L'utilisation de limites de confiance ou de confiance illustrées dans le cas du binôme / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404-413. Garcia-Perez M. A.. Sur l'intervalle de confiance du paramètre binomial / M. A. Garcia-Perez // Qualité et quantité. – 2005. – N 39. – P. 467-481. Motulsky H. Biostatistique intuitive // ​​H. Motulsky. – Oxford : Oxford University Press, 1995. – 386 p. Newcombe R.G. Intervalles de confiance bilatéraux pour la proportion unique : comparaison de sept méthodes / R. G. Newcombe // Statistiques en médecine. – 1998. – N. 17. – P. 857-872. Sauro J. Estimation des taux d'achèvement à partir de petits échantillons à l'aide d'intervalles de confiance binomiaux : comparaisons et recommandations / J. Sauro, J. R. Lewis // Actes de la réunion annuelle de la société des facteurs humains et de l'ergonomie. – Orlando, Floride, 2005. Wald A. Limites de confiance pour les fonctions de distribution continue // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – P. 105-118. Wilson E.B.. Inférence probable, droit de succession et inférence statistique / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – P. 209-212.

INTERVALLES DE CONFIANCE POUR LES PROPORTIONS

UN. M. Grjibovski

Institut national de santé publique, Oslo, Norvège

L'article présente plusieurs méthodes de calcul des intervalles de confiance pour les proportions binomiales, à savoir les méthodes de Wald, Wilson, arc sinus, Agresti-Coull et exacte de Clopper-Pearson. L'article ne donne qu'une introduction générale au problème de l'estimation de l'intervalle de confiance d'une proportion binomiale et son objectif est non seulement d'inciter les lecteurs à utiliser des intervalles de confiance lors de la présentation des résultats de leurs propres recherches empiriques, mais également de les encourager à consulter des livres de statistiques. avant d'analyser ses propres données et de préparer des manuscrits.

Mots clés: intervalle de confiance, proportion

Coordonnées:

Conseiller principal, Institut national de santé publique, Oslo, Norvège

Articles similaires

2023 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.