Intervalle de confiance pour le partage en ligne. Intervalle de confiance pour estimer la moyenne (la variance est connue) dans MS EXCEL

Cible– enseigner aux étudiants des algorithmes pour calculer les intervalles de confiance des paramètres statistiques.

Lors du traitement statistique des données, la moyenne arithmétique calculée, le coefficient de variation, le coefficient de corrélation, les critères de différence et d'autres statistiques ponctuelles doivent recevoir des limites de confiance quantitatives, qui indiquent d'éventuelles fluctuations de l'indicateur dans des directions de plus en plus grandes au sein de l'intervalle de confiance.

Exemple 3.1 . La répartition du calcium dans le sérum sanguin des singes, comme établie précédemment, est caractérisée par les indicateurs d'échantillon suivants : = 11,94 mg% ; = 0,127 mg% ; n= 100. Il est nécessaire de déterminer l'intervalle de confiance de la moyenne générale ( ) avec probabilité de confiance P. = 0,95.

La moyenne générale se situe avec une certaine probabilité dans l'intervalle :

, Où – moyenne arithmétique de l'échantillon ; t– Test de l’étudiant ; – erreur de moyenne arithmétique.

En utilisant le tableau « Valeurs du test t de Student », nous trouvons la valeur avec une probabilité de confiance de 0,95 et le nombre de degrés de liberté k= 100-1 = 99. Il est égal à 1,982. Avec les valeurs de la moyenne arithmétique et de l'erreur statistique, nous la substituons dans la formule :

ou 11h69
12,19

Ainsi, avec une probabilité de 95%, on peut affirmer que la moyenne générale de cette distribution normale se situe entre 11,69 et 12,19 mg%.

Exemple 3.2 . Déterminer les limites de l'intervalle de confiance à 95 % pour la variance générale ( ) répartition du calcium dans le sang des singes, si l'on sait que
= 1,60, à n = 100.

Pour résoudre le problème, vous pouvez utiliser la formule suivante :

– erreur statistique de dispersion.

Nous trouvons l'erreur de variance d'échantillonnage à l'aide de la formule :
. Il est égal à 0,11. Signification t- critère avec une probabilité de confiance de 0,95 et le nombre de degrés de liberté k= 100–1 = 99 est connu de l’exemple précédent.

Utilisons la formule et obtenons :

ou 1,38
1,82

Plus précisément Intervalle de confiance la variance générale peut être construite en utilisant (chi carré) - Test de Pearson. Les points critiques pour ce critère sont donnés dans un tableau spécial. Lors de l'utilisation du critère Pour construire un intervalle de confiance, un niveau de signification bilatéral est utilisé. Pour la limite inférieure, le niveau de signification est calculé à l'aide de la formule
, pour le haut –
. Par exemple, pour le niveau de confiance = 0,99= 0,010,= 0,990. En conséquence, selon le tableau de répartition des valeurs critiques , avec des niveaux de confiance et un nombre de degrés de liberté calculés k= 100 – 1= 99, trouvez les valeurs
Et
. On a
est égal à 135,80, et
est égal à 70,06.

Pour trouver des limites de confiance pour la variance générale en utilisant Utilisons les formules : pour la limite inférieure
, pour la limite supérieure
. Remplaçons les valeurs trouvées par les données problématiques en formules :
= 1,17;
= 2,26. Ainsi, avec une probabilité de confiance P.= 0,99 ou 99 % de variance générale sera comprise entre 1,17 et 2,26 mg% inclus.

Exemple 3.3 . Parmi les 1000 graines de blé du lot reçu au silo, 120 graines ont été trouvées infectées par l'ergot. Il est nécessaire de déterminer les limites probables de la proportion générale de graines infectées dans un lot de blé donné.

Limites de confiance pour part générale pour toutes les valeurs possibles, il convient de la déterminer à l'aide de la formule :

,

n – nombre d'observations ; m– taille absolue de l'un des groupes ; t– écart normalisé.

La proportion de l'échantillon de graines infectées est
ou 12%. Avec probabilité de confiance R.= 95 % d'écart normalisé ( t-Test de l'étudiant à k =
)t = 1,960.

Nous substituons les données disponibles dans la formule :

Les limites de l’intervalle de confiance sont donc égales à = 0,122-0,041 = 0,081, soit 8,1 % ; = 0,122 + 0,041 = 0,163, soit 16,3 %.

Ainsi, avec une probabilité de confiance de 95 %, on peut affirmer que la proportion générale de semences infectées se situe entre 8,1 et 16,3 %.

Exemple 3.4 . Le coefficient de variation caractérisant la variation du calcium (mg%) dans le sérum sanguin des singes était égal à 10,6 %. Taille de l'échantillon n= 100. Il est nécessaire de déterminer les limites de l'intervalle de confiance à 95 % pour le paramètre général CV.

Limites de l'intervalle de confiance pour le coefficient de variation général CV sont déterminés par les formules suivantes :

Et
, Où K valeur intermédiaire calculée par la formule
.

Sachant cela avec une probabilité de confiance R.= 95 % d'écart normalisé (test de Student à k =
)t = 1,960, calculons d'abord la valeur À:

.

ou 9,3%

soit 12,3%

Ainsi, le coefficient de variation général avec un niveau de confiance de 95 % se situe entre 9,3 et 12,3 %. Avec des prélèvements répétés, le coefficient de variation ne dépassera pas 12,3% et ne sera pas inférieur à 9,3% dans 95 cas sur 100.

Questions pour la maîtrise de soi :

Problèmes pour une solution indépendante.

1. Le pourcentage moyen de matière grasse dans le lait pendant la lactation des vaches croisées Kholmogory était le suivant : 3,4 ; 3.6 ; 3.2 ; 3.1 ; 2,9 ; 3,7 ; 3.2 ; 3.6 ; 4,0 ; 3.4 ; 4.1 ; 3,8 ; 3.4 ; 4,0 ; 3.3 ; 3,7 ; 3,5 ; 3.6 ; 3.4 ; 3.8. Établissez des intervalles de confiance pour la moyenne générale à un niveau de confiance de 95 % (20 points).

2. Sur 400 plants de seigle hybrides, les premières fleurs sont apparues en moyenne 70,5 jours après le semis. L'écart type était de 6,9 ​​jours. Déterminer l'erreur de la moyenne et les intervalles de confiance pour la moyenne générale et la variance au niveau de signification W= 0,05 et W= 0,01 (25 points).

3. Lors de l'étude de la longueur des feuilles de 502 spécimens de fraises de jardin, les données suivantes ont été obtenues : = 7,86 cm ; σ = 1,32 cm, = ± 0,06 cm Déterminer les intervalles de confiance pour la moyenne arithmétique de la population avec des niveaux de signification de 0,01 ; 0,02 ; 0,05. (25points).

4. Dans une étude portant sur 150 hommes adultes, la taille moyenne était de 167 cm et σ = 6 cm Quelles sont les limites de la moyenne générale et de la variance générale avec une probabilité de confiance de 0,99 et 0,95 ? (25points).

5. La répartition du calcium dans le sérum sanguin des singes est caractérisée par les indicateurs sélectifs suivants : = 11,94 mg%, σ = 1,27, n = 100. Construisez un intervalle de confiance à 95 % pour la moyenne générale de cette distribution. Calculez le coefficient de variation (25 points).

6. La teneur totale en azote du plasma sanguin de rats albinos âgés de 37 et 180 jours a été étudiée. Les résultats sont exprimés en grammes pour 100 cm 3 de plasma. A l'âge de 37 jours, 9 rats avaient : 0,98 ; 0,83 ; 0,99 ; 0,86 ; 0,90 ; 0,81 ; 0,94 ; 0,92 ; 0,87. A l'âge de 180 jours, 8 rats avaient : 1,20 ; 1,18 ; 1,33 ; 1,21 ; 1,20 ; 1,07 ; 1,13 ; 1.12. Définissez des intervalles de confiance pour la différence à un niveau de confiance de 0,95 (50 points).

7. Déterminer les limites de l'intervalle de confiance à 95 % pour la variance générale de la distribution du calcium (mg %) dans le sérum sanguin des singes, si pour cette distribution la taille de l'échantillon est n = 100, erreur statistique de la variance de l'échantillon s σ 2 = 1,60 (40 points).

8. Déterminez les limites de l'intervalle de confiance à 95 % pour la variance générale de la distribution de 40 épillets de blé sur la longueur (σ 2 = 40,87 mm 2). (25points).

9. Le tabagisme est considéré comme le principal facteur prédisposant aux maladies pulmonaires obstructives. Le tabagisme passif n’est pas considéré comme un tel facteur. Les scientifiques ont douté de l'innocuité du tabagisme passif et ont examiné la perméabilité des voies respiratoires des non-fumeurs, des fumeurs passifs et actifs. Pour caractériser l'état des voies respiratoires, nous avons pris l'un des indicateurs de la fonction respiratoire externe - le débit volumétrique maximum à mi-expiration. Une diminution de cet indicateur est un signe d'obstruction des voies respiratoires. Les données de l'enquête sont présentées dans le tableau.

Nombre de personnes examinées

Maximum vitesse volumétrique mi-expiration, l/s

Écart-type

Non-fumeurs

travailler dans un espace non-fumeur

travailler dans une pièce enfumée

Fumeur

les fumeurs ne le font pas grand nombre cigarettes

nombre moyen de fumeurs de cigarettes

fumer un grand nombre de cigarettes

À l’aide des données du tableau, trouvez des intervalles de confiance à 95 % pour la moyenne globale et la variance globale de chaque groupe. Quelles sont les différences entre les groupes ? Présentez les résultats graphiquement (25 points).

10. Déterminer les limites des intervalles de confiance à 95 % et 99 % pour la variance générale du nombre de porcelets dans 64 mises bas, si l'erreur statistique de la variance de l'échantillon s σ 2 = 8,25 (30 points).

11. On sait que le poids moyen des lapins est de 2,1 kg. Déterminer les limites des intervalles de confiance à 95 % et 99 % pour la moyenne générale et la variance à n= 30, σ = 0,56 kg (25 points).

12. La teneur en grains de l'épi a été mesurée pour 100 épis ( X), longueur de l'oreille ( Oui) et la masse de grain dans l'épi ( Z). Trouver des intervalles de confiance pour la moyenne générale et la variance à P. 1 = 0,95, P. 2 = 0,99, P. 3 = 0,999 si = 19, = 6,766 cm, = 0,554 g ; σ x 2 = 29,153, σ y 2 = 2, 111, σ z 2 = 0, 064. (25 points).

13. Dans 100 épis de maïs sélectionnés au hasard blé d'hiver le nombre d'épillets a été compté. La population échantillon a été caractérisée les indicateurs suivants: = 15 épillets et σ = 2,28 pcs. Déterminer avec quelle précision le résultat moyen a été obtenu ( ) et construisez un intervalle de confiance pour la moyenne générale et la variance aux niveaux de signification de 95 % et 99 % (30 points).

14. Nombre de côtes sur les coquilles de mollusques fossiles Orthobonites calligramme:

Il est connu que n = 19, σ = 4,25. Déterminer les limites de l'intervalle de confiance pour la moyenne générale et la variance générale au niveau de signification W = 0,01 (25 points).

15. Pour déterminer le rendement laitier dans une ferme laitière commerciale, la productivité de 15 vaches a été déterminée quotidiennement. Selon les données de l'année, chaque vache a donné en moyenne la quantité de lait suivante par jour (l) : 22 ; 19 ; 25 ; 20 ; 27 ; 17 ; trente; 21 ; 18 ; 24 ; 26 ; 23 ; 25 ; 20 ; 24. Construisez des intervalles de confiance pour la variance générale et la moyenne arithmétique. Peut-on s’attendre à ce que la production annuelle moyenne de lait par vache soit de 10 000 litres ? (50points).

16. Afin de déterminer le rendement moyen en blé de l'entreprise agricole, le fauchage a été effectué sur des parcelles d'essai de 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 et 2 hectares. La productivité (c/ha) des parcelles était de 39,4 ; 38 ; 35,8 ; 40 ; 35 ; 42,7 ; 39,3 ; 41,6 ; 33 ; 42 ; 29 respectivement. Construisez des intervalles de confiance pour la variance générale et la moyenne arithmétique. Peut-on espérer que le rendement agricole moyen soit de 42 c/ha ? (50points).

Et d'autres. Tous sont des estimations de leurs analogues théoriques, qui pourraient être obtenues si l'on ne disposait pas d'un échantillon, mais d'une population générale. Mais hélas, la population en général coûte très cher et est souvent inaccessible.

Le concept d'estimation d'intervalle

Toute estimation par échantillon comporte une certaine dispersion, car est une variable aléatoire dépendant des valeurs d'un échantillon particulier. Par conséquent, pour des conclusions statistiques plus fiables, il faut savoir non seulement estimation ponctuelle, mais aussi un intervalle très probable γ (gamma) couvre l’indicateur évalué θ (thêta).

Formellement, ce sont deux de ces valeurs (statistiques) T1 (X) Et T2 (X), Quoi T1< T 2 , pour lequel à un niveau de probabilité donné γ la condition est remplie :

Bref, il est probable γ ou plus le véritable indicateur est entre les points T1 (X) Et T2 (X), appelées limites inférieure et supérieure Intervalle de confiance.

L'une des conditions de construction des intervalles de confiance est leur étroitesse maximale, c'est-à-dire il doit être le plus court possible. L'envie est tout à fait naturelle, car... le chercheur tente de localiser plus précisément l'emplacement du paramètre souhaité.

Il s'ensuit que l'intervalle de confiance doit couvrir les probabilités maximales de la distribution. et l'évaluation elle-même devrait être au centre.

Autrement dit, la probabilité d'un écart (du véritable indicateur par rapport à l'estimation) vers le haut est égale à la probabilité d'un écart vers le bas. Il convient également de noter que pour les distributions asymétriques, l'intervalle de droite n'est pas égal à l'intervalle gauche.

La figure ci-dessus montre clairement que plus probabilité de confiance, plus l'intervalle est large - une relation directe.

Il s'agissait d'une brève introduction à la théorie de l'estimation par intervalles de paramètres inconnus. Passons à la recherche des limites de confiance pour espérance mathématique.

Intervalle de confiance pour l'espérance mathématique

Si les données originales sont réparties sur , alors la moyenne sera une valeur normale. Cela découle de la règle selon laquelle une combinaison linéaire de valeurs normales a également une distribution normale. Par conséquent, pour calculer les probabilités, nous pourrions utiliser l’appareil mathématique de la loi de distribution normale.

Cependant, cela nécessitera de connaître deux paramètres : l’espérance et la variance, qui sont généralement inconnus. Vous pouvez bien sûr utiliser des estimations à la place des paramètres (moyenne arithmétique et ), mais alors la distribution de la moyenne ne sera pas tout à fait normale, elle sera légèrement aplatie vers le bas. Ce fait a été intelligemment noté par le citoyen irlandais William Gosset, publiant sa découverte dans le numéro de mars 1908 de la revue Biometrica. Pour des raisons de secret, Gosset s'est signé Étudiant. C'est ainsi qu'est apparue la distribution t de Student.

Cependant, la distribution normale des données, utilisée par K. Gauss pour analyser les erreurs des observations astronomiques, est extrêmement rare dans la vie terrestre et il est assez difficile de l'établir (par exemple haute précision environ 2 mille observations sont nécessaires). Par conséquent, il est préférable d’abandonner l’hypothèse de normalité et d’utiliser des méthodes qui ne dépendent pas de la distribution des données originales.

La question se pose : quelle est la distribution de la moyenne arithmétique si elle est calculée à partir des données d'une distribution inconnue ? La réponse est donnée par la théorie bien connue des probabilités Théorème central limite(CPT). En mathématiques, il en existe plusieurs variantes (tout au long pendant de longues années la formulation a été clarifiée), mais tous, grosso modo, se résument à l'affirmation selon laquelle le montant grande quantité les variables aléatoires indépendantes obéissent à la loi de distribution normale.

Lors du calcul de la moyenne arithmétique, la somme des variables aléatoires est utilisée. De là, il s'avère que la moyenne arithmétique a une distribution normale, dans laquelle l'espérance est l'espérance des données originales et la variance est .

Personnes intelligentes savons comment prouver le CLT, mais nous le vérifierons à l'aide d'une expérience menée dans Excel. Simulons un échantillon de 50 variables aléatoires uniformément distribuées (en utilisant Fonctions Excel CAS ENTRE). Ensuite, nous réaliserons 1 000 échantillons de ce type et calculerons la moyenne arithmétique pour chacun. Regardons leur distribution.

On voit que la distribution de la moyenne est proche de la loi normale. Si la taille et le nombre de l’échantillon sont encore plus grands, la similarité sera encore meilleure.

Maintenant que nous avons constaté de nos propres yeux la validité du CLT, nous pouvons, à l'aide de , calculer des intervalles de confiance pour la moyenne arithmétique, qui probabilité donnée couvrir la vraie moyenne ou l’espérance mathématique.

Pour établir les limites supérieure et inférieure, vous devez connaître les paramètres de la distribution normale. En règle générale, il n'y en a pas, c'est pourquoi des estimations sont utilisées : moyenne arithmétique Et variance de l'échantillon. Je le répète, cette méthode ne donne une bonne approximation qu'avec de grands échantillons. Lorsque les échantillons sont petits, il est souvent recommandé d’utiliser la distribution Student. N'y croyez pas ! La distribution de Student pour la moyenne se produit uniquement lorsque les données d'origine sont distribuées normalement, c'est-à-dire presque jamais. Par conséquent, il est préférable de fixer immédiatement une barre minimale pour la quantité de données requises et d'utiliser des méthodes asymptotiquement correctes. On dit que 30 observations suffisent. Prenez-en 50, vous ne vous tromperez pas.

T1.2– limites inférieure et supérieure de l’intervalle de confiance

– exemple de moyenne arithmétique

s 0– écart type de l’échantillon (impartial)

n - taille de l'échantillon

γ – probabilité de confiance (généralement égale à 0,9, 0,95 ou 0,99)

c γ =Φ -1 ((1+γ)/2)valeur réciproque fonctions de distribution normale standard. En termes simples, il s'agit du nombre d'erreurs types depuis la moyenne arithmétique jusqu'à la borne inférieure ou supérieure (ces trois probabilités correspondent aux valeurs de 1,64, 1,96 et 2,58).

L'essence de la formule est que la moyenne arithmétique est prise, puis un certain montant en est mis de côté ( avec γ) erreurs types ( s 0 /√n). Tout est connu, prenez-le et réfléchissez-y.

Avant utilisation de masse Un PC a été utilisé pour obtenir les valeurs de la fonction de distribution normale et de son inverse. Ils sont encore utilisés aujourd'hui, mais il est plus efficace de se tourner vers le ready-made Formules Excel. Tous les éléments de la formule ci-dessus ( , et ) peuvent être facilement calculés dans Excel. Mais il existe une formule toute faite pour calculer l'intervalle de confiance - NORME DE CONFIANCE. Sa syntaxe est la suivante.

CONFIDENCE.NORM(alpha;standard_off;size)

alpha– le niveau de signification ou niveau de confiance, qui dans la notation adoptée ci-dessus est égal à 1- γ, soit la probabilité que le résultat mathématiquel'espérance sera en dehors de l'intervalle de confiance. Avec un niveau de confiance de 0,95, l'alpha est de 0,05, etc.

standard_off– écart type des données de l'échantillon. Il n'est pas nécessaire de calculer l'erreur type ; Excel lui-même divisera par la racine de n.

taille– taille de l'échantillon (n).

Le résultat de la fonction CONFIDENCE NORM est le deuxième terme de la formule de calcul de l'intervalle de confiance, c'est-à-dire demi-intervalle En conséquence, les points inférieur et supérieur sont la moyenne ± la valeur obtenue.

Ainsi, il est possible de construire un algorithme universel de calcul des intervalles de confiance pour la moyenne arithmétique, qui ne dépend pas de la distribution des données d'origine. Le prix de l’universalité est sa nature asymptotique, c’est-à-dire la nécessité d'utiliser des échantillons relativement grands. Cependant, à l'époque technologies modernes collecter quantité requise les données ne sont généralement pas difficiles.

Tester des hypothèses statistiques à l’aide d’intervalles de confiance

(module 111)

L'un des principaux problèmes résolus dans les statistiques est. Son essence est brièvement la suivante. On suppose, par exemple, que l'attente populationégal à une certaine valeur. Ensuite, la distribution des moyennes d'échantillon pouvant être observées pour une attente donnée est construite. Ensuite, ils examinent où se situe la moyenne réelle dans cette distribution conditionnelle. Si elle sort limites admissibles, alors l'apparition d'une telle moyenne est très improbable, et avec une seule répétition de l'expérience c'est presque impossible, ce qui contredit l'hypothèse avancée, qui est rejetée avec succès. Si la moyenne ne dépasse pas le niveau critique, alors l'hypothèse n'est pas rejetée (mais pas non plus prouvée !).

Ainsi, à l'aide d'intervalles de confiance, dans notre cas des attentes, vous pouvez également tester certaines hypothèses. C'est très facile à faire. Disons que la moyenne arithmétique d'un certain échantillon est égale à 100. L'hypothèse est testée que la valeur attendue est, disons, 90. Autrement dit, si nous posons primitivement la question, cela ressemble à ceci : est-ce possible avec le vrai valeur de la moyenne égale à 90, la moyenne observée s'est avérée être de 100 ?

Pour répondre à cette question, vous aurez en outre besoin d'informations sur la moyenne écart carré et la taille de l'échantillon. Supposons que l'écart type soit de 30 et que le nombre d'observations soit de 64 (pour extraire facilement la racine). L’erreur type de la moyenne est alors de 30/8 ou 3,75. Pour calculer un intervalle de confiance à 95 %, vous devrez en réserver deux de chaque côté de la moyenne. erreurs types(plus précisément, 1,96 chacun). L'intervalle de confiance sera d'environ 100 ± 7,5 ou de 92,5 à 107,5.

Le raisonnement supplémentaire est le suivant. Si la valeur testée se situe dans l’intervalle de confiance, elle ne contredit pas l’hypothèse, car se situe dans les limites des fluctuations aléatoires (avec une probabilité de 95 %). Si le point vérifié se situe en dehors de l'intervalle de confiance, alors la probabilité qu'un tel événement se produise est très faible, au moins inférieure niveau admissible. Cela signifie que l’hypothèse est rejetée car contredisant les données observées. Dans notre cas, l’hypothèse sur la valeur attendue se situe en dehors de l’intervalle de confiance (la valeur testée de 90 n’est pas incluse dans l’intervalle 100 ± 7,5), elle doit donc être rejetée. En répondant à la question primitive ci-dessus, il faut dire : non, cela ne peut en aucun cas, cela arrive extrêmement rarement. Souvent, ils indiquent la probabilité spécifique de rejeter par erreur l'hypothèse (niveau p), et non pas le niveau spécifié sur lequel l'intervalle de confiance a été construit, mais nous y reviendrons une autre fois.

Comme vous pouvez le constater, construire un intervalle de confiance pour la moyenne (ou l’espérance mathématique) n’est pas difficile. L’essentiel est d’en saisir l’essence, et ensuite les choses avanceront. En pratique, la plupart des cas utilisent un intervalle de confiance de 95 %, soit environ deux erreurs types de part et d’autre de la moyenne.

C'est tout pour le moment. Tous mes vœux!

L'intervalle de confiance nous vient du domaine des statistiques. Il s'agit d'une certaine plage qui sert à estimer un paramètre inconnu avec un degré élevé de fiabilité. La façon la plus simple d’expliquer cela est de prendre un exemple.

Supposons que vous deviez étudier une variable aléatoire, par exemple la vitesse de réponse du serveur à une demande client. Chaque fois qu'un utilisateur saisit l'adresse d'un site Web spécifique, le serveur répond avec à des vitesses différentes. Ainsi, le temps de réponse étudié est aléatoire. Ainsi, l'intervalle de confiance nous permet de déterminer les limites de ce paramètre, et nous pouvons alors dire qu'avec une probabilité de 95 %, le serveur sera dans la plage que nous avons calculée.

Ou vous devez savoir combien de personnes connaissent marque déposée entreprises. Lors du calcul de l'intervalle de confiance, on pourra par exemple dire qu'avec une probabilité de 95 % la part des consommateurs qui en sont conscients se situe entre 27 % et 34 %.

La valeur de la probabilité de confiance est étroitement liée à ce terme. Il représente la probabilité que le paramètre souhaité soit inclus dans l'intervalle de confiance. L’étendue de notre plage souhaitée dépend de cette valeur. Plus la valeur est grande, plus l’intervalle de confiance devient étroit, et vice versa. Généralement, il est réglé sur 90 %, 95 % ou 99 %. La valeur 95 % est la plus populaire.

Sur cet indicateur la variance des observations influence également et Sa définition est basée sur l'hypothèse que la caractéristique étudiée obéit. Cette déclaration est également connue sous le nom de loi de Gauss. Selon lui, une telle distribution de toutes les probabilités d'un phénomène continu Variable aléatoire, qui peut être décrit par une densité de probabilité. Si l'hypothèse concernant distribution normale s'est avéré erroné, l'évaluation peut être incorrecte.

Voyons d’abord comment calculer l’intervalle de confiance pour. Il existe ici deux cas possibles. La dispersion (le degré de propagation d'une variable aléatoire) peut être connue ou non. Si cela est connu, alors notre intervalle de confiance est calculé à l'aide de la formule suivante :

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - signe,

t - paramètre de la table de distribution de Laplace,

σ est la racine carrée de la variance.

Si la variance est inconnue, elle peut alors être calculée si nous connaissons toutes les valeurs de la caractéristique souhaitée. La formule suivante est utilisée pour cela :

σ2 = х2ср - (хср)2, où

х2ср - valeur moyenne des carrés de la caractéristique étudiée,

(хср)2 est le carré de cette caractéristique.

La formule par laquelle l'intervalle de confiance est calculé dans ce cas change légèrement :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - moyenne de l'échantillon,

α - signe,

t est un paramètre trouvé à l'aide de la table de distribution de Student t = t(ɣ;n-1),

sqrt(n) - racine carrée de la taille totale de l'échantillon,

s est la racine carrée de la variance.

Considérez cet exemple. Supposons que, sur la base des résultats de 7 mesures, la caractéristique étudiée soit déterminée égale à 30 et la variance de l'échantillon égale à 36. Il est nécessaire de trouver, avec une probabilité de 99 %, un intervalle de confiance qui contient la vraie valeur du paramètre mesuré.

Tout d'abord, déterminons à quoi t est égal : t = t (0,99 ; 7-1) = 3,71. En utilisant la formule ci-dessus, nous obtenons :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (carré(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

L'intervalle de confiance pour la variance est calculé à la fois dans le cas d'une moyenne connue et lorsqu'il n'y a pas de données sur l'espérance mathématique, et seule la valeur de l'estimation ponctuelle non biaisée de la variance est connue. Nous ne donnerons pas ici de formules pour le calculer, car elles sont assez complexes et, si vous le souhaitez, peuvent toujours être trouvées sur Internet.

Notons seulement qu'il est pratique de déterminer l'intervalle de confiance à l'aide d'Excel ou d'un service réseau, ainsi appelé.

Intervalle de confiance(CI ; en anglais, intervalle de confiance - CI) obtenu dans une étude avec un échantillon donne une mesure de l'exactitude (ou de l'incertitude) des résultats de l'étude afin de tirer des conclusions sur la population de tous ces patients (la population générale). La définition correcte d'un IC à 95 % peut être formulée comme suit : 95 % de ces intervalles contiendront la vraie valeur dans la population. Cette interprétation est un peu moins précise : CI est la plage de valeurs dans laquelle vous pouvez être sûr à 95 % qu'elle contient la vraie valeur. Lors de l’utilisation d’un IC, l’accent est mis sur la détermination d’un effet quantitatif, par opposition à la valeur P résultant du test de signification statistique. La valeur P n’estime aucune quantité, mais sert plutôt à mesurer la force des preuves contre l’hypothèse nulle de « aucun effet ». La valeur de P en elle-même ne nous dit rien sur l’ampleur de la différence, ni même sur sa direction. Par conséquent, les valeurs P indépendantes ne sont absolument pas informatives dans les articles ou les résumés. En revanche, l’IC indique à la fois l’ampleur de l’effet d’intérêt immédiat, tel que le bénéfice d’un traitement, et la force des preuves. Par conséquent, DI est directement lié à la pratique de l’EBM.

L'approche d'estimation de l'analyse statistique, illustrée par l'IC, vise à mesurer la quantité d'un effet d'intérêt (sensibilité d'un test diagnostique, taux de cas prédits, réduction du risque relatif avec le traitement, etc.) et également à mesurer l'incertitude dans cet effet. effet. Le plus souvent, l'IC est la plage de valeurs de part et d'autre de l'estimation dans laquelle se situe probablement la vraie valeur, et vous pouvez en être sûr à 95 %. L’accord sur l’utilisation de la probabilité de 95 % est arbitraire, tout comme la valeur P.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI repose sur l’idée qu’une même étude réalisée sur différents échantillons de patients ne produirait pas des résultats identiques, mais que leurs résultats seraient répartis autour d’une valeur vraie mais inconnue. En d’autres termes, CI le décrit comme une « variabilité dépendante de l’échantillon ». L'IC ne reflète pas une incertitude supplémentaire due à d'autres raisons ; en particulier, il n'inclut pas l'impact d'une perte de suivi sélective, d'une mauvaise observance ou d'une mesure des résultats inexacte, de l'absence de mise en aveugle, etc. L’IC sous-estime donc toujours le montant total de l’incertitude.

Calcul de l'intervalle de confiance

Tableau A1.1. Erreurs types et intervalles de confiance pour certaines mesures cliniques

En règle générale, un IC est calculé à partir d'une estimation observée d'une quantité, telle que la différence (d) entre deux proportions, et de l'erreur standard (SE) dans l'estimation de cette différence. L'IC approximatif à 95 % obtenu de cette manière est d ± 1,96 SE. La formule change en fonction de la nature de la mesure du résultat et de la portée de l'IC. Par exemple, dans un essai randomisé contrôlé par placebo portant sur un vaccin acellulaire contre la coqueluche, 72 nourrissons sur 1 670 (4,3 %) ayant reçu le vaccin ont développé la coqueluche et 240 sur 1 665 (14,4 %) dans le groupe témoin. La différence en pourcentage, connue sous le nom de réduction du risque absolu, est de 10,1 %. L'ES de cette différence est de 0,99 %. En conséquence, l'IC à 95 % est de 10,1 % + 1,96 x 0,99 %, soit de 8,2 à 12,0.

Malgré leurs approches philosophiques différentes, les IC et les tests de signification statistique sont étroitement liés mathématiquement.

Ainsi, la valeur P est « significative », c’est-à-dire R.<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

L'incertitude (l'inexactitude) de l'estimation, exprimée en IC, est largement liée à la racine carrée de la taille de l'échantillon. Les petits échantillons fournissent moins d’informations que les grands, et l’IC est d’autant plus large dans un échantillon plus petit. Par exemple, un article comparant les performances de trois tests utilisés pour diagnostiquer une infection à Helicobacter pylori a rapporté une sensibilité du test respiratoire à l'urée de 95,8 % (IC à 95 % 75-100). Bien que le chiffre de 95,8 % soit impressionnant, le petit échantillon de 24 patients adultes atteints de J. pylori signifie qu'il existe une incertitude significative dans cette estimation, comme le montre l'IC large. En effet, la limite inférieure de 75 % est bien inférieure à l’estimation de 95,8 %. Si la même sensibilité était observée dans un échantillon de 240 personnes, l’IC à 95 % serait compris entre 92,5 et 98,0, ce qui donnerait davantage d’assurance sur la haute sensibilité du test.

Dans les essais contrôlés randomisés (ECR), les résultats non significatifs (c'est-à-dire ceux avec P > 0,05) sont particulièrement susceptibles d'être mal interprétés. L'IC est particulièrement utile ici car il montre dans quelle mesure les résultats sont cohérents avec l'effet réel cliniquement utile. Par exemple, dans un ECR comparant la suture colique et l’anastomose par agrafes, une infection de la plaie s’est développée chez 10,9 % et 13,5 % des patients, respectivement (P = 0,30). L'IC à 95 % de cette différence est de 2,6 % (−2 à +8). Même dans cette étude portant sur 652 patients, il reste possible qu'il existe une légère différence dans l'incidence des infections résultant des deux procédures. Moins il y a de recherche, plus l’incertitude est grande. Sung et coll. a réalisé un ECR pour comparer la perfusion d'octréotide à la sclérothérapie aiguë pour les saignements variqueux aigus chez 100 patients. Dans le groupe octréotide, le taux de contrôle des saignements était de 84 % ; dans le groupe sclérothérapie - 90 %, ce qui donne P = 0,56. Notez que les taux de saignements continus sont similaires à ceux d’infection des plaies dans l’étude mentionnée. Dans ce cas, cependant, l'IC à 95 % pour la différence entre les interventions est de 6 % (-7 à +19). Cette fourchette est assez large par rapport à la différence de 5 % qui présenterait un intérêt clinique. De toute évidence, l’étude n’exclut pas une différence significative d’efficacité. Par conséquent, la conclusion des auteurs selon laquelle la perfusion d’octréotide et la sclérothérapie sont tout aussi efficaces dans le traitement des saignements dus aux varices est définitivement invalide. Dans des cas comme celui-ci, où, comme ici, l'IC à 95 % pour la réduction du risque absolu (ARR) inclut zéro, l'IC pour le NNT (nombre nécessaire à traiter) est assez difficile à interpréter. Le NPL et son CI sont obtenus à partir des réciproques de l'ACP (en multipliant par 100 si ces valeurs sont données en pourcentages). Nous obtenons ici NPL = 100 : 6 = 16,6 avec un IC à 95 % de -14,3 à 5,3. Comme le montre la note de bas de page « d » du tableau. A1.1, ce CI comprend des valeurs de NPL de 5,3 à l'infini et de NPL de 14,3 à l'infini.

Des IC peuvent être construits pour les estimations ou comparaisons statistiques les plus couramment utilisées. Pour les ECR, cela inclut la différence entre les proportions moyennes, les risques relatifs, les rapports de cotes et les NLR. De même, des IC peuvent être obtenus pour toutes les principales estimations réalisées dans les études sur l’exactitude des tests de diagnostic – sensibilité, spécificité, valeur prédictive positive (qui sont toutes des proportions simples) et rapports de vraisemblance – estimations obtenues dans les méta-analyses et les comparaisons avec des témoins. études. Un programme informatique couvrant bon nombre de ces utilisations des inhalateurs-doseurs est disponible dans la deuxième édition de Statistics with Confidence. Des macros permettant de calculer les IC pour les proportions sont disponibles gratuitement pour Excel et les programmes statistiques SPSS et Minitab sur http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Plusieurs estimations de l'effet du traitement

Bien que les IC soient souhaitables pour les principaux résultats de l’étude, ils ne sont pas nécessaires pour tous les résultats. L’IC concerne les comparaisons cliniquement importantes. Par exemple, lorsque l’on compare deux groupes, l’IC correct est celui construit pour la différence entre les groupes, comme le montrent les exemples ci-dessus, et non l’IC qui peut être construit pour l’estimation dans chaque groupe. Non seulement il n’est pas utile de fournir des IC distincts pour les estimations de chaque groupe, mais cette présentation peut être trompeuse. De même, la bonne approche pour comparer l’efficacité des traitements dans différents sous-groupes consiste à comparer directement deux (ou plusieurs) sous-groupes. Il est incorrect de supposer qu'un traitement est efficace dans un seul sous-groupe si son IC exclut la valeur correspondant à aucun effet et que les autres ne le sont pas. Les IC sont également utiles pour comparer les résultats de plusieurs sous-groupes. En figue. A 1.1 montre le risque relatif d'éclampsie chez les femmes atteintes de prééclampsie dans des sous-groupes de femmes issus d'un ECR contrôlé par placebo sur le sulfate de magnésium.

Riz. A1.2. Le graphique forestier montre les résultats de 11 essais cliniques randomisés du vaccin antirotavirus bovin pour la prévention de la diarrhée par rapport au placebo. Un intervalle de confiance de 95 % a été utilisé pour estimer le risque relatif de diarrhée. La taille du carré noir est proportionnelle à la quantité d’informations. De plus, l'estimation récapitulative de l'efficacité du traitement et l'intervalle de confiance à 95 % (indiqué par un losange) sont affichés. La méta-analyse a utilisé un modèle à effets aléatoires plus grand que certains modèles prédéfinis ; par exemple, il pourrait s'agir de la taille utilisée pour calculer la taille de l'échantillon. Un critère plus strict exige que l’ensemble de la gamme CI présente un bénéfice supérieur à un minimum prédéfini.

Nous avons déjà discuté de l’erreur consistant à considérer le manque de signification statistique comme une indication que deux traitements sont également efficaces. Il est tout aussi important de ne pas assimiler la signification statistique à l’importance clinique. L'importance clinique peut être supposée lorsque le résultat est statistiquement significatif et que l'ampleur de l'estimation de l'efficacité du traitement

Les études peuvent montrer si les résultats sont statistiquement significatifs, lesquels sont cliniquement importants et lesquels ne le sont pas. En figue. A1.2 montre les résultats de quatre tests, pour lesquels l'ensemble du CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Intervalle de confiance

Intervalle de confiance- terme utilisé en statistique mathématique pour l'estimation par intervalles (par opposition à ponctuelle) de paramètres statistiques, ce qui est préférable lorsque la taille de l'échantillon est petite. Un intervalle de confiance couvre un paramètre inconnu avec une fiabilité donnée.

La méthode des intervalles de confiance a été développée par le statisticien américain Jerzy Neumann, sur la base des idées du statisticien anglais Ronald Fisher.

Définition

Intervalle de confiance du paramètre θ distribution de variables aléatoires X avec un niveau de confiance 100 p%, généré par l'échantillon ( X 1 ,…,X n), est appelé un intervalle avec des limites ( X 1 ,…,X n) et ( X 1 ,…,X n), qui sont des réalisations de variables aléatoires L(X 1 ,…,X n) et U(X 1 ,…,X n), tel que

.

Les points limites de l’intervalle de confiance sont appelés limites de confiance.

Une interprétation intuitive de l’intervalle de confiance serait : si p est grand (disons 0,95 ou 0,99), alors l'intervalle de confiance contient presque certainement la vraie valeur θ .

Autre interprétation de la notion d'intervalle de confiance : il peut être considéré comme un intervalle de valeurs de paramètres θ compatibles avec les données expérimentales et ne les contredisent pas.

Exemples

  • Intervalle de confiance pour l'espérance mathématique d'un échantillon normal ;
  • Intervalle de confiance pour la variance normale de l'échantillon.

Intervalle de confiance bayésien

Dans les statistiques bayésiennes, il existe une définition similaire mais différente dans certains détails clés d'un intervalle de confiance. Ici, le paramètre estimé lui-même est considéré comme une variable aléatoire avec une distribution a priori donnée (dans le cas le plus simple, uniforme), et l'échantillon est fixe (dans les statistiques classiques, tout est exactement le contraire). Un intervalle de confiance bayésien est un intervalle couvrant la valeur du paramètre avec la probabilité a posteriori :

.

En général, les intervalles de confiance classiques et bayésiens sont différents. Dans la littérature anglophone, l'intervalle de confiance bayésien est généralement appelé le terme intervalle crédible, et le classique - Intervalle de confiance.

Remarques

Sources

Fondation Wikimédia. 2010.

  • Enfants (film)
  • Colon

Voyez ce qu'est « Intervalle de confiance » dans d'autres dictionnaires :

    Intervalle de confiance- un intervalle calculé à partir de données d'échantillon, qui, avec une probabilité donnée (confiance), couvre la vraie valeur inconnue du paramètre de distribution estimé. Source : GOST 20522 96 : Sols. Méthodes de traitement statistique des résultats... Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    Intervalle de confiance- pour un paramètre scalaire de la population, il s'agit d'un segment qui contient très probablement ce paramètre. Cette phrase n’a aucun sens sans plus de précisions. Puisque les limites de l’intervalle de confiance sont estimées à partir de l’échantillon, il est naturel de... ... Dictionnaire de statistiques sociologiques

    INTERVALLE DE CONFIANCE- une méthode d'estimation des paramètres différente de l'estimation ponctuelle. Soit l'échantillon x1, . . ., xn à partir d'une distribution avec une densité de probabilité f(x, α), et a*=a*(x1, . . ., xn) estime α, g(a*, α) estimation de la densité de probabilité. Sont en train de chercher… … Encyclopédie géologique

    INTERVALLE DE CONFIANCE- (intervalle de confiance) Un intervalle dans lequel la fiabilité de la valeur du paramètre pour la population obtenue sur la base d'une enquête par sondage a un certain degré de probabilité, par exemple 95 %, qui est dû à l'échantillon lui-même. Largeur… … Dictionnaire économique

    Intervalle de confiance- est l'intervalle dans lequel se situe la vraie valeur de la grandeur déterminée avec une probabilité de confiance donnée. Chimie générale : manuel / A. V. Zholnin... Termes chimiques

    Intervalle de confiance IC- Intervalle de confiance, CI * intervalle de données, CI * intervalle de confiance de la valeur caractéristique, calculé pour k.l. paramètre de distribution (par exemple, la valeur moyenne d'une caractéristique) sur l'ensemble de l'échantillon et avec une certaine probabilité (par exemple, 95 % pour 95 %... La génétique. Dictionnaire encyclopédique

    INTERVALLE DE CONFIANCE- une notion qui surgit lors de l'estimation d'un paramètre statistique. répartition par intervalle de valeurs. D. et. pour le paramètre q, correspondant à ce coefficient. la confiance P est égale à un intervalle (q1, q2) tel que pour toute distribution de probabilité d'inégalité... ... Encyclopédie physique

    Intervalle de confiance- - Thèmes de télécommunications, concepts de base FR intervalle de confiance... Guide du traducteur technique

    Intervalle de confiance- Pasikliovimo intervalas statusas T sritis Standartizacija ir metrologija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultato vertė. atitikmenys : engl. intervalle de confiance vok. Vertrauensbereich, m rus.… … Penkiakalbis aiškinamasis metrologijos terminų žodynas

    Intervalle de confiance- Pasikliovimo intervalas statusas T sritis chemija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultatų vertė. atitikmenys : engl. intervalle de confiance russe. zone de confiance ; Intervalle de confiance... Chemijos terminų aiškinamasis žodynas

Articles similaires

2023 parki48.ru. Nous construisons une maison à ossature. Aménagement paysager. Construction. Fondation.