مسرد للمصطلحات الإحصائية

أسئلة عامة للإحصاء

ما هي الإحصائيات الطبية؟

الإحصاء هو وصف وقياس كمي للأحداث والظواهر والأشياء. يُفهم على أنه فرع من النشاط العملي (جمع ومعالجة وتحليل البيانات المتعلقة بالظواهر الجماعية) ، كفرع من المعرفة ، أي تخصص علمي خاص ، وكمجموعة من المؤشرات الرقمية النهائية الموجزة التي تم جمعها لتمييز أي مجال من الظواهر الاجتماعية.

الإحصاء علم يدرس أنماط الظواهر الجماعية بطريقة تعميم المؤشرات.

الإحصاء الطبي هو علم اجتماعي مستقل يدرس الجانب الكمي للظواهر الاجتماعية الجماعيةترتبط ارتباطًا وثيقًا بالجانب النوعي ، مما يسمح طريقة تعميم المؤشراتلدراسة أنماط هذه الظواهر ، وأهم العمليات في الحياة الاقتصادية والاجتماعية للمجتمع ، وصحتها ، ونظام تنظيم الرعاية الطبية للسكان.

الأساليب الإحصائية هي مجموعة من التقنيات لمعالجة مواد الملاحظات الجماعية ، والتي تشمل: التجميع ، والملخص ، والحصول على المؤشرات ، والتحليل الإحصائي ، إلخ.

تستخدم الأساليب الإحصائية في الطب من أجل:

  1. دراسة حالة الصحة العامة للسكان ككل ومجموعاتهم الرئيسية من خلال جمع وتحليل البيانات الإحصائية عن حجم وتركيب السكان ، وتكاثرهم ، ونموهم البدني ، وانتشار ومدة الأمراض المختلفة ، وما إلى ذلك ؛
  2. تحديد وإقامة روابط بين المستوى العام للمراضة والوفيات من أي أمراض فردية مع عوامل بيئية مختلفة ؛
  3. جمع ودراسة البيانات الرقمية حول شبكة المؤسسات الطبية وأنشطتها وموظفيها لتخطيط أنشطة الرعاية الصحية ، ومراقبة تنفيذ خطط تطوير الشبكة وأنشطة المؤسسات الصحية وتقييم جودة عمل المؤسسات الطبية الفردية ؛
  4. تقييم فعالية تدابير الوقاية من الأمراض وعلاجها ؛
  5. تحديد الدلالة الإحصائية لنتائج الدراسة في العيادة والتجربة.

اقسام الاحصاءات الطبية:

  • الأسس النظرية والمنهجية العامة للإحصاء ،
  • إحصاءات صحة السكان ،
  • الإحصاءات الصحية.

إنشاء قاعدة بيانات في MS EXCEL

لكي تكون قاعدة البيانات ملائمة لمزيد من المعالجة ، يجب اتباع مبادئ بسيطة:

1) أفضل برنامج لإنشاء قاعدة بيانات هو MS Excel. يمكن لاحقًا نقل البيانات من Excel بسهولة إلى حزم إحصائية متخصصة أخرى ، مثل Statistica و SPSS وما إلى ذلك من أجل عمليات معالجة أكثر تعقيدًا. ومع ذلك ، يمكن إجراء ما يصل إلى 80-90٪ من العمليات الحسابية بسهولة أكبر في Excel نفسه باستخدام الوظيفة الإضافية لتحليل البيانات.

2) تم تصميم السطر العلوي من الجدول مع قاعدة البيانات كرأس ، حيث يتم إدخال أسماء تلك المؤشرات التي يتم أخذها في الاعتبار في هذا العمود. من غير المرغوب فيه استخدام دمج الخلايا (ينطبق هذا المطلب على قاعدة البيانات بأكملها بشكل عام) ، لأنه في هذه الحالة ستصبح العديد من العمليات غير صالحة. أيضًا ، يجب ألا تنشئ رأسًا من "طابقين" ، حيث يشير السطر العلوي إلى اسم مجموعة من المؤشرات المتجانسة ، ومؤشرات الخلاصة المحددة. لتجميع المؤشرات المتجانسة ، من الأفضل تمييزها بتعبئة أحادية اللون أو تضمين ميزة تجميع بين قوسين في أسمائها.

على سبيل المثال، ليس من هذه الطريق:

تحليل الدم العام
ER اليورانيوم المنخفض التخصيب TR
ER (UAC) LEU (UAC) TR (UAC)

في الإصدار الأخير ، يتم ضمان كل من العنوان "المكون من طابق واحد" والتجانس المرئي للبيانات (تشير جميعها إلى مؤشرات التحكم في حساب المستخدم).

3) يجب أن يحتوي العمود الأول على الرقم التسلسلي للمريض في قاعدة البيانات هذه ، دون ربطه بأي من المؤشرات المدروسة. سيسمح هذا في المستقبل بتوفير عودة سهلة إلى الترتيب الأصلي للمرضى في أي مرحلة ، حتى بعد عمليات الفرز العديدة في القائمة.

4) يُملأ العمود الثاني عادةً بأسماء (أو أسماء كاملة) للمرضى.

5) المؤشرات الكمية (تلك التي يتم قياسها بالأرقام ، على سبيل المثال - الطول والوزن وضغط الدم ومعدل ضربات القلب ، إلخ) تتناسب مع الجدول بتنسيق رقمي. يبدو أن هذا واضح بالفعل ، ولكن يجب أن نتذكر أنه في Excel ، بدءًا من إصدار 2007 ، يتم الإشارة إلى القيم الكسرية بنقطة: 4.5. إذا كتبت رقمًا مفصولًا بفاصلة ، فسيتم اعتباره كنص ، وسيتعين إعادة كتابة هذه الأعمدة.

6) مع المؤشرات النوعية هو أكثر صعوبة. تلك التي لها معنيان (ما يسمى القيم الثنائية: نعم-لا ، متاح-غائب ، ذكر-أنثى) ، من الأفضل ترجمتها إلى نظام ثنائي: 0 و 1. عادةً ما يتم تعيين القيمة 1 إلى قيمة موجبة (نعم ، متاح) ، 0 - سلبي (لا ، مفقود).

7) المؤشرات النوعية التي لها عدة قيم تختلف في شدتها ، يمكن تصنيف مستوى الظاهرة (ضعيف - متوسط ​​- قوي ؛ بارد - دافئ - ساخن) وبالتالي ترجمتها أيضًا إلى أرقام. يتم تعيين أدنى مستوى للظاهرة على أدنى مرتبة - 0 أو 1 ، ويتم الإشارة إلى الدرجات التالية بقيم الرتب بالترتيب. على سبيل المثال: لا يوجد مرض - 0 ، خفيف - 1 ، متوسط ​​- 2 ، شديد - 3.

8) في بعض الأحيان يتوافق مؤشر جودة واحد مع عدة قيم. على سبيل المثال ، في عمود "التشخيص المصاحب" ، إذا كانت هناك عدة أمراض ، فنحن نريد أن نشير إليها مفصولة بفواصل. لا ينبغي القيام بذلك ، لأن معالجة هذه البيانات صعبة للغاية ولا يمكن أن تكون آلية. لذلك ، من الأفضل عمل عدة أعمدة مع مجموعات محددة من الأمراض ("أمراض القلب والأوعية الدموية" ، "أمراض الجهاز الهضمي" ، إلخ) أو بعض تصنيفات الأمراض ("التهاب المعدة المزمن" ، "IHD" ، إلخ) ، حيث يتم إدخال البيانات في شكل ثنائي وثنائي: 1 (مما يعني "هناك مرض معين") - 0 ("لا يوجد مرض معين").

9) للتمييز بين مجموعات المؤشرات الفردية ، يمكنك استخدام اللون بفاعلية: على سبيل المثال ، يتم تمييز الأعمدة التي تحتوي على مؤشرات KLA باللون الأحمر ، وبيانات OAM - باللون الأصفر ، وما إلى ذلك.

10) يجب أن يتوافق كل مريض مع سطر واحد من الجدول.

يسمح هذا التصميم لقاعدة البيانات ليس فقط بتبسيط عملية المعالجة الإحصائية بشكل كبير ، ولكن أيضًا لتسهيل ملئها في مرحلة جمع المواد.

ما هي الطريقة التي يجب اختيارها للتحليل الإحصائي؟

بعد جمع جميع البيانات ، يواجه كل باحث مسألة اختيار أنسب طريقة للمعالجة الإحصائية. وهذا ليس مفاجئًا: فالإحصاءات الحديثة تجمع بين عدد كبير من المعايير والأساليب المختلفة. كل منهم له خصائصه الخاصة ، وقد يكون أو لا يكون مناسبًا لحالتين متشابهتين على ما يبدو. في هذه المقالة ، سنحاول تنظيم جميع طرق التحليل الإحصائي الرئيسية والأكثر شيوعًا وفقًا للغرض منها.

ومع ذلك ، أولاً ، بضع كلمات حول نوع البيانات الإحصائية الموجودة ، لأن اختيار أنسب طريقة للتحليل يعتمد على ذلك.

نطاق القياس

عند إجراء دراسة ، يتم تحديد قيم الميزات المختلفة لكل وحدة مراقبة. اعتمادًا على المقياس الذي يتم قياسها به ، يتم تقسيم جميع العلامات إلى كميو جودة. المؤشرات النوعية في البحث توزع حسب ما يسمى اسمى، صورى شكلى، بالاسم فقطحجم. بالإضافة إلى ذلك ، يمكن تقديم المؤشرات بواسطة تصنيفحجم.

على سبيل المثال ، يتم إجراء مقارنة لمؤشرات نشاط القلب لدى الرياضيين والأشخاص الذين يقودون نمط حياة خامل.

في الوقت نفسه ، تم تحديد الخصائص التالية في الموضوعات:

  • أرضية- يكون اسمى، صورى شكلى، بالاسم فقطمؤشر يأخذ قيمتين - ذكر أو أنثى.
  • عمر - كميفِهرِس،
  • رياضات - اسمى، صورى شكلى، بالاسم فقطمؤشر يأخذ قيمتين: ملتزم أم لا ،
  • معدل ضربات القلب - كميفِهرِس،
  • ضغط دم انقباضي - كميفِهرِس،
  • شكاوى من آلام في الصدر- يكون جودةالمؤشر ، يمكن تحديد قيمه كـ اسمى، صورى شكلى، بالاسم فقط(توجد شكاوى - لا توجد شكاوى) وحسب تصنيفمقياس يعتمد على التردد (على سبيل المثال ، إذا حدث الألم عدة مرات في اليوم ، يتم تعيين المؤشر من الدرجة 3 ، عدة مرات في الشهر - المرتبة 2 ، عدة مرات في السنة - المرتبة 1 ، إذا لم تكن هناك شكاوى من ألم في الصدر - يتم تعيين رتبة 0).

عدد السكان المتطابقة

المسألة التالية التي يجب معالجتها من أجل اختيار طريقة إحصائية هي عدد السكان المراد مطابقتهم في الدراسة.

  • في معظم الحالات ، في التجارب السريرية ، نتعامل مع مجموعتين من المرضى - أساسيو يتحكم. أساسي، أو ذوي الخبرة، هي المجموعة التي تم فيها تطبيق طريقة التشخيص أو العلاج المدروسة ، أو التي يعاني فيها المرضى من المرض موضوع هذه الدراسة. يتحكمالمجموعة ، في المقابل ، تتكون من المرضى الذين يتلقون رعاية طبية تقليدية ، وهمي ، أو أفراد لا يعانون من المرض قيد الدراسة. يتم استدعاء هذه المجموعات السكانية التي يمثلها مرضى مختلفون غير مرتبطه.
    لا تزال هناك متعلق ب، أو يقترن، المجاميع ، عندما يتعلق الأمر بنفس الأشخاص ، ولكن يتم الحصول على قيم أي ميزة قبل وبعدبحث. عدد المجموعات المقارنة يساوي أيضًا 2 ، ولكن يتم تطبيق طرق مختلفة عليها عن تلك غير ذات الصلة.
  • خيار آخر هو الوصف واحدالكلية ، والتي ، باعتراف الجميع ، هي أساس أي بحث بشكل عام. حتى إذا كان الغرض الرئيسي من العمل هو مقارنة مجموعتين أو أكثر ، يجب أولاً تمييز كل مجموعة. لهذا ، يتم استخدام الأساليب الإحصاء الوصفي. بالإضافة إلى ذلك ، بالنسبة لمجموعة واحدة من السكان ، يمكن تطبيق الأساليب تحليل الارتباط، تُستخدم لإيجاد علاقة بين اثنين أو أكثر من الخصائص قيد الدراسة (على سبيل المثال ، اعتماد الطول على وزن الجسم أو اعتماد معدل ضربات القلب على درجة حرارة الجسم).
  • أخيرًا ، يمكن أن يكون هناك عدة مجموعات مقارنة. هذا شائع جدًا في البحث الطبي. يمكن تصنيف المرضى اعتمادًا على استخدام الأدوية المختلفة (على سبيل المثال ، عند مقارنة فعالية الأدوية الخافضة للضغط: المجموعة 1 - مثبطات الإنزيم المحول للأنجيوتنسين ، 2 - حاصرات بيتا ، 3 - الأدوية ذات التأثير المركزي) ، وفقًا لشدة المرض (المجموعة 1 - خفيفة ، 2 - متوسطة ، 3 - شديدة) ، إلخ.

السؤال المهم أيضا التوزيع الطبيعيالسكان المدروسة. يعتمد ذلك على إمكانية تطبيق الأساليب تحليل حدوديأو فقط غير معلمية. الشروط التي يجب تلبيتها في السكان الموزعين بشكل طبيعي هي:

  1. القرب الأقصى أو المساواة في قيم الوسط الحسابي والوضع والوسيط ؛
  2. الامتثال لقاعدة "ثلاثة سيجما" (على الأقل 68.3 ٪ من المتغير في الفاصل M ± 1σ ، 95.5 ٪ على الأقل من المتغير في الفاصل M ± 2σ ، على الأقل 99.7 ٪ من المتغير في الفاصل M ± 3σ ؛
  3. يتم قياس المؤشرات بمقياس كمي ؛
  4. نتائج إيجابية لاختبار التوزيع الطبيعي باستخدام معايير خاصة - Kolmogorov-Smirnov أو Shapiro-Wilk.

بعد تحديد جميع خصائص السكان المدروسة المشار إليها من قبلنا ، نقترح استخدام الجدول التالي لتحديد الطريقة المثلى للتحليل الإحصائي.

طريقة مقياس لقياس المؤشرات عدد السكان المقارنة الغرض من المعالجة توزيع البيانات
اختبار الطالب كمي 2 طبيعي
اختبار الطالب مع تصحيح Bonferroni كمي 3 أو أكثر مقارنة بين السكان غير المرتبطين طبيعي
اختبار الطالب المقترن كمي 2 طبيعي
تحليل التباين أحادي الاتجاه (ANOVA) كمي 3 أو أكثر مقارنة بين السكان غير المرتبطين طبيعي
تحليل التباين أحادي الاتجاه (ANOVA) مع القياسات المتكررة كمي 3 أو أكثر مقارنة السكان ذات الصلة طبيعي
اختبار Mann-Whitney U. الترتيب الكمي 2 مقارنة بين السكان غير المرتبطين أي
اختبار Rosenbaum Q- الترتيب الكمي 2 مقارنة بين السكان غير المرتبطين أي
اختبار Kruskell-Wallis كمي 3 أو أكثر مقارنة بين السكان غير المرتبطين أي
اختبار ويلكوكسون الترتيب الكمي 2 مقارنة السكان ذات الصلة أي
علامات اختبار G الترتيب الكمي 2 مقارنة السكان ذات الصلة أي
معيار فريدمان الترتيب الكمي 3 أو أكثر مقارنة السكان ذات الصلة أي
المعيار χ 2 بيرسون اسمى، صورى شكلى، بالاسم فقط 2 أو أكثر مقارنة بين السكان غير المرتبطين أي
اختبار فيشر الدقيق اسمى، صورى شكلى، بالاسم فقط 2 مقارنة بين السكان غير المرتبطين أي
اختبار ماكنيمار اسمى، صورى شكلى، بالاسم فقط 2 مقارنة السكان ذات الصلة أي
Q- اختبار كوكران اسمى، صورى شكلى، بالاسم فقط 3 أو أكثر مقارنة السكان ذات الصلة أي
المخاطر النسبية (نسبة المخاطر ، RR) اسمى، صورى شكلى، بالاسم فقط 2 مقارنة بين السكان غير المرتبطين في دراسات الأتراب أي
نسبة الأرجحية (أو) اسمى، صورى شكلى، بالاسم فقط 2 مقارنة بين السكان غير المرتبطين في دراسات الحالات والشواهد أي
معامل ارتباط بيرسون كمي صفان من القياسات طبيعي
معامل ارتباط رتبة سبيرمان الترتيب الكمي صفان من القياسات تحديد العلاقات بين السمات أي
معامل ارتباط كيندال الترتيب الكمي صفان من القياسات تحديد العلاقات بين السمات أي
معامل توافق كيندال الترتيب الكمي 3 صفوف أو أكثر من القياسات تحديد العلاقات بين السمات أي
حساب القيم المتوسطة (M) ومتوسط ​​الأخطاء (م) كمي 1 الإحصاء الوصفي أي
حساب المتوسطات (Me) والنسب المئوية (الربعية) تصنيف 1 الإحصاء الوصفي أي
حساب القيم النسبية (P) ومتوسط ​​الأخطاء (م) اسمى، صورى شكلى، بالاسم فقط 1 الإحصاء الوصفي أي
معيار شابيرو ويلك كمي 1 تحليل التوزيع أي
معيار كولموغوروف سميرنوف كمي 1 تحليل التوزيع أي
المعيار ω 2 سميرنوف كرامر فون ميزس كمي 1 تحليل التوزيع أي
طريقة كابلان ماير أي 1 تحليل البقاء على قيد الحياة أي
نموذج المخاطر النسبية كوكس أي 1 تحليل البقاء على قيد الحياة أي

الإحصائيين الكبار

كارل بيرسون (27 مارس 1857-27 أبريل 1936)

27 مارس 1857 ولد كارل بيرسون - عالم الرياضيات والإحصاء وعلم الأحياء والفيلسوف الإنجليزي العظيم. مؤسس الإحصاء الرياضي ، أحد مؤسسي القياسات الحيوية.

بعد حصوله على الأستاذية في الرياضيات التطبيقية في جامعة كوليدج لندن في سن السابعة والعشرين ، بدأ كارل بيرسون في دراسة الإحصاء ، الذي اعتبره أداة علمية عامة ، بما يتفق مع أفكاره البعيدة عن التقليدية حول الحاجة إلى تزويد الطلاب بنظرة واسعة.

تشمل إنجازات بيرسون الرئيسية في مجال الإحصاء تطوير أسس نظرية الارتباط والاحتمالية للسمات ، وإدخال "منحنيات بيرسون" لوصف التوزيعات التجريبية واختبار مربع كاي المهم للغاية ، وتجميع عدد كبير من الجداول الإحصائية. طبق بيرسون المنهج الإحصائي وخاصة نظرية الارتباط في العديد من فروع العلم.

إليكم أحد عباراته: "أول إدخال للهواة للطرق الإحصائية الحديثة في العلم الراسخ يعارضه الازدراء النموذجي. لكنني عشت إلى الوقت الذي بدأ فيه العديد منهم سراً بتطبيق الأساليب نفسها التي أدانوها في البداية".

وبالفعل في عام 1920 ، كتب بيرسون ملاحظة ذكر فيها أن الهدف من مدرسة القياسات الحيوية هو "تحويل الإحصاء إلى فرع من الرياضيات التطبيقية ، لتعميم أو تجاهل أو تبرير الأساليب الضئيلة للمدرسة القديمة للإحصائيين السياسيين والاجتماعيين ، وبشكل عام ، تحويل الإحصاء من ملعب رياضي للهواة والمناظرين إلى فرع جاد من العلوم. ، علم الأحياء ، علم الاجتماع ، لتزويد هذه العلوم بوسائل جديدة وأكثر قوة. استمرت المعركة لما يقرب من عشرين عامًا ، ولكن هناك العديد من الدلائل على أن العداء القديم قد انتهى ، وأن الأساليب الجديدة مقبولة في كل مكان ".

كان لدى كارل بيرسون اهتمامات متنوعة للغاية: فقد درس الفيزياء في هايدلبرغ ، وكان مهتمًا بالدور الاجتماعي والاقتصادي للدين ، وحتى أنه حاضر في التاريخ والأدب الألماني في كامبريدج ولندن.

من الحقائق غير المعروفة أنه في سن 28 ، ألقى كارل بيرسون محاضرة حول "قضية المرأة" بل وأسس نادي الرجال والنساء ، الذي كان قائماً حتى عام 1889 ، حيث نوقش كل ما يتعلق بالمرأة ، بما في ذلك العلاقات بين الجنسين ، بحرية ودون قيود.

يتألف النادي من عدد متساوٍ من الرجال والنساء ، ومعظمهم من الطبقة الوسطى الليبرالية والاشتراكيين والنسويات.

كان موضوع مناقشات النادي أوسع مجموعة من القضايا: من العلاقات الجنسية في أثينا اليونانية القديمة إلى موقف الراهبات البوذيات ، من المواقف تجاه الزواج إلى مشاكل الدعارة. من حيث الجوهر ، تحدى "نادي الرجال والنساء" القواعد الراسخة للتفاعل بين الرجال والنساء ، فضلاً عن الأفكار المتعلقة بالجنس "الصحيح". في إنجلترا الفيكتورية ، حيث كان ينظر الكثيرون إلى النشاط الجنسي على أنه شيء "منخفض" و "حيوان" ، وكان الجهل بالثقافة الجنسية منتشرًا على نطاق واسع ، كانت مناقشة مثل هذه القضايا جذرية حقًا.

في عام 1898 ، مُنح بيرسون ميدالية داروين من الجمعية الملكية ، والتي رفضها ، معتقدًا أن الجوائز "يجب أن تُمنح للشباب لتشجيعهم".

فلورنس نايتنجيل (12 مايو 1820-13 أغسطس 1910)

فلورنس نايتنجيل (1820-1910) - أخت الرحمة والشخصية العامة لبريطانيا العظمى ، التي نحتفل بعيد ميلادها اليوم باليوم العالمي للممرضة.

ولدت في فلورنسا في عائلة أرستقراطية ثرية ، وحصلت على تعليم ممتاز ، وتعرفت بست لغات. منذ صغرها كانت تحلم بأن تصبح أخت رحمة ، وفي عام 1853 تلقت تعليم التمريض في مجتمع راهبات باستور فليندر في كايزرويرث وأصبحت مديرة مستشفى خاص صغير في لندن.

في أكتوبر 1854 ، أثناء حرب القرم ، ذهبت فلورنسا مع 38 مساعدًا إلى المستشفيات الميدانية في شبه جزيرة القرم. في تنظيم رعاية الجرحى ، طبقت باستمرار مبادئ الصرف الصحي والنظافة. ونتيجة لذلك ، انخفض معدل الوفيات في المستشفيات في أقل من ستة أشهر من 42٪ إلى 2.2٪!

وحددت نايتنجيل مهمة إصلاح الخدمة الطبية في الجيش ، فأكدت أن المستشفيات مجهزة بأنظمة التهوية والصرف الصحي ؛ يجب أن يكون طاقم المستشفى قد تلقى التدريب اللازم. كما تم تنظيم مدرسة طبية عسكرية وعمل توضيحي بين الجنود والضباط حول أهمية الوقاية من الأمراض.

مساهمة فلورنس نايتنجيل في الإحصائيات الطبية عظيمة!

  • احتوى كتابها المؤلف من 800 صفحة ، ملاحظات حول العوامل المؤثرة على الصحة والكفاءة وإدارة مستشفيات الجيش البريطاني (1858) ، على قسم كامل مخصص للإحصاءات وموضح بالمخططات.
  • كان العندليب مبتكرًا في استخدام الصور الرسومية في الإحصاء. ابتكرت المخططات الدائرية ، التي أسمتها "cockscombs" واستخدمتها لوصف أنماط الوفيات. تم تضمين العديد من المخططات الخاصة بها في تقرير لجنة المشاكل الصحية في الجيش ، والتي بفضلها تم اتخاذ قرار لإصلاح الطب العسكري.
  • لقد طورت النموذج الأول لجمع الإحصاءات في المستشفيات ، والذي يعد رائدًا لنماذج الإبلاغ الحديثة عن أنشطة المستشفى.

في عام 1859 تم انتخابها زميلة في الجمعية الإحصائية الملكية وأصبحت بعد ذلك عضوًا فخريًا في الجمعية الإحصائية الأمريكية.

يوهان كارل فريدريش جاوس (30 أبريل 1777-23 فبراير 1855)

في 30 أبريل 1777 ، ولد عالم الرياضيات والميكانيكي والفيزيائي والفلكي والمساح والإحصائي الألماني يوهان كارل فريدريش غاوس في براونشفايغ.

يعتبر أحد أعظم علماء الرياضيات في كل العصور ، "ملك علماء الرياضيات". حائز على ميدالية كوبلي (1838) وعضو أجنبي في أكاديميات العلوم السويدية (1821) والروسية (1824) للجمعية الملكية الإنجليزية.

في سن الثالثة ، كان كارل قادرًا على القراءة والكتابة ، حتى أنه كان يصحح أخطاء حساب والده. وفقًا للأسطورة ، اقترح مدرس رياضيات بالمدرسة ، من أجل إبقاء الأطفال مشغولين لفترة طويلة ، أن يحسبوا مجموع الأرقام من 1 إلى 100. لاحظ يونغ جاوس أن المجاميع الزوجية من الأطراف المتقابلة هي نفسها: 1 + 100 = 101 ، 2 + 99 = 101 ، وما إلى ذلك ، وحصلت على النتيجة على الفور: 50 × 101 = 5050. حتى الشيخوخة ، كان يقوم بمعظم الحسابات في ذهنه.

تتمثل الإنجازات العلمية الرئيسية لكارل جاوس في الإحصاء في إنشاء طريقة المربعات الصغرى ، والتي تقوم على تحليل الانحدار.

درس أيضًا بالتفصيل قانون التوزيع الطبيعي الشائع في الطبيعة ، والذي غالبًا ما يُطلق على الرسم البياني الخاص به اسم Gaussian. أصبحت قاعدة سيغما الثلاثة (القاعدة الغاوسية) التي تصف التوزيع الطبيعي معروفة على نطاق واسع.

ليف سيميونوفيتش كامينسكي (1889-1962)

في الذكرى الخامسة والسبعين للنصر في الحرب الوطنية العظمى ، أود أن أتذكر وأتحدث عن العالم الرائع ، أحد مؤسسي الإحصاءات الطبية والصحية العسكرية في الاتحاد السوفياتي - ليف سيميونوفيتش كامينسكي (1889-1962).

ولد في 27 مايو 1889 في كييف. بعد تخرجه بمرتبة الشرف عام 1918 من كلية الطب بجامعة بتروغراد ، كان كامينسكي في صفوف الجيش الأحمر ، من أبريل 1919 حتى نهاية عام 1920 ، شغل منصب كبير الأطباء في مستشفى الإجلاء الموحد رقم 136 التابع للجبهة الجنوبية الشرقية.

منذ عام 1922 ، كان ليف سيميونوفيتش مسؤولاً عن القسم الصحي والوبائي للخدمات الطبية والصحية للسكك الحديدية الشمالية الغربية. خلال هذه السنوات ، بدأ النشاط العلمي لـ Kaminsky تحت إشراف الأستاذ. سا نوفوسيلسكي. في عملهم الأساسي المشترك "الخسائر في الحروب الماضية" ، تم تحليل المواد الإحصائية حول الخسائر البشرية في حروب مختلف جيوش العالم من 1756 إلى 1918. في الأعمال اللاحقة ، طور كامينسكي وأثبت تصنيفًا جديدًا أكثر دقة للخسائر العسكرية.

في دراسة "التغذية الوطنية والصحة العامة" (1929) ، تم النظر بالتفصيل في الجوانب الصحية لتأثير الحروب على صحة السكان ، وكذلك تنظيم الرعاية الطبية للسكان والجيش خلال سنوات الحرب.

من عام 1935 إلى عام 1943 ، ترأس ليف سيمينوفيتش قسم الإحصاءات الصحية (منذ عام 1942 - الطبية) في مفوضية الشعب للصحة في الاتحاد السوفياتي. في أكتوبر 1943 ، أصبح البروفيسور كامينسكي رئيسًا لقسم الإحصائيات الطبية العسكرية في الأكاديمية الطبية العسكرية. S.M. Kirov ، ومنذ عام 1956 كان أستاذًا في قسم الإحصاء والمحاسبة في جامعة ولاية لينينغراد.

دافع ليف سيميونوفيتش عن إدخال الأساليب الكمية على نطاق واسع في ممارسة الإحصاءات الصحية والطبية. في عام 1959 ، نُشر كتاب مدرسي بعنوان "المعالجة الإحصائية للبيانات المختبرية والسريرية: استخدام الإحصائيات في العمل العلمي والعملي للطبيب" ، والذي أصبح لسنوات عديدة أحد أفضل الكتب المدرسية المحلية عن الإحصاءات الطبية. في المقدمة ، يلاحظ إل إس كامينسكي:
"... يبدو من المهم أن يعرف الأطباء المعالجون كيفية البدء في العمل ، وأن يكونوا قادرين على جمع ومعالجة الأرقام الصحيحة ، المناسبة للمقارنات والمقارنات."

المعايير والطرق

اختبار t للطالب للمجتمعات المستقلة

يعتبر اختبار الطالب t اسمًا عامًا لفئة من طرق الاختبار الإحصائي للفرضيات (الاختبارات الإحصائية) بناءً على توزيع الطالب. تتعلق الحالات الأكثر شيوعًا لتطبيق اختبار t بالتحقق من تساوي الوسائل في عينتين.

تم تطوير هذا المعيار وليام سيلي جوسيت

2. ما الغرض من اختبار t للطالب؟

يستخدم اختبار الطالب t لتحديد الدلالة الإحصائية لمتوسط ​​الفروق. يمكن استخدامه في كل من حالات المقارنة بين العينات المستقلة (على سبيل المثال ، مجموعات المرضى المصابين بداء السكري ومجموعات الأشخاص الأصحاء) ، وعند مقارنة المجموعات السكانية ذات الصلة (على سبيل المثال ، متوسط ​​معدل النبض في نفس المرضى قبل وبعد تناول دواء مضاد لاضطراب النظم). في الحالة الأخيرة ، يتم حساب اختبار الطالب المقترن

3. متى يمكن استخدام اختبار t للطالب؟

لتطبيق اختبار t للطالب ، من الضروري أن يكون للبيانات الأصلية توزيع طبيعي. من المهم أيضًا المساواة في التوزيعات (التوزيعات) للمجموعات المقارنة (المثلية الجنسية). بالنسبة للفروق غير المتكافئة ، يتم استخدام اختبار Welch's t (Welch "s t).

في حالة عدم وجود توزيع طبيعي للعينات التي تمت مقارنتها ، فبدلاً من اختبار الطالب t ، يتم استخدام طرق مماثلة للإحصاءات اللامعلمية ، وأشهرها هو اختبار مان ويتني يو.

4. كيف يحسب اختبار الطالب؟

لمقارنة الوسائل ، يتم حساب اختبار الطالب باستخدام الصيغة التالية:

أين م 1- المتوسط ​​الحسابي للمجموعة الأولى التي تمت مقارنتها ، م 2- المتوسط ​​الحسابي للمجموعة الثانية المقارنة ، م 1- متوسط ​​الخطأ للوسط الحسابي الأول ، م 2- متوسط ​​خطأ الوسط الحسابي الثاني.

يجب تفسير القيمة الناتجة لاختبار الطالب بشكل صحيح. للقيام بذلك ، نحتاج إلى معرفة عدد الموضوعات في كل مجموعة (ن 1 و ن 2). إيجاد عدد درجات الحرية Fوفق الصيغة التالية:

F \ u003d (n 1 + n 2) - 2

بعد ذلك ، نحدد القيمة الحرجة لاختبار الطالب t للمستوى المطلوب من الأهمية (على سبيل المثال ، p = 0.05) ولعدد معين من درجات الحرية Fحسب الجدول (انظر أدناه).

  • إذا كانت القيمة المحسوبة لاختبار t للطالب تساوي أو تزيد عن القيمة الحرجة الموجودة في الجدول ، فإننا نستنتج أن الاختلافات بين القيم المقارنة ذات دلالة إحصائية.
  • إذا كانت قيمة اختبار t المحسوب للطالب أقل من القيمة الجدولية ، فإن الاختلافات بين القيم المقارنة ليست ذات دلالة إحصائية.

لدراسة فعالية المستحضر الجديد للحديد ، تم اختيار مجموعتين من مرضى فقر الدم. في المجموعة الأولى ، تلقى المرضى دواءً جديدًا لمدة أسبوعين ، وفي المجموعة الثانية تلقوا علاجًا وهميًا. بعد ذلك تم قياس مستوى الهيموجلوبين في الدم المحيطي. في المجموعة الأولى ، كان متوسط ​​مستوى الهيموجلوبين 115.4 ± 1.2 جم / لتر ، وفي المجموعة الثانية - 103.7 ± 2.3 جم / لتر (يتم تقديم البيانات بتنسيق M ± m) ، كان توزيع السكان المقارن طبيعيًا. كان عدد المجموعة الأولى 34 ، والثانية - 40 مريضا. من الضروري استخلاص استنتاج حول الأهمية الإحصائية للاختلافات التي تم الحصول عليها وفعالية تحضير الحديد الجديد.

حل:لتقييم أهمية الاختلافات ، نستخدم اختبار الطالب t ، محسوبًا على أنه الفرق بين الوسيلة مقسومًا على مجموع الأخطاء التربيعية:

بعد إجراء الحسابات ، كانت قيمة اختبار t تساوي 4.51. نجد عدد درجات الحرية كـ (34 + 40) - 2 = 72. نقارن القيمة التي تم الحصول عليها من اختبار الطالب t 4.51 مع القيمة الحرجة عند p = 0.05 الموضحة في الجدول: 1.993. نظرًا لأن القيمة المحسوبة للمعيار أكبر من القيمة الحرجة ، فإننا نستنتج أن الاختلافات الملحوظة ذات دلالة إحصائية (مستوى الأهمية p<0,05).


اختبار الطالب المقترن

يعد اختبار الطالب المقترن أحد التعديلات التي أدخلت على طريقة الطالب المستخدمة لتحديد الأهمية الإحصائية للاختلافات في القياسات المزدوجة (المتكررة).

1. تاريخ تطور اختبار T.

تم تطوير اختبار t وليام جوسيتلتقييم جودة البيرة في غينيس. فيما يتعلق بالتزامات الشركة بعدم إفشاء الأسرار التجارية ، نُشر مقال جوسيت في عام 1908 في مجلة Biometrics تحت الاسم المستعار "الطالب" (الطالب).

2. ما هو اختبار الطالب المقترن المستخدم؟

يُستخدم اختبار الطالب المقترن للطالب لمقارنة عينتين تابعتين (متزاوجتين). المعالين هي القياسات التي يتم أخذها في نفس المرضى ولكن في أوقات مختلفة ، على سبيل المثال ، ضغط الدم لدى مرضى ارتفاع ضغط الدم قبل وبعد تناول الأدوية الخافضة للضغط. تنص الفرضية الصفرية على عدم وجود فروق بين العينات التي تمت مقارنتها ، بينما تنص الفرضية البديلة على وجود فروق ذات دلالة إحصائية.

3. متى يمكن استخدام اختبار الطالب المقترن؟

الشرط الرئيسي هو اعتماد العينات ، أي ، يجب الحصول على القيم المقارنة عن طريق القياسات المتكررة لمعامل واحد في نفس المرضى.

كما في حالة مقارنة العينات المستقلة ، من أجل تطبيق اختبار t المزدوج ، من الضروري أن يكون للبيانات الأصلية توزيع طبيعي. إذا لم يتم استيفاء هذا الشرط ، فإن طرق الإحصاء غير المعلمية ، مثل علامات اختبار Gأو اختبار Wilcoxon T..

لا يمكن استخدام اختبار t المقترن إلا عند مقارنة عينتين. إذا كنت تريد مقارنة ثلاثة قياسات متكررة أو أكثر ، فيجب عليك استخدام تحليل التباين أحادي الاتجاه (ANOVA) للتدابير المتكررة.

4. كيف يتم حساب اختبار الطالب المقترن؟

يتم حساب اختبار الطالب المقترن باستخدام الصيغة التالية:

أين م د- المتوسط ​​الحسابي للاختلافات بين المؤشرات المقاسة قبل وبعد ، σ د- الانحراف المعياري لاختلافات المؤشرات ، ن- عدد المواضيع.

5. كيف تفسر قيمة اختبار الطالب؟

لا يختلف تفسير القيمة التي تم الحصول عليها لاختبار الطالب المزدوج عن تقييم اختبار t للمجموعات غير المرتبطة. بادئ ذي بدء ، من الضروري إيجاد عدد درجات الحرية Fوفق الصيغة التالية:

F = ن - 1

بعد ذلك ، نحدد القيمة الحرجة لاختبار الطالب t لمستوى الأهمية المطلوب (على سبيل المثال ، p<0,05) и при данном числе степеней свободы Fحسب الجدول (انظر أدناه).

نقارن القيم الحرجة والمحسوبة للمعيار:

  • إذا كانت القيمة المحسوبة لاختبار الطالب المقترن تساوي أو تزيد عن القيمة الحرجة الموجودة في الجدول ، فإننا نستنتج أن الاختلافات بين القيم المقارنة ذات دلالة إحصائية.
  • إذا كانت قيمة اختبار الطالب المقترن المحسوب أقل من قيمة الجدول ، فإن الاختلافات بين القيم المقارنة ليست ذات دلالة إحصائية.

6. مثال على حساب اختبار الطالب

لتقييم فعالية عامل سكر الدم الجديد ، تم قياس مستويات السكر في الدم لدى مرضى السكري قبل وبعد تناول الدواء. ونتيجة لذلك ، تم الحصول على البيانات التالية:

حل:

1. احسب الفرق بين كل زوج من القيم (د):

المريض N مستوى السكر في الدم ، مليمول / لتر فرق القيمة (د)
قبل تناول الدواء بعد تناول الدواء
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. أوجد المتوسط ​​الحسابي للاختلافات باستخدام الصيغة:

3. أوجد الانحراف المعياري للاختلافات عن المتوسط ​​بواسطة الصيغة:

4. احسب اختبار الطالب الذي تم إقرانه:

5. دعونا نقارن القيمة التي تم الحصول عليها من اختبار الطالب 8.6 مع القيمة الجدولية ، والتي ، مع عدد درجات الحرية f يساوي 10 - 1 = 9 ومستوى الأهمية p = 0.05 ، هو 2.262. نظرًا لأن القيمة التي تم الحصول عليها أكبر من القيمة الحرجة ، فإننا نستنتج أن هناك فروق ذات دلالة إحصائية في مستويات الجلوكوز في الدم قبل وبعد تناول الدواء الجديد.

اعرض جدول القيم الحرجة لاختبار الطالب

معيار U-CRITERION MANN-WHITNEY

اختبار Mann-Whitney U هو اختبار إحصائي غير حدودي يستخدم لمقارنة عينتين مستقلتين من حيث مستوى أي سمة مقاسة كميًا. تعتمد الطريقة على تحديد ما إذا كانت مساحة القيم المتقاطعة بين سلسلتين متغيرين صغيرة بدرجة كافية (سلسلة متدرجة من قيم المعلمات في العينة الأولى ونفسها في العينة الثانية). كلما كانت قيمة المعيار أصغر ، زادت احتمالية أن تكون الاختلافات بين قيم المعلمات في العينات كبيرة.

1. تاريخ تطوير اختبار U

تم اقتراح هذه الطريقة لاكتشاف الفروق بين العينات في عام 1945 من قبل الكيميائي والإحصائي الأمريكي فرانك ويلكوكسون.
في عام 1947 ، تمت مراجعته وتوسيعه بشكل كبير من قبل علماء الرياضيات ب. مان(إتش بي مان) و دكتور. ويتني(D.R. ويتني) ، التي يطلق عليها عادة اليوم باسمها.

2. ما هو اختبار Mann-Whitney U المستخدم؟

يستخدم اختبار Mann-Whitney U لتقييم الفروق بين عينتين مستقلتين من حيث مستوى أي سمة كمية.

3. متى يمكن استخدام اختبار Mann-Whitney U؟

اختبار Mann-Whitney U هو اختبار غير حدودي ، لذلك ، على عكس اختبار الطالب

يعد اختبار U مناسبًا لمقارنة العينات الصغيرة: يجب أن تحتوي كل عينة على 3 قيم ميزة على الأقل. يُسمح بوجود قيمتين في عينة واحدة ، ولكن في الثانية يجب أن يكون هناك خمس قيم على الأقل.

شرط تطبيق اختبار Mann-Whitney U-test هو عدم وجود قيم متطابقة في المجموعات المقارنة (جميع الأرقام مختلفة) أو عدد قليل جدًا من هذه التطابقات.

التناظرية لاختبار Mann-Whitney U لمقارنة ثلاث مجموعات أو أكثر هو اختبار Kruskal-Wallis.

4. كيف تحسب اختبار مان ويتني U؟

أولاً ، من كلا العينتين المقارنتين ، صف واحد في المرتبة، عن طريق ترتيب وحدات المراقبة وفقًا لدرجة زيادة السمة وتخصيص قيمة أقل إلى رتبة أقل. في حالة تساوي قيم السمات لعدة وحدات ، يتم تعيين المتوسط ​​الحسابي لقيم الترتيب المتتالية لكل منها.

على سبيل المثال ، وحدتان تشغلان المرتبة الثانية والثالثة (الترتيب) في صف واحد لهما نفس القيم. لذلك ، يتم تعيين رتبة لكل منهم تساوي (3 + 2) / 2 = 2.5.

في السلسلة المصنفة الفردية المجمعة ، سيكون إجمالي عدد الرتب مساويًا لـ:

ن = ن 1 + ن 2

حيث n 1 هو عدد العناصر في العينة الأولى و n 2 هو عدد العناصر في العينة الثانية.

بعد ذلك ، نقسم السلسلة المفردة المرتبة إلى قسمين ، يتكونان ، على التوالي ، من وحدات العينة الأولى والثانية ، مع تذكر قيم الرتب لكل وحدة. نحسب بشكل منفصل مجموع الرتب التي وقعت على حصة عناصر العينة الأولى ، وبشكل منفصل - على حصة عناصر العينة الثانية. أوجد العدد الأكبر من مجموع الرتبتين (T x) المقابل للعينة التي تحتوي على n x من العناصر.

أخيرًا ، نجد قيمة اختبار Mann-Whitney U باستخدام الصيغة:

5. كيف نفسر قيمة اختبار مان ويتني U؟

تتم مقارنة القيمة التي تم الحصول عليها لمعيار U وفقًا للجدول الخاص بمستوى الأهمية الإحصائية المختار (p = 0.05 أو p = 0.01) مع القيمة الحرجة لـ U لعدد معين من العينات المقارنة:

  • إذا كانت القيمة الناتجة U أقلجدولي أو يساويبالنسبة إليه ، يتم التعرف على الأهمية الإحصائية للاختلافات بين مستويات السمة في العينات المدروسة (يتم قبول فرضية بديلة). تكون أهمية الاختلافات أعلى ، فكلما انخفضت قيمة U.
  • إذا كانت القيمة الناتجة U أكثرجدولي ، يتم قبول الفرضية الصفرية.
اعرض جدول القيم الحرجة لاختبار Mann-Whitney U عند p = 0.05

معيار WILCOXON

اختبار Wilcoxon للعينات المرتبطة (المعروف أيضًا باسم اختبار Wilcoxon T ، واختبار Wilcoxon ، واختبار تصنيف Wilcoxon الموقّع ، واختبار Wilcoxon لمجموع الرتب) هو اختبار إحصائي غير معلمي يستخدم لمقارنة عينتين مرتبطتين (مقترنة) بمستوى أي سمة كمية تم قياسها على مقياس مستمر أو ترتيبي.

يتمثل جوهر الطريقة في مقارنة القيم المطلقة لشدة التحولات في اتجاه أو آخر. للقيام بذلك ، يتم أولاً ترتيب جميع القيم المطلقة للتحولات ، ثم يتم تلخيص الرتب. إذا حدثت التحولات في اتجاه أو آخر عن طريق الصدفة ، فستكون مبالغ رتبهم متساوية تقريبًا. إذا كانت شدة التحولات في اتجاه واحد أكبر ، فسيكون مجموع رتب القيم المطلقة للتحولات في الاتجاه المعاكس أقل بكثير مما يمكن أن يكون مع التغييرات العشوائية.

1. تاريخ تطور اختبار Wilcoxon للعينات المرتبطة

تم اقتراح الاختبار لأول مرة في عام 1945 من قبل الإحصائي والكيميائي الأمريكي فرانك ويلكوكسون (1892-1965). في نفس العمل العلمي ، وصف المؤلف معيارًا آخر يستخدم في حالة المقارنة بين العينات المستقلة.

2. ما هو استخدام اختبار Wilcoxon؟

يستخدم اختبار Wilcoxon t لتقييم الفروق بين مجموعتين من القياسات التي أجريت على نفس المجموعة من الأشخاص ، ولكن في ظل ظروف مختلفة أو في أوقات مختلفة. هذا الاختبار قادر على الكشف عن اتجاه وشدة التغييرات - أي ما إذا كانت المؤشرات تتحول في اتجاه واحد أكثر من الاتجاه الآخر.

المثال الكلاسيكي للحالة التي يمكن فيها تطبيق اختبار Wilcoxon T على السكان ذوي الصلة هو دراسة ما قبل وبعد العلاج ، حيث تتم مقارنة درجات ما قبل العلاج وبعده. على سبيل المثال ، عند دراسة فعالية عامل خافض للضغط ، تتم مقارنة ضغط الدم قبل تناول الدواء وبعد تناوله.

3. شروط وقيود استخدام اختبار Wilcoxon T.

  1. اختبار Wilcoxon هو اختبار غير حدودي ، لذلك ، على عكس يقترن اختبار الطالب، لا يتطلب وجود توزيع طبيعي للمجموعات التي تمت مقارنتها.
  2. يجب أن يكون عدد الأشخاص عند استخدام اختبار Wilcoxon T 5 على الأقل.
  3. يمكن قياس السمة قيد الدراسة على نطاق كمي مستمر (ضغط الدم ، ومعدل ضربات القلب ، وعدد الكريات البيض لكل 1 مل من الدم) وعلى مقياس ترتيبي (عدد النقاط ، وشدة المرض ، ودرجة التلوث بالكائنات الحية الدقيقة).
  4. يستخدم هذا المعيار فقط عند مقارنة سلسلتين من القياسات. التناظرية لاختبار Wilcoxon T لمقارنة ثلاثة أو أكثر من المجموعات السكانية ذات الصلة معيار فريدمان.

4. كيف تحسب اختبار Wilcoxon T للعينات ذات الصلة؟

  1. احسب الفرق بين قيم القياسات المزدوجة لكل موضوع. لا تؤخذ التحولات الصفرية في الاعتبار أكثر.
  2. حدد الفروق النموذجية ، أي أنها تتوافق مع اتجاه تغيير المؤشر السائد في التردد.
  3. رتب الفروق بين الأزواج حسب قيمها المطلقة (أي دون مراعاة العلامة) بترتيب تصاعدي. يتم تعيين قيمة مطلقة أقل للفرق مرتبة أقل.
  4. احسب مجموع الرتب المقابلة للتحولات غير النمطية.

وبالتالي ، يتم حساب اختبار Wilcoxon T للعينات ذات الصلة بالصيغة التالية:

حيث ΣRr هو مجموع الرتب المقابلة للتغيرات غير النمطية في المؤشر.

5. كيف نفسر قيمة اختبار ويلكوكسون؟

تتم مقارنة القيمة التي تم الحصول عليها لاختبار Wilcoxon T مع القيمة الحرجة وفقًا للجدول للمستوى المختار للدلالة الإحصائية ( ص = 0.05أو ع = 0.01) لعدد معين من العينات المقارنة n:

  • إذا كانت القيمة المحسوبة (التجريبية) لدرجة الحرارة. أقل من الجدول T cr. أو ما يعادله ، ثم يتم التعرف على الأهمية الإحصائية للتغيرات في المؤشر في الاتجاه النموذجي (يتم قبول فرضية بديلة). تكون أهمية الاختلافات أعلى ، فكلما انخفضت قيمة T.
  • إذا كانت درجة الحرارة. المزيد تي كر. ، يتم قبول الفرضية الصفرية حول عدم وجود دلالة إحصائية لتغيرات المؤشر.

مثال على حساب اختبار Wilcoxon للعينات ذات الصلة

تجري شركة أدوية بحثًا عن عقار جديد من مجموعة العقاقير غير الستيرويدية المضادة للالتهابات. لهذا الغرض ، تم اختيار مجموعة من 10 متطوعين يعانون من عدوى فيروسية تنفسية حادة مع ارتفاع الحرارة. تم قياس درجة حرارة الجسم قبل وبعد 30 دقيقة من تناول الدواء الجديد. مطلوب استنتاج حول أهمية انخفاض درجة حرارة الجسم نتيجة تناول الدواء.

  1. يتم تقديم البيانات الأولية في شكل الجدول التالي:
  2. لحساب اختبار Wilcoxon T ، نحسب الاختلافات في المؤشرات المقترنة ونرتب قيمها المطلقة. في الوقت نفسه ، سيتم تمييز الرتب غير النمطية باللون الأحمر:
    ن اسم العائلة ر من الجسم قبل تناول الدواء ر من الجسم بعد تناول الدواء اختلاف المؤشرات ، د | د | رتبة
    1. إيفانوف 39.0 37.6 -1.4 1.4 7
    2. بيتروف 39.5 38.7 -0.8 0.8 5
    3. سيدوروف 38.6 38.7 0.1 0.1 1.5
    4. بوبوف 39.1 38.5 -0.6 0.6 4
    5. نيكولاييف 40.1 38.6 -1.5 1.5 8
    6. كوزلوف 39.3 37.5 -1.8 1.8 9
    7. اغناتيف 38.9 38.8 -0.1 0.1 1.5
    8. سيمينوف 39.2 38.0 -1.2 1.2 6
    9. إيجوروف 39.8 39.8 0
    10. أليكسيف 38.8 39.3 0.5 0.5 3
    كما نرى تحول نموذجيالمؤشر هو انخفاضه ، لوحظ في 7 حالات من أصل 10. في حالة واحدة (في مريض إيجوروف) ، لم تتغير درجة الحرارة بعد تناول الدواء ، وبالتالي لم يتم استخدام هذه الحالة في مزيد من التحليل. في حالتين (في مرضى سيدوروف وأليكسييف) تحول غير نمطيارتفاع درجة الحرارة. الرتب المقابلة للتحول غير النمطي هي 1.5 و 3.
  3. نحسب اختبار Wilcoxon T ، الذي يساوي مجموع الرتب المقابلة للتحول اللانمطي للمؤشر:

    T = ΣRr = 3 + 1.5 = 4.5

  4. قارن Temp. مع تي كر. ، والتي عند مستوى الأهمية p = 0.05 و n = 9 تساوي 8. لذلك ، T emp.
  5. نستنتج أن الانخفاض في درجة حرارة الجسم لدى مرضى ARVI نتيجة تناول دواء جديد له دلالة إحصائية (p<0.05).
اعرض جدول القيم الحرجة لاختبار Wilcoxon T.

اختبار PEARSON'S CHI-SQUARE

اختبار بيرسون χ2 هو طريقة غير بارامترية تسمح لك بتقييم أهمية الفروق بين العدد الفعلي (الذي تم الكشف عنه نتيجة الدراسة) للنتائج أو الخصائص النوعية للعينة التي تقع في كل فئة والعدد النظري الذي يمكن توقعه في المجموعات المدروسة إذا كانت الفرضية الصفرية صحيحة. بعبارات أبسط ، تسمح لك الطريقة بتقييم الأهمية الإحصائية للاختلافات بين مؤشرين أو أكثر من المؤشرات النسبية (الترددات ، المشاركات).

1. تاريخ تطور معيار χ 2

تم تطوير اختبار مربع كاي لتحليل جداول الطوارئ واقتراحه في عام 1900 من قبل عالم رياضيات وإحصائي وعالم أحياء وفيلسوف إنجليزي ، ومؤسس الإحصاء الرياضي وأحد مؤسسي القياسات الحيوية كارل بيرسون(1857-1936).

2. ما هو معيار بيرسون χ 2 المستخدم؟

يمكن تطبيق اختبار خي مربع في التحليل جداول الطوارئتحتوي على معلومات حول تواتر النتائج اعتمادًا على وجود عامل خطر. على سبيل المثال ، يبدو جدول الطوارئ رباعي الحقول كما يلي:

النزوح هو (1) لا مخرج (0) المجموع
هناك عامل خطر (1) أ ب أ + ب
لا يوجد عامل خطر (0) ج د ج + د
المجموع أ + ج ب + د أ + ب + ج + د

كيف تملأ جدول الطوارئ هذا؟ لنفكر في مثال صغير.

دراسة جارية حول تأثير التدخين على خطر الإصابة بارتفاع ضغط الدم الشرياني. لهذا ، تم اختيار مجموعتين من الأشخاص - المجموعة الأولى تضمنت 70 شخصًا يدخنون علبة سجائر واحدة على الأقل يوميًا ، والثانية - 80 شخصًا من غير المدخنين من نفس العمر. في المجموعة الأولى ، كان 40 شخصًا يعانون من ارتفاع ضغط الدم. في الثانية - لوحظ ارتفاع ضغط الدم الشرياني لدى 32 شخصًا. وفقًا لذلك ، كان ضغط الدم الطبيعي في مجموعة المدخنين 30 شخصًا (70-40 = 30) وفي مجموعة غير المدخنين - 48 (80 - 32 = 48).

نقوم بملء جدول الطوارئ رباعي الحقول بالبيانات الأولية:

في جدول الطوارئ الناتج ، يتوافق كل سطر مع مجموعة محددة من الموضوعات. الأعمدة - توضح عدد الأشخاص المصابين بارتفاع ضغط الدم الشرياني أو ضغط الدم الطبيعي.

التحدي بالنسبة للباحث هو: هل توجد فروق ذات دلالة إحصائية بين تواتر المصابين بضغط الدم بين المدخنين وغير المدخنين؟ يمكنك الإجابة على هذا السؤال بحساب اختبار Pearson chi-square ومقارنة القيمة الناتجة بالقيمة الحرجة.

  1. يجب قياس المؤشرات القابلة للمقارنة على مقياس اسمي (على سبيل المثال ، جنس المريض - ذكر أو أنثى) أو في مقياس ترتيبي (على سبيل المثال ، درجة ارتفاع ضغط الدم الشرياني ، والتي تأخذ القيم من 0 إلى 3).
  2. تسمح هذه الطريقة بالتحليل ليس فقط للجداول ذات الأربعة حقول ، عندما يكون كل من العامل والنتيجة متغيرين ثنائيين ، أي أن لديهم قيمتين محتملتين فقط (على سبيل المثال ، ذكر أو أنثى ، وجود أو عدم وجود مرض معين في التاريخ ...). يمكن أيضًا استخدام اختبار Pearson chi-square في حالة تحليل الجداول متعددة الحقول ، عندما يأخذ العامل و (أو) النتيجة ثلاث قيم أو أكثر.
  3. يجب أن تكون المجموعات المتطابقة مستقلة ، أي لا ينبغي استخدام اختبار مربع كاي عند مقارنة الملاحظات قبل وبعد. اختبار ماكنيمار(عند مقارنة مجموعتين مرتبطتين) أو محسوبة Q- اختبار كوكران(في حالة المقارنة بين ثلاث مجموعات أو أكثر).
  4. عند تحليل جداول الحقول الأربعة القيم المتوقعةفي كل خلية يجب أن تكون 10 على الأقل. في حالة ما إذا كانت الظاهرة المتوقعة في خلية واحدة على الأقل تأخذ قيمة من 5 إلى 9 ، يجب حساب اختبار مربع كاي مع تصحيح ييتس. إذا كانت الظاهرة المتوقعة في خلية واحدة على الأقل أقل من 5 ، فيجب استخدام التحليل اختبار فيشر الدقيق.
  5. في حالة تحليل الجداول متعددة الحقول ، يجب ألا يأخذ العدد المتوقع للملاحظات قيمًا أقل من 5 في أكثر من 20٪ من الخلايا.

4. كيف تحسب اختبار Pearson chi-square؟

لحساب اختبار مربع كاي ، يجب عليك:

هذه الخوارزمية قابلة للتطبيق لكل من الجداول ذات المجالات الأربعة ومتعددة الحقول.

5. كيف تفسر قيمة اختبار Pearson chi-square؟

في حالة أن القيمة التي تم الحصول عليها للمعيار χ 2 أكبر من القيمة الحرجة ، نستنتج أن هناك علاقة إحصائية بين عامل الخطر المدروس والنتيجة عند مستوى الأهمية المناسب.

6. مثال على حساب اختبار Pearson chi-square

دعونا نحدد الأهمية الإحصائية لتأثير عامل التدخين على حدوث ارتفاع ضغط الدم الشرياني وفقًا للجدول أعلاه:

  1. نحسب القيم المتوقعة لكل خلية:
  2. أوجد قيمة اختبار Pearson chi-square:

    χ 2 \ u003d (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. عدد درجات الحرية f = (2-1) * (2-1) = 1. نجد القيمة الحرجة لاختبار Pearson chi-square من الجدول ، والتي عند مستوى أهمية p = 0.05 وعدد درجات الحرية 1 ، تساوي 3.841.
  4. قارنا القيمة التي تم الحصول عليها لاختبار مربع كاي مع القيمة الحرجة: 4.396> 3.841 ، وبالتالي ، فإن اعتماد حدوث ارتفاع ضغط الدم الشرياني على وجود التدخين له دلالة إحصائية. يتوافق مستوى أهمية هذه العلاقة مع p<0.05.
اعرض جدول القيم الحرجة لاختبار Pearson chi-square

معيار FISHER الدقيق

اختبار فيشر الدقيق هو اختبار يستخدم لمقارنة مؤشرين نسبيين يميزان تكرار سمة معينة لها قيمتان. عادةً ما يتم تجميع البيانات الأولية لحساب اختبار فيشر الدقيق في شكل جدول رباعي الحقول.

1. تاريخ تطور المعيار

تم اقتراح المعيار لأول مرة رونالد فيشرفي كتابه تصميم التجارب. حدث هذا في عام 1935. ادعى فيشر نفسه أن موريل بريستول هي التي دفعت إلى هذه الفكرة. في أوائل العشرينات من القرن الماضي ، كان رونالد وموريل وويليام روتش في إنجلترا في محطة زراعية تجريبية. زعمت موريل أنها قادرة على تحديد تسلسل صب الشاي والحليب في فنجانها. في ذلك الوقت ، لم يكن من الممكن التحقق من صحة بيانها.

أدى هذا إلى ظهور فكرة فيشر عن "فرضية العدم". لم يكن الهدف محاولة إثبات أن موريل يمكنها التمييز بين أكواب الشاي المعدة بشكل مختلف. تقرر دحض الفرضية القائلة بأن المرأة تختار بشكل عشوائي. تقرر أن الفرضية الصفرية لا يمكن إثباتها أو إثباتها. لكن يمكن دحضه أثناء التجارب.

8 أكواب مصنوعة. في الأربعة الأولى ، يُسكب الحليب أولاً ، في الأربعة الأخرى - الشاي. الكؤوس كانت فاسدة. تمت دعوة بريستول لتذوق الشاي وتقسيم الأكواب حسب طريقة صنع الشاي. يجب أن تكون النتيجة مجموعتين. يقول التاريخ أن التجربة كانت ناجحة.

بفضل اختبار فيشر ، تم تقليل احتمال أن يتصرف بريستول بشكل حدسي إلى 0.01428. أي أنه كان من الممكن تحديد الكأس بشكل صحيح في حالة واحدة من أصل 70 حالة. ولكن مع ذلك ، لا توجد طريقة لتقليل الفرص التي تحددها مدام بالصدفة إلى الصفر. حتى لو قمت بزيادة عدد الأكواب.

أعطت هذه القصة دفعة لتطوير "الفرضية الصفرية". في الوقت نفسه ، تم اقتراح اختبار فيشر الدقيق ، والذي يتمثل جوهره في تعداد جميع المجموعات الممكنة من المتغيرات التابعة والمستقلة.

2. ما هو اختبار فيشر الدقيق المستخدمة؟

يستخدم اختبار فيشر الدقيق بشكل أساسي لمقارنة العينات الصغيرة. هناك سببان مهمان لهذا. أولاً ، يعد حساب المعيار مرهقًا إلى حد ما ويمكن أن يستغرق الكثير من الوقت أو يتطلب موارد حوسبة قوية. ثانيًا ، المعيار دقيق تمامًا (وهو ما ينعكس حتى في اسمه) ، مما يسمح باستخدامه في الدراسات مع عدد قليل من الملاحظات.

يتم إعطاء مكان خاص لمعيار فيشر الدقيق في الطب. هذه طريقة مهمة لمعالجة البيانات الطبية ، والتي وجدت تطبيقها في العديد من الدراسات العلمية. بفضله ، من الممكن التحقيق في العلاقة بين بعض العوامل والنتائج ، ومقارنة تواتر الحالات المرضية بين مجموعتين من الموضوعات ، وما إلى ذلك.

3. في أي الحالات يمكن استخدام اختبار فيشر الدقيق؟

  1. يجب قياس المتغيرات المقارنة على مقياس اسمي ولها قيمتان فقط ، على سبيل المثال ، ضغط الدم طبيعي أو مرتفع ، والنتيجة مواتية أو غير مواتية ، وهناك مضاعفات ما بعد الجراحة أم لا.
  2. تم تصميم اختبار فيشر الدقيق لمقارنة مجموعتين مستقلتين مقسومة على العامل. وفقًا لذلك ، يجب أن يحتوي العامل أيضًا على قيمتين محتملتين فقط.
  3. الاختبار مناسب لمقارنة العينات الصغيرة جدًا: يمكن استخدام اختبار فيشر الدقيق لتحليل أربعة جداول كاملة في حالة القيم المتوقعة للظواهر أقل من 5 ، وهو حد للتطبيق اختبار بيرسون كاي سكوير، حتى مع تصحيح Yates.
  4. يمكن أن يكون اختبار فيشر الدقيق أحاديًا أو ثنائيًا. مع الخيار أحادي الجانب ، من المعروف بالضبط أين سينحرف أحد المؤشرات. على سبيل المثال ، تقارن دراسة عدد المرضى الذين تعافوا مقارنة بمجموعة تحكم. من المفترض أن العلاج لا يمكن أن يؤدي إلى تفاقم حالة المرضى ، ولكن فقط إما أن يعالج أو لا يشفي.
    يقوم الاختبار ثنائي الطرف بتقييم اختلافات التردد بطريقتين. أي ، يتم تقدير احتمالية حدوث تواتر أعلى وأقل للظاهرة في المجموعة التجريبية مقارنة بالمجموعة الضابطة.

التناظرية لاختبار فيشر الدقيق اختبار بيرسون كاي سكوير، في حين أن اختبار فيشر الدقيق له قوة أعلى ، خاصة عند مقارنة العينات الصغيرة ، وبالتالي فإن له ميزة في هذه الحالة.

4. كيف تحسب اختبار فيشر الدقيق؟

على سبيل المثال ، ندرس اعتماد تكرار ولادة الأطفال المصابين بتشوهات خلقية (CMD) على تدخين الأم أثناء الحمل. لهذا ، تم اختيار مجموعتين من النساء الحوامل ، إحداهما تجريبية ، تتكون من 80 امرأة دخن في الأشهر الثلاثة الأولى من الحمل ، والثانية هي مجموعة مقارنة ، بما في ذلك 90 امرأة اتبعت أسلوب حياة صحي طوال فترة الحمل. كان عدد حالات CM الجنين في المجموعة التجريبية 10 ، في مجموعة المقارنة - 2.

أولاً ، نقوم بتجميع جدول طوارئ من أربعة مجالات:

يتم حساب اختبار فيشر الدقيق باستخدام الصيغة التالية:

حيث N هو العدد الإجمالي للموضوعات في المجموعتين ؛ ! - عاملي ، وهو حاصل ضرب رقم وتسلسل من الأرقام ، كل منها أقل من الرقم السابق بمقدار 1 (على سبيل المثال ، 4! = 4 3 2 1)

نتيجة الحسابات نجد أن P = 0.0137.

5. كيف نفسر قيمة الاختبار الدقيق لفيشر؟

تتمثل ميزة الطريقة في تطابق المعيار الذي تم الحصول عليه مع القيمة الدقيقة لمستوى الأهمية p. أي أن قيمة 0.0137 التي تم الحصول عليها في مثالنا هي مستوى أهمية الاختلافات بين المجموعات المقارنة من حيث حدوث CM الجنين. من الضروري فقط مقارنة هذا الرقم مع المستوى الحرج للأهمية ، والذي يؤخذ عادةً في البحث الطبي على أنه 0.05.

  • إذا كانت قيمة الاختبار الدقيق لفيشر أكبر من القيمة الحرجة ، يتم قبول الفرضية الصفرية ويتم التوصل إلى استنتاج مفاده أنه لا توجد فروق ذات دلالة إحصائية في تواتر النتيجة اعتمادًا على وجود عامل خطر.
  • إذا كانت قيمة اختبار فيشر الدقيق أقل من القيمة الحرجة ، يتم قبول فرضية بديلة ويتم التوصل إلى استنتاج حول وجود فروق ذات دلالة إحصائية في تواتر النتيجة اعتمادًا على تأثير عامل الخطر.

في مثالنا P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


نسبة الاحتمالات

نسبة الأرجحية هي مؤشر إحصائي (في اللغة الروسية يُختصر اسمها عادةً باسم OSH ، وفي اللغة الإنجليزية - OR من "نسبة الأرجحية") ، وهي إحدى الطرق الرئيسية لوصف بعبارات عددية مدى ارتباط غياب أو وجود نتيجة معينة بوجود أو عدم وجود عامل معين في مجموعة إحصائية معينة.

1. تاريخ تطور مؤشر نسبة الأرجحية

مصطلح "فرصة" جاء من نظرية المقامرة ، حيث بمساعدة هذا المفهوم ، دللوا على نسبة المراكز الرابحة إلى المراكز الخاسرة. في الأدبيات الطبية العلمية ، تم ذكر مؤشر نسبة الأرجحية لأول مرة في عام 1951 في عمل J.Kornfield. بعد ذلك ، نشر هذا الباحث أوراقًا أشارت إلى الحاجة إلى حساب فاصل ثقة 95٪ لنسبة الأرجحية. (كورنفيلد ، ج. طريقة لتقدير المعدلات المقارنة من البيانات السريرية. تطبيقات لسرطان الرئة والثدي وعنق الرحم // مجلة المعهد الوطني للسرطان ، 1951. - رقم 11 - ص 1269-1275.)

2. ما هي نسبة الأرجحية المستخدمة؟

تسمح لك نسبة الأرجحية بتقييم العلاقة بين نتيجة معينة وعامل خطر.

تسمح لك نسبة الأرجحية بمقارنة مجموعات الموضوعات من حيث تكرار تحديد عامل خطر معين. من المهم أن نتيجة تطبيق نسبة الأرجحية ليست فقط تحديد الأهمية الإحصائية للعلاقة بين العامل والنتيجة ، ولكن أيضًا تقييمها الكمي.

3. شروط وقيود تطبيق نسبة الأرجحية

  1. يجب قياس مؤشرات الأداء والعوامل على مقياس اسمي. على سبيل المثال ، العلامة الناتجة هي وجود أو عدم وجود تشوه خلقي في الجنين ، والعامل المدروس هو تدخين الأم (تدخين أو عدم التدخين).
  2. تسمح هذه الطريقة بتحليل الجداول المكونة من أربعة حقول فقط ، عندما يكون كل من العامل والنتيجة متغيرات ثنائية ، أي أن لديهم قيمتين محتملتين فقط (على سبيل المثال ، الجنس - ذكر أو أنثى ، ارتفاع ضغط الدم الشرياني - وجود أو غياب ، نتيجة المرض - مع أو بدون تحسن ...).
  3. يجب أن تكون المجموعات المتطابقة مستقلة ، أي أن نسبة الأرجحية ليست مناسبة لمقارنة الملاحظات قبل وبعد.
  4. يُستخدم مؤشر نسبة الأرجحية في دراسات التحكم في الحالات (على سبيل المثال ، المجموعة الأولى - مرضى ارتفاع ضغط الدم ، والثانية - الأشخاص الأصحاء نسبيًا). بالنسبة للدراسات المستقبلية ، عندما يتم تشكيل المجموعات على أساس وجود أو عدم وجود عامل خطر (على سبيل المثال ، المجموعة الأولى - مدخنون ، المجموعة الثانية - غير مدخنين) ، يمكن أيضًا حسابها خطر نسبي.

4. كيف تحسب نسبة الأرجحية؟

نسبة الأرجحية هي قيمة الكسر ، وفي بسطه فرص حدوث حدث معين للمجموعة الأولى ، وفي المقام توجد فرص حدوث نفس الحدث للمجموعة الثانية.

فرصةهي نسبة عدد الأشخاص الذين لديهم ميزة معينة (نتيجة أو عامل) إلى عدد الأشخاص الذين ليس لديهم هذه الميزة.

على سبيل المثال ، تم اختيار مجموعة من المرضى الذين خضعوا لعملية جراحية لنخر البنكرياس ، وكان عددهم 100 شخص. بعد 5 سنوات ، نجا 80 منهم. وفقًا لذلك ، كانت فرصة النجاة 80 إلى 20 ، أو 4.

من الطرق الملائمة حساب نسبة الأرجحية ببيانات ملخصة في جدول 2 × 2:

النزوح هو (1) لا مخرج (0) المجموع
هناك عامل خطر (1) أ ب أ + ب
لا يوجد عامل خطر (0) ج د ج + د
المجموع أ + ج ب + د أ + ب + ج + د

بالنسبة لهذا الجدول ، يتم حساب نسبة الأرجحية باستخدام الصيغة التالية:

من المهم جدًا تقييم الأهمية الإحصائية للعلاقة المحددة بين النتيجة وعامل الخطر. هذا يرجع إلى حقيقة أنه حتى مع وجود قيم منخفضة لنسبة الأرجحية قريبة من واحد ، فإن العلاقة ، مع ذلك ، قد تكون مهمة ويجب أخذها في الاعتبار في الاستنتاجات الإحصائية. على العكس من ذلك ، في قيم OR الكبيرة ، يتضح أن المؤشر غير مهم إحصائيًا ، وبالتالي ، يمكن إهمال العلاقة التي تم الكشف عنها.

لتقييم أهمية نسبة الأرجحية ، يتم حساب حدود فاصل الثقة 95٪ (يتم استخدام الاختصار 95٪ CI أو 95٪ CI من "فاصل الثقة" باللغة الإنجليزية). صيغة إيجاد قيمة الحد الأعلى لـ 95٪ CI:

صيغة إيجاد قيمة الحد الأدنى لـ 95٪ CI:

5. كيف نفسر قيمة نسبة الأرجحية؟

  • إذا كانت نسبة الأرجحية أكبر من 1 ، فهذا يعني أن فرص العثور على عامل خطر أكبر في المجموعة التي لديها نتيجة. أولئك. عامل له علاقة مباشرة باحتمالية نتيجة.
  • تشير نسبة الأرجحية الأقل من 1 إلى أن فرص العثور على عامل خطر أكبر في المجموعة الثانية. أولئك. عامل له علاقة عكسية مع احتمال النتيجة.
  • مع نسبة أرجحية تساوي واحد ، فإن فرص العثور على عامل خطر في المجموعات المقارنة هي نفسها. وفقًا لذلك ، لا يؤثر العامل على احتمالية النتيجة.

بالإضافة إلى ذلك ، في كل حالة ، يتم بالضرورة تقييم الأهمية الإحصائية لنسبة الأرجحية بناءً على قيم فاصل الثقة 95٪.

  • إذا كانت فترة الثقة لا تتضمن 1 ، أي تكون قيمتا الحدود إما أعلى أو أقل من 1 ، ويتم التوصل إلى استنتاج حول الأهمية الإحصائية للعلاقة المحددة بين العامل والنتيجة عند مستوى أهمية p<0,05.
  • إذا تضمنت فترة الثقة 1 ، أي حده الأعلى أكبر من 1 ، والحد الأدنى أقل من 1 ، وخلص إلى أنه لا توجد دلالة إحصائية للعلاقة بين العامل والنتيجة عند مستوى أهمية p> 0.05.
  • تتناسب قيمة فاصل الثقة عكسياً مع مستوى أهمية العلاقة بين العامل والنتيجة ، أي كلما كانت نسبة 95٪ أصغر ، زادت أهمية العلاقة المحددة.

6. مثال على حساب مؤشر نسبة الأرجحية

تخيل مجموعتين: الأولى تتكون من 200 امرأة تم تشخيصها بتشوه خلقي في الجنين (النتيجة +). من بين هؤلاء ، يدخن أثناء الحمل (عامل +) - 50 شخصًا (أ)، من غير المدخنين (عامل-) - 150 شخصًا (مع).

المجموعة الثانية تكونت من 100 امرأة بدون علامات تشوهات جنينية (النتيجة -) ، من بينهن 10 أشخاص دخنوا أثناء الحمل (العامل +) (ب)، لم يدخن (عامل-) - 90 شخصًا (د).

1 - تجميع جدول طوارئ من أربعة مجالات:

2. احسب قيمة نسبة الأرجحية:

أو = (أ * د) / (ب * ج) = (50 * 90) / (150 * 10) = 3.

3. أوجد حدود 95٪ CI. كانت قيمة الحد الأدنى المحسوب وفقًا للصيغة أعلاه 1.45 ، وكان الحد الأعلى 6.21.

وهكذا ، أوضحت الدراسة أن فرص لقاء امرأة مدخنة من بين المرضى الذين تم تشخيص إصابتهم بسموم الجنين أعلى بثلاث مرات من النساء اللواتي ليس لديهن علامات على سم الجنين. الاعتماد الملحوظ ذو دلالة إحصائية ، نظرًا لأن 95 ٪ من CI لا تتضمن 1 ، فإن قيم حدوده الدنيا والعليا أكبر من 1.


المخاطر النسبية

الخطر هو احتمال حدوث نتيجة معينة ، مثل المرض أو الإصابة. يمكن أن تأخذ المخاطر قيمًا من 0 (لا يوجد احتمال لنتيجة) إلى 1 (من المتوقع نتيجة غير مواتية في جميع الحالات). في الإحصائيات الطبية ، كقاعدة عامة ، تتم دراسة التغيرات في خطر حدوث نتيجة اعتمادًا على بعض العوامل. ينقسم المرضى بشكل مشروط إلى مجموعتين ، إحداهما تتأثر بالعامل ، والأخرى لا تتأثر.

الخطر النسبي هو نسبة تكرار النتائج بين الأشخاص المتأثرين بالعامل قيد الدراسة إلى تكرار النتائج بين الأشخاص غير المتأثرين بهذا العامل. في الأدبيات العلمية ، غالبًا ما يستخدم الاسم المختصر للمؤشر - RR أو RR (من "الخطر النسبي" باللغة الإنجليزية).

1. تاريخ تطور مؤشر الخطر النسبي

يتم استعارة حساب المخاطر النسبية من خلال الإحصاءات الطبية من الاقتصاد. يمكن أن يؤدي التقييم الصحيح لتأثير العوامل السياسية والاقتصادية والاجتماعية على الطلب على منتج أو خدمة إلى النجاح ، ويمكن أن يؤدي التقليل من هذه العوامل إلى إخفاقات مالية وإفلاس المؤسسة.

2. ما هي المخاطر النسبية المستخدمة؟

يستخدم الخطر النسبي لمقارنة احتمالية نتيجة اعتمادًا على وجود عامل خطر. على سبيل المثال ، عند تقييم تأثير التدخين على حدوث ارتفاع ضغط الدم ، عند دراسة اعتماد حدوث سرطان الثدي على موانع الحمل الفموية ، إلخ. الخطر النسبي هو أهم مؤشر في وصف علاجات معينة أو إجراء دراسات ذات آثار جانبية محتملة.

3. شروط وقيود استخدام المخاطر النسبية

  1. يجب قياس مقاييس العوامل والنتائج على مقياس اسمي (على سبيل المثال ، جنس المريض ، ذكر أو أنثى ، ارتفاع ضغط الدم موجود أم لا).
  2. تسمح هذه الطريقة بتحليل الجداول المكونة من أربعة حقول فقط عندما يكون كل من العامل والنتيجة متغيرين غير متغيرين ، أي أنهما لهما قيمتان محتملتان فقط (على سبيل المثال ، العمر أقل من 50 عامًا أو أكثر ، وجود أو عدم وجود مرض معين في التاريخ).
  3. يتم استخدام المخاطر النسبية في الدراسات المستقبلية ، عندما يتم تشكيل مجموعات الدراسة على أساس وجود أو عدم وجود عامل خطر. في دراسات الحالات والشواهد ، يجب استبدال الخطر النسبي بالمؤشر نسبة الاحتمالات.

4. كيف تحسب المخاطر النسبية؟

لحساب الخطر النسبي ، من الضروري:

5. كيف نفسر قيمة المخاطرة النسبية؟

تتم مقارنة درجة الخطر النسبي بـ 1 لتحديد طبيعة العلاقة بين العامل والنتيجة:

  • إذا كانت RR هي 1 ، فيمكن استنتاج أن العامل قيد الدراسة لا يؤثر على احتمالية النتيجة (لا توجد علاقة بين العامل والنتيجة).
  • عند القيم الأكبر من 1 ، يُستنتج أن العامل يزيد من تكرار النتائج (العلاقة المباشرة).
  • عند القيم الأقل من 1 - حول انخفاض في احتمال نتيجة تحت تأثير عامل (التغذية المرتدة).

قيم حدود مجال الثقة 95٪ مقدرة بالضرورة. إذا كانت كلتا القيمتين - كل من الحدين الأدنى والأعلى - على نفس الجانب من 1 ، أو بعبارة أخرى ، فإن فاصل الثقة لا يشمل 1 ، ثم يتم التوصل إلى استنتاج حول الأهمية الإحصائية للعلاقة المحددة بين العامل والنتيجة مع احتمال الخطأ ص<0,05.

إذا كان الحد الأدنى لـ 95٪ CI أقل من 1 ، وكان الحد الأعلى أكبر ، فيستنتج أنه لا توجد دلالة إحصائية لتأثير العامل على معدل النتيجة ، بغض النظر عن قيمة RR (p> 0.05).

6. مثال على حساب مؤشر الخطر النسبي

في عام 1999 ، أجريت دراسات في أوكلاهوما عن إصابة الرجال بقرحة المعدة. تم اختيار الاستهلاك المنتظم للوجبات السريعة كعامل مؤثر. في المجموعة الأولى ، كان هناك 500 رجل يأكلون باستمرار وجبات سريعة ، من بينهم تم تشخيص قرحة في المعدة في 96 شخصًا. وضمت المجموعة الثانية 500 من مؤيدي اتباع نظام غذائي صحي ، من بينهم تم تشخيص قرحة في المعدة في 31 حالة. بناءً على البيانات التي تم الحصول عليها ، تم إنشاء جدول الطوارئ التالي:


معيار الارتباط بيرسون

اختبار ارتباط بيرسون هو طريقة إحصائية بارامترية تسمح لك بتحديد وجود أو عدم وجود علاقة خطية بين مؤشرين كميين ، وكذلك تقييم مدى قربها وأهميتها الإحصائية. بمعنى آخر ، يسمح لك اختبار ارتباط بيرسون بتحديد ما إذا كان أحد المؤشرات يتغير (يزيد أم ينقص) استجابةً للتغييرات في مؤشر آخر؟ في الحسابات والاستنتاجات الإحصائية ، يُشار إلى معامل الارتباط عادةً على أنه r xy أو R xy.

1. تاريخ تطور معيار الارتباط

تم تطوير اختبار ارتباط بيرسون بواسطة فريق من العلماء البريطانيين بقيادة كارل بيرسون(1857-1936) في التسعينيات من القرن التاسع عشر ، لتبسيط تحليل التغاير بين متغيرين عشوائيين. بالإضافة إلى كارل بيرسون ، تم أيضًا إجراء اختبار ارتباط بيرسون فرانسيس إيدجوورثو رفائيل ويلدون.

2. ما هو استخدام اختبار ارتباط بيرسون؟

يتيح لك معيار ارتباط بيرسون تحديد مدى قرب (أو قوة) الارتباط بين مؤشرين تم قياسهما على مقياس كمي. بمساعدة العمليات الحسابية الإضافية ، يمكنك أيضًا تحديد مدى الأهمية الإحصائية للعلاقة المحددة.

على سبيل المثال ، باستخدام معيار ارتباط بيرسون ، يمكن للمرء أن يجيب على السؤال حول ما إذا كانت هناك علاقة بين درجة حرارة الجسم ومحتوى الكريات البيض في الدم في التهابات الجهاز التنفسي الحادة ، وبين ارتفاع ووزن المريض ، وبين محتوى الفلوريد في مياه الشرب ووقوع التسوس في السكان.

3. شروط وقيود استخدام اختبار Pearson chi-square

  1. يجب قياس المؤشرات المقارنة على مقياس كمي (على سبيل المثال ، معدل ضربات القلب ، درجة حرارة الجسم ، عدد الكريات البيض لكل 1 مل من الدم ، ضغط الدم الانقباضي).
  2. من خلال معيار ارتباط بيرسون ، من الممكن تحديد وجود وقوة علاقة خطية بين الكميات فقط. يتم تحديد الخصائص الأخرى للاتصال ، بما في ذلك الاتجاه (المباشر أو العكسي) ، وطبيعة التغييرات (المستقيمة أو المنحنية) ، وكذلك اعتماد متغير واحد على آخر ، باستخدام تحليل الانحدار.
  3. يجب أن يساوي عدد القيم المراد مقارنتها اثنين. في حالة تحليل العلاقة بين ثلاث معلمات أو أكثر ، يجب عليك استخدام الطريقة تحليل العوامل.
  4. اختبار ارتباط بيرسون هو اختبار حدودي ، وبالتالي فإن شرط تطبيقه هو التوزيع الطبيعي لكل من المتغيرات التي تمت مقارنتها. إذا كان من الضروري إجراء تحليل ارتباط للمؤشرات التي يختلف توزيعها عن التوزيع العادي ، بما في ذلك تلك المقاسة على مقياس ترتيبي ، يجب على المرء استخدام معامل ارتباط رتبة سبيرمان.
  5. من الضروري التمييز بوضوح بين مفهومي التبعية والارتباط. يحدد اعتماد القيم وجود علاقة بينهما ، ولكن ليس العكس.

على سبيل المثال ، يعتمد نمو الطفل على عمره ، أي كلما كان الطفل أكبر سنًا ، كلما كان أطول. إذا أخذنا طفلين من أعمار مختلفة ، فمع وجود درجة عالية من الاحتمال ، سيكون نمو الطفل الأكبر سنًا أكبر من نمو الطفل الأصغر سنًا. هذه الظاهرة تسمى التبعية ، مما يعني وجود علاقة سببية بين المؤشرات. بالطبع ، هناك أيضًا ارتباط بينهما ، مما يعني أن التغييرات في أحد المؤشرات مصحوبة بتغييرات في مؤشر آخر.

في موقف آخر ، ضع في اعتبارك العلاقة بين نمو الطفل ومعدل ضربات القلب (HR). كما تعلم ، تعتمد كلتا القيمتين بشكل مباشر على العمر ، وبالتالي ، في معظم الحالات ، سيكون لدى الأطفال ذوي القامة الأكبر (وبالتالي كبار السن) قيم أقل لمعدل ضربات القلب. أي أنه سيتم ملاحظة الارتباط وقد يكون له إحكام عالٍ إلى حد ما. ومع ذلك ، إذا أخذنا أطفالًا من نفس العمر ولكن على ارتفاعات مختلفة ، فعلى الأرجح ، سيختلف معدل ضربات قلبهم بشكل ضئيل ، وبالتالي يمكننا أن نستنتج أن معدل ضربات القلب مستقل عن النمو.

يوضح هذا المثال مدى أهمية التمييز بين مفهومي الارتباط والاعتماد على المؤشرات ، وهما أساسيان في الإحصاء ، من أجل استخلاص استنتاجات صحيحة.

4. كيف تحسب معامل ارتباط بيرسون؟

يُحسب معامل ارتباط بيرسون باستخدام الصيغة التالية:

5. كيف نفسر قيمة معامل ارتباط بيرسون؟

يتم تفسير قيم معامل ارتباط بيرسون بناءً على قيمه المطلقة. تختلف القيم المحتملة لمعامل الارتباط من 0 إلى ± 1. كلما زادت القيمة المطلقة لـ r xy ، زاد تقارب العلاقة بين الكميتين. r xy = 0 يشير إلى نقص كامل في الاتصال. r xy = 1 - يشير إلى وجود اتصال مطلق (وظيفي). إذا تبين أن قيمة معيار ارتباط بيرسون أكبر من 1 أو أقل من -1 ، فقد حدث خطأ في الحسابات.

لتقييم القرب ، أو القوة ، للارتباط ، يتم استخدام المعايير المقبولة عمومًا ، والتي وفقًا للقيم المطلقة لـ r xy< 0.3 свидетельствуют о ضعيفاتصال ، قيم r xy من 0.3 إلى 0.7 - حول التوصيل وسطضيق ، قيم r xy> 0.7 - o قويروابط.

يمكن الحصول على تقييم أكثر دقة لقوة الارتباط باستخدام جدول Chaddock:

يتم إجراء تقييم الأهمية الإحصائية لمعامل الارتباط r xy باستخدام اختبار t المحسوب باستخدام الصيغة التالية:

تتم مقارنة القيمة التي تم الحصول عليها t r مع القيمة الحرجة عند مستوى معين من الأهمية وعدد درجات الحرية n-2. إذا كانت t r أكبر من t crit ، فسيتم التوصل إلى استنتاج حول الأهمية الإحصائية للعلاقة المحددة.

6. مثال على حساب معامل ارتباط بيرسون

كان الهدف من الدراسة هو التعرف على العلاقة بين مؤشرين كميين وتحديد مدى شدها ودلالتها الإحصائية: مستوى هرمون التستوستيرون في الدم (X) ونسبة كتلة العضلات في الجسم (Y). يتم تلخيص البيانات الأولية لعينة تتكون من 5 مواضيع (ن = 5) في الجدول:


معيار سبيرمان

معامل ارتباط الرتبة لسبيرمان هو طريقة غير بارامترية تستخدم لدراسة العلاقة بين الظواهر إحصائيًا. في هذه الحالة ، يتم تحديد الدرجة الفعلية للتوازي بين السلسلتين الكميتين للسمات المدروسة ويتم تقدير مدى ضيق العلاقة القائمة باستخدام معامل معبر عنه كميًا.

1. تاريخ تطور معامل ارتباط الرتبة

تم تطوير هذا المعيار واقترح لتحليل الارتباط في عام 1904 تشارلز إدوارد سبيرمان، عالم نفس إنجليزي ، وأستاذ في جامعتي لندن وتشيسترفيلد.

2. ما هي نسبة سبيرمان المستخدمة؟

يتم استخدام معامل ارتباط الرتبة لسبيرمان لتحديد وتقييم مدى قرب العلاقة بين سلسلتين من المؤشرات الكمية المقارنة. في حالة تطابق درجات المؤشرات ، مرتبة حسب درجة الزيادة أو النقصان ، في معظم الحالات (القيمة الأعلى لمؤشر واحد تتوافق مع قيمة أعلى لمؤشر آخر - على سبيل المثال ، عند مقارنة طول المريض ووزن جسمه) ، يتم التوصل إلى استنتاج حول الوجود مستقيمعلاقة. إذا كانت رتب المؤشرات لها الاتجاه المعاكس (القيمة الأعلى لأحد المؤشرات تقابل قيمة أقل للآخر - على سبيل المثال ، عند مقارنة العمر ومعدل ضربات القلب) ، فإنهم يتحدثون عن يعكسالروابط بين المؤشرات.

    معامل ارتباط سبيرمان له الخصائص التالية:
  1. يمكن أن يأخذ معامل الارتباط القيم من ناقص واحد إلى واحد ، وعند rs = 1 توجد علاقة مباشرة تمامًا ، وعند rs = -1 - علاقة عكسية تمامًا.
  2. إذا كان معامل الارتباط سالبًا ، فهناك علاقة عكسية ؛ وإذا كانت موجبة ، فهناك علاقة مباشرة.
  3. إذا كان معامل الارتباط يساوي صفرًا ، فإن العلاقة بين الكميات غائبة عمليًا.
  4. كلما اقترب معامل الارتباط من الوحدة ، كانت العلاقة أقوى بين القيم المقاسة.

3. في أي الحالات يمكن استخدام معامل سبيرمان؟

نظرًا لحقيقة أن المعامل هو طريقة تحليل غير بارامترية ، فإن التحقق من الحالة الطبيعية للتوزيع غير مطلوب.

يمكن قياس المؤشرات القابلة للمقارنة على نطاق مستمر (على سبيل المثال ، عدد كريات الدم الحمراء في 1 ميكرولتر من الدم) وعلى مقياس ترتيبي (على سبيل المثال ، درجات مراجعة الأقران من 1 إلى 5).

يتم تقليل فعالية وجودة تقدير سبيرمان إذا كان الفرق بين القيم المختلفة لأي من الكميات المقاسة كبيرًا بدرجة كافية. لا يوصى باستخدام معامل سبيرمان إذا كان هناك توزيع غير متساو لقيم الكمية المقاسة.

4. كيف تحسب نسبة سبيرمان؟

يتضمن حساب معامل ارتباط رتبة سبيرمان الخطوات التالية:

5. كيف نفسر قيمة معامل سبيرمان؟

عند استخدام معامل ارتباط الرتبة ، يتم تقدير تقارب العلاقة بين العلامات بشكل مشروط ، مع الأخذ في الاعتبار قيم المعامل الأقل من 0.3 - علامة على ضعف قرب الاتصال ؛ القيم الأكبر من 0.3 ولكن أقل من 0.7 هي علامة على التقارب المعتدل للارتباط ، والقيم التي تبلغ 0.7 أو أكثر هي علامة على التقارب الكبير من الارتباط.

أيضًا ، لتقييم مدى قرب الاتصال ، يمكن للمرء استخدام مقياس تشادوك.

يتم تقييم الدلالة الإحصائية للمعامل الذي تم الحصول عليه باستخدام اختبار الطالب t. إذا كانت القيمة المحسوبة لمعيار t أقل من القيمة المجدولة لعدد معين من درجات الحرية ، فإن الأهمية الإحصائية للعلاقة الملاحظة غائبة. إذا كان أكثر من ذلك ، فإن العلاقة تعتبر ذات دلالة إحصائية.


طريقة كولموغوروف - سميرنوف

اختبار Kolmogorov-Smirnov هو اختبار غير معياري لمدى ملاءمة الملاءمة ، بالمعنى الكلاسيكي ، مصمم لاختبار فرضيات بسيطة حول العينة التي تم تحليلها والتي تنتمي إلى بعض قوانين التوزيع المعروفة. التطبيق الأكثر شهرة لهذا المعيار هو اختبار السكان المدروسة للتوزيع الطبيعي.

1. تاريخ تطور معيار كولموغوروف سميرنوف

تم تطوير معيار Kolmogorov-Smirnov بواسطة علماء الرياضيات السوفييت أندري نيكولايفيتش كولموغوروفو نيكولاي فاسيليفيتش سميرنوف.
كولموغوروف أ. (1903-1987) - بطل العمل الاشتراكي ، أستاذ في جامعة موسكو الحكومية ، أكاديمي في أكاديمية العلوم في اتحاد الجمهوريات الاشتراكية السوفياتية - أعظم عالم رياضيات في القرن العشرين ، هو أحد مؤسسي نظرية الاحتمالات الحديثة.
سميرنوف ن. (1900-1966) عضو مراسل في أكاديمية العلوم في اتحاد الجمهوريات الاشتراكية السوفياتية ، وأحد مؤسسي الأساليب غير البارامترية للإحصاء الرياضي ونظرية التوزيعات المحدودة لإحصاءات النظام.

بعد ذلك ، تم تعديل اختبار جودة الملاءمة Kolmogorov-Smirnov لاستخدامه في اختبار المجموعات السكانية للتوزيع الطبيعي من قبل إحصائي أمريكي ، أستاذ في جامعة جورج واشنطن هوبير ليليفورس(هوبير ويتمان ليليفورز ، 1928-2008). كان البروفيسور ليليفورز من الرواد في استخدام تكنولوجيا الكمبيوتر في الحسابات الإحصائية.

هوبير ليليفورس

2. ما هو معيار كولموغوروف - سميرنوف المستخدم؟

يتيح هذا المعيار تقييم أهمية الاختلافات بين توزيعات عينتين ، بما في ذلك استخدامها المحتمل لتقييم ما إذا كان توزيع العينة قيد الدراسة يتوافق مع قانون التوزيع العادي.

3. في أي الحالات يمكن استخدام معيار Kolmogorov-Smirnov؟

تم تصميم اختبار Kolmogorov-Smirnov لاختبار الحالة الطبيعية لتوزيع مجموعات البيانات الكمية.

لمزيد من الموثوقية للبيانات التي تم الحصول عليها ، يجب أن تكون أحجام العينات المدروسة كبيرة بما يكفي: n 50. مع حجم السكان المقدر من 25 إلى 50 عنصرًا ، يُنصح باستخدام التصحيح البلشفي.

4. كيف تحسب معيار كولموغوروف سميرنوف؟

يتم حساب معيار Kolmogorov-Smirnov باستخدام برامج إحصائية خاصة. يعتمد على إحصائيات النموذج:

أين سوب اسهو الحد الأدنى للمجموعة S ، و ن- دالة التوزيع للسكان المدروسين ، و (س)- دالة التوزيع الطبيعي

تستند قيم الاحتمالية المستنبطة إلى افتراض أن المتوسط ​​والانحراف المعياري للتوزيع الطبيعي معروفان مسبقًا ولا يتم تقديرهما من البيانات.

ومع ذلك ، في الممارسة العملية ، عادة ما يتم حساب المعلمات مباشرة من البيانات. في هذه الحالة ، يتضمن اختبار الحالة الطبيعية فرضية معقدة ("ما مدى احتمالية الحصول على إحصائية D ذات أهمية معينة أو أهمية أكبر ، اعتمادًا على المتوسط ​​والانحراف المعياري المحسوب من البيانات") ، ويتم إعطاء احتمالات Lilliefors (Lilliefors ، 1967).

5. كيف نفسر قيمة معيار كولموغوروف سميرنوف؟

إذا كانت إحصائية Kolmogorov-Smirnov D مهمة (ص<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


نتيجة إتقان هذا الفصل ، يجب على الطالب: يعرف

  • مؤشرات الاختلاف وعلاقتها ؛
  • القوانين الأساسية لتوزيع الميزات ؛
  • جوهر معايير الموافقة ؛ يكون قادرا على
  • حساب معدلات التباين وجودة الملاءمة ؛
  • تحديد خصائص التوزيعات ؛
  • تقييم الخصائص العددية الرئيسية لسلسلة التوزيع الإحصائي ؛

ملك

  • طرق التحليل الإحصائي لسلسلة التوزيع ؛
  • أساسيات تحليل التشتت ؛
  • طرق فحص سلاسل التوزيع الإحصائي لمطابقتها للقوانين الأساسية للتوزيع.

مؤشرات الاختلاف

في الدراسة الإحصائية لخصائص المجموعات الإحصائية المختلفة ، من الأهمية بمكان دراسة تباين سمة الوحدات الإحصائية الفردية للسكان ، وكذلك طبيعة توزيع الوحدات وفقًا لهذه الميزة. تفاوت -هذه هي الاختلافات في القيم الفردية للسمة بين وحدات المجتمع المدروس. دراسة الاختلاف لها أهمية عملية كبيرة. من خلال درجة التباين ، يمكن للمرء أن يحكم على حدود تباين السمة ، وتجانس السكان لهذه السمة ، ونمطية المتوسط ​​، وعلاقة العوامل التي تحدد التباين. تُستخدم مؤشرات التباين لتوصيف وترتيب المجموعات السكانية الإحصائية.

تمثل نتائج ملخص وتجميع مواد الملاحظة الإحصائية ، التي تم وضعها في شكل سلسلة توزيع إحصائي ، توزيعًا منظمًا لوحدات المجتمع المدروس إلى مجموعات وفقًا لخاصية التجميع (المتغير). إذا تم أخذ سمة نوعية كأساس للتجميع ، فسيتم استدعاء سلسلة التوزيع هذه عزوي(التوزيع حسب المهنة والجنس واللون وما إلى ذلك). إذا تم بناء سلسلة التوزيع على أساس كمي ، فسيتم استدعاء هذه السلسلة متغير(التوزيع حسب الطول والوزن والأجور وما إلى ذلك). يعني إنشاء سلسلة متغيرة ترتيب التوزيع الكمي للوحدات السكانية وفقًا لقيم السمة ، لحساب عدد الوحدات السكانية بهذه القيم (التردد) ، لترتيب النتائج في جدول.

بدلاً من تكرار متغير ، من الممكن استخدام نسبته إلى الحجم الإجمالي للملاحظات ، وهو ما يسمى التردد (التردد النسبي).

هناك نوعان من سلاسل التباين: منفصل وفاصل زمني. سلسلة منفصلة- هذه سلسلة متغيرة ، يعتمد بناؤها على علامات ذات تغيير متقطع (علامات منفصلة). يشمل الأخير عدد الموظفين في المؤسسة ، وفئة الأجور ، وعدد الأطفال في الأسرة ، وما إلى ذلك. السلسلة المتغيرة المنفصلة هي جدول يتكون من عمودين. يشير العمود الأول إلى القيمة المحددة للسمة ، والثاني - عدد الوحدات السكانية ذات القيمة المحددة للسمة. إذا كان للعلامة تغيير مستمر (مقدار الدخل ، ومدة الخدمة ، وتكلفة الأصول الثابتة للمؤسسة ، وما إلى ذلك ، والتي يمكن أن تأخذ أي قيم ضمن حدود معينة) ، فمن الممكن بناء هذه العلامة لهذه العلامة سلسلة التباين الفاصل.يحتوي الجدول عند إنشاء سلسلة تباينات الفاصل الزمني أيضًا على عمودين. يشير الأول إلى قيمة الميزة في الفاصل الزمني "من - إلى" (خيارات) ، والثاني - عدد الوحدات المدرجة في الفاصل الزمني (التردد). التردد (تردد التكرار) - عدد التكرارات لمتغير معين لقيم السمة. يمكن إغلاق الفترات الزمنية وفتحها. فترات مغلقة محدودة على كلا الجانبين ، أي لها حد أدنى ("من") وأعلى ("إلى"). للفواصل الزمنية المفتوحة حد واحد: إما علوي أو سفلي. إذا تم ترتيب الخيارات بترتيب تصاعدي أو تنازلي ، فسيتم استدعاء الصفوف مرتبة.

بالنسبة للسلسلة المتغيرة ، هناك نوعان من خيارات استجابة التردد: التردد التراكمي والتردد التراكمي. يُظهر التردد التراكمي عدد الملاحظات التي أخذتها قيمة الميزة على قيم أقل من القيمة المحددة. يتم تحديد التردد التراكمي عن طريق جمع قيم التردد المميز لمجموعة معينة مع جميع ترددات المجموعات السابقة. يميز التردد المتراكم نسبة وحدات المراقبة التي لا تتجاوز فيها قيم السمة الحد الأعلى لمجموعة اليوم. وهكذا ، فإن التردد المتراكم يوضح الوزن النوعي للمتغير في المجموع ، والذي لا يزيد عن القيمة المعطاة. التردد والتردد والكثافة المطلقة والنسبية والتردد التراكمي والتردد هي خصائص حجم المتغير.

يتم دراسة الاختلافات في علامة الوحدات الإحصائية للسكان ، وكذلك طبيعة التوزيع ، باستخدام مؤشرات وخصائص سلسلة التباين ، والتي تشمل متوسط ​​مستوى السلسلة ، ومتوسط ​​الانحراف الخطي ، والانحراف المعياري ، والتشتت ، ومعاملات التذبذب ، والتباين ، وعدم التناسق ، والتفرطح ، إلخ.

يتم استخدام القيم المتوسطة لتوصيف مركز التوزيع. المتوسط ​​هو خاصية إحصائية معممة ، حيث يتم قياس المستوى النموذجي للسمة التي يمتلكها أفراد المجتمع المدروس. ومع ذلك ، قد تكون هناك حالات تتطابق فيها الوسائل الحسابية مع طبيعة مختلفة للتوزيع ، وبالتالي ، نظرًا لخصائص إحصائية لسلسلة التباين ، يتم حساب ما يسمى بالمتوسطات الهيكلية - الوضع ، والوسيط ، وكذلك الكميات التي تقسم سلسلة التوزيع إلى أجزاء متساوية (رباعيات ، عشري ، نسب مئوية ، إلخ).

موضة -هذه هي قيمة الميزة التي تحدث بشكل متكرر في سلسلة التوزيع أكثر من قيمها الأخرى. بالنسبة للسلسلة المنفصلة ، هذا هو البديل ذو أعلى تردد. في سلسلة الفترات المتغيرة ، من أجل تحديد الوضع ، من الضروري أولاً وقبل كل شيء تحديد الفاصل الزمني الذي يوجد فيه ، وهو ما يسمى بالفاصل الزمني النموذجي. في سلسلة متغيرة بفواصل زمنية متساوية ، يتم تحديد الفاصل الزمني النموذجي بأعلى تردد ، في سلسلة بفواصل غير متكافئة - ولكن بأعلى كثافة توزيع. بعد ذلك ، لتحديد الوضع في صفوف ذات فترات زمنية متساوية ، قم بتطبيق الصيغة

حيث Mo هي قيمة الموضة ؛ x Mo - الحد الأدنى للفاصل الزمني الشرطي ؛ ح-عرض فاصل مشروط / Mo - تردد الفاصل الزمني ؛ / Mo j - تردد فاصل ما قبل الوسيط ؛ / Mo + 1 هو تردد الفاصل الزمني لما بعد الوسيط ، ولسلسلة ذات فترات غير متكافئة في صيغة الحساب هذه ، بدلاً من الترددات / Mo ، / Mo ، / Mo ، ينبغي استخدام كثافات التوزيع عقل 0 _| , عقل 0> UMO + "

إذا كان هناك وضع واحد ، فإن التوزيع الاحتمالي للمتغير العشوائي يسمى أحادي النمط ؛ إذا كان هناك أكثر من وضع واحد ، فإنه يسمى متعدد الوسائط (متعدد الوسائط ، متعدد الوسائط) ، في حالة وجود وضعين - ثنائي النسق. كقاعدة عامة ، تشير الوسائط المتعددة إلى أن التوزيع قيد الدراسة لا يتبع قانون التوزيع العادي. تتميز المجموعات السكانية المتجانسة ، كقاعدة عامة ، بالتوزيعات أحادية الوسائط. يشير Multivertex أيضًا إلى عدم تجانس السكان المدروسين. يجعل ظهور رأسين أو أكثر من الضروري إعادة تجميع البيانات من أجل عزل المزيد من المجموعات المتجانسة.

في سلسلة تباينات الفاصل الزمني ، يمكن تحديد الوضع بيانياً باستخدام الرسم البياني. للقيام بذلك ، يتم رسم خطين متقاطعين من النقاط العليا لأعلى عمود في الرسم البياني إلى النقاط العليا لعمودين متجاورين. ثم ، من نقطة تقاطعهم ، يتم خفض عمودي إلى محور الإحداثيات. قيمة الميزة على الاحداثي المقابل للعمودي هي الوضع. في كثير من الحالات ، عند توصيف السكان كمؤشر عام ، يتم إعطاء الأفضلية للوضع ، بدلاً من المتوسط ​​الحسابي.

الوسيط -هذه هي القيمة المركزية للميزة ؛ يمتلكها العضو المركزي في سلسلة التوزيع المصنفة. في المتسلسلة المنفصلة ، للعثور على قيمة الوسيط ، يتم تحديد رقمه التسلسلي أولاً. للقيام بذلك ، مع عدد فردي من الوحدات ، يضاف واحد إلى مجموع جميع الترددات ، ويقسم الرقم على اثنين. إذا كان هناك عدد زوجي من 1 ، فسيكون هناك 2 وسيط 1 في السلسلة ، لذلك في هذه الحالة يتم تعريف الوسيط على أنه متوسط ​​قيم الوسيط 1s. وبالتالي ، فإن الوسيط في سلسلة الاختلافات المنفصلة هو القيمة التي تقسم السلسلة إلى جزأين يحتويان على نفس عدد الخيارات.

في سلسلة الفترات ، بعد تحديد الرقم الترتيبي للوسيط ، يتم العثور على الفاصل الزمني الوسيط من خلال الترددات المتراكمة (الترددات) ، وبعد ذلك ، باستخدام صيغة حساب الوسيط ، يتم تحديد قيمة الوسيط نفسه:

حيث أنا قيمة الوسيط ؛ x لي -الحد الأدنى للفاصل الزمني الوسيط ؛ ح-عرض الفاصل المتوسط - مجموع ترددات سلسلة التوزيع ؛ / D - التردد المتراكم لفترة ما قبل الوسيط ؛ / Me - تكرار الفاصل الزمني الوسيط.

يمكن إيجاد الوسيط بيانياً باستخدام التراكم. للقيام بذلك ، على مقياس الترددات المتراكمة (الترددات) للتراكم ، من النقطة المقابلة للرقم الترتيبي للوسيط ، يتم رسم خط مستقيم موازٍ لمحور الإحداثي حتى يتقاطع مع التراكم. علاوة على ذلك ، من نقطة تقاطع الخط المستقيم المشار إليه مع التراكم ، يتم خفض عمودي إلى محور الإحداثي. قيمة الميزة على المحور x المقابل للإحداثيات المرسومة (عموديًا) هي الوسيط.

الوسيط يتميز بالخصائص التالية.

  • 1. لا تعتمد على قيم السمات الموجودة على جانبيها.
  • 2. لها خاصية الحد الأدنى ، مما يعني أن مجموع الانحرافات المطلقة لقيم السمة عن الوسيط هو الحد الأدنى للقيمة مقارنة بانحراف قيم السمة عن أي قيمة أخرى.
  • 3. عند الجمع بين توزيعين بمتوسطات معروفة ، من المستحيل التنبؤ بالقيمة المتوسطة للتوزيع الجديد مسبقًا.

تُستخدم خصائص الوسيط على نطاق واسع في تصميم مواقع نقاط الخدمة العامة - المدارس والعيادات ومحطات الوقود ومضخات المياه وما إلى ذلك. على سبيل المثال ، إذا كان من المخطط بناء مستوصف في ربع معين من المدينة ، فمن الأفضل تحديد موقعه في نقطة في الربع لا تقسم طول الحي ، ولكن عدد السكان.

تشير نسبة الوضع والوسيط والمتوسط ​​الحسابي إلى طبيعة توزيع السمة في المجموع ، وتسمح لك بتقييم تماثل التوزيع. لو x Me ثم هناك عدم تناسق في اليد اليمنى للسلسلة. مع التوزيع الطبيعي X -مذكرة.

حدد ك.بيرسون ، بناءً على محاذاة أنواع مختلفة من المنحنيات ، أنه بالنسبة للتوزيعات غير المتماثلة إلى حد ما ، فإن العلاقات التقريبية التالية بين المتوسط ​​الحسابي والوسيط والوضع صحيحة:

حيث أنا قيمة الوسيط ؛ مو - قيمة الموضة ؛ x arithm - قيمة الوسط الحسابي.

إذا كانت هناك حاجة لدراسة بنية سلسلة التباين بمزيد من التفصيل ، فسيتم حساب القيم المميزة ، على غرار الوسيط. تقسم قيم الميزة هذه جميع وحدات التوزيع إلى أعداد متساوية ، وتسمى الكميات أو التدرجات. تنقسم الكميات إلى أرباع ، عشري ، نسب مئوية ، إلخ.

تقسم الأرباع السكان إلى أربعة أجزاء متساوية. يتم حساب الربع الأول بشكل مشابه للوسيط باستخدام الصيغة لحساب الربع الأول ، بعد تحديد الفترة ربع السنوية الأولى مسبقًا:

حيث Qi هي قيمة الربع الأول ؛ xQ ^ -الحد الأدنى للفاصل الربيعي الأول ؛ ح- عرض الفترة الفصلية الأولى ؛ / ، - ترددات سلسلة الفاصل ؛

التردد المتراكم في الفترة التي تسبق الفترة الربعية الأولى ؛ Jq (- تردد الفترة الربعية الأولى.

يوضح الربع الأول أن 25٪ من الوحدات السكانية أقل من قيمتها ، و 75٪ أكثر. الربع الثاني يساوي الوسيط ، أي س 2 =أنا.

على سبيل القياس ، يتم حساب الربع الثالث ، بعد أن وجدت سابقًا الفترة الفصلية الثالثة:

أين هو الحد الأدنى للفاصل الربيعي الثالث ؛ ح- عرض الفترة الربعية الثالثة ؛ / ، - ترددات سلسلة الفاصل ؛ / X "-التردد المتراكم في الفترة السابقة

جي

الفاصل الربيعي الثالث Jq - تردد الفترة الربعية الثالثة.

يُظهر الربع الثالث أن 75٪ من الوحدات السكانية أقل من قيمتها ، و 25٪ أكثر.

الفرق بين الربيعين الثالث والأول هو الفترة الربيعية:

حيث AQ هي قيمة الفترة الربيعية ؛ س 3 -قيمة الربع الثالث ؛ Q - قيمة الربع الأول.

تقسم الفئات العشرية السكان إلى 10 أجزاء متساوية. العشر هو قيمة معلم في سلسلة توزيع تقابل أعشار السكان. بالقياس مع الشرائح الربعية ، يوضح العشر الأول أن 10٪ من الوحدات السكانية أقل من قيمتها ، و 90٪ أكثر ، والعشر التاسع يكشف أن 90٪ من الوحدات السكانية أقل من قيمتها ، و 10٪ أكثر. نسبة العشيرين التاسع والأول ، أي. معامل العشر ، يستخدم على نطاق واسع في دراسة تمايز الدخل لقياس نسبة مستويات الدخل لـ 10٪ من السكان الأكثر ثراءً و 10٪ من السكان الأقل ثراءً. تقسم النسب المئوية السكان المصنفين إلى 100 جزء متساوٍ. يتشابه حساب النسب المئوية ومعناها واستخدامها مع الفئات العشرية.

يمكن تحديد الشرائح الربعية والعشرية والخصائص الهيكلية الأخرى بيانياً عن طريق القياس مع الوسيط باستخدام التراكم.

لقياس حجم التباين ، يتم استخدام المؤشرات التالية: نطاق التباين ، ومتوسط ​​الانحراف الخطي ، والانحراف المعياري ، والتباين. يعتمد حجم نطاق التباين كليًا على عشوائية توزيع الأعضاء المتطرفين في السلسلة. هذا المؤشر مهم في الحالات التي يكون فيها من المهم معرفة مدى التقلبات في قيم السمة:

أين ص-قيمة نطاق التباين ؛ x max - القيمة القصوى للميزة ؛ x tt -الحد الأدنى لقيمة الميزة.

عند حساب نطاق التباين ، لا تؤخذ قيمة الغالبية العظمى من أعضاء السلسلة في الاعتبار ، بينما يرتبط التباين بكل قيمة لعضو السلسلة. هذا النقص يخلو من المؤشرات التي هي متوسطات تم الحصول عليها من انحرافات قيم السمات الفردية عن متوسط ​​قيمتها: متوسط ​​الانحراف الخطي والانحراف المعياري. هناك علاقة مباشرة بين الانحرافات الفردية عن المتوسط ​​وتقلب سمة معينة. كلما كان التقلب أقوى ، زاد الحجم المطلق للانحرافات عن المتوسط.

متوسط ​​الانحراف الخطي هو المتوسط ​​الحسابي للقيم المطلقة لانحرافات الخيارات الفردية عن متوسط ​​قيمتها.

متوسط ​​الانحراف الخطي للبيانات غير المجمعة

حيث / العلاقات العامة - قيمة متوسط ​​الانحراف الخطي ؛ x ، - - قيمة الميزة ؛ X - ف -عدد الوحدات السكانية.

متوسط ​​الانحراف الخطي على التوالي

حيث / vz - قيمة متوسط ​​الانحراف الخطي ؛ x - قيمة الميزة ؛ X -متوسط ​​قيمة السمة للسكان المدروسين ؛ / - عدد الوحدات السكانية في مجموعة منفصلة.

يتم تجاهل علامات الانحراف في هذه الحالة ، وإلا فسيكون مجموع كل الانحرافات صفرًا. يتم حساب متوسط ​​الانحراف الخطي اعتمادًا على تجميع البيانات التي تم تحليلها باستخدام صيغ مختلفة: للبيانات المجمعة وغير المجمعة. نادرًا ما يتم استخدام متوسط ​​الانحراف الخطي ، نظرًا لشروطه ، بشكل منفصل عن مؤشرات التباين الأخرى ، نسبيًا في الممارسة (على وجه الخصوص ، لتوصيف الوفاء بالالتزامات التعاقدية من حيث توحيد العرض ؛ في تحليل معدل دوران التجارة الخارجية ، وتكوين الموظفين ، وإيقاع الإنتاج ، وجودة المنتج ، مع مراعاة الميزات التكنولوجية للإنتاج ، وما إلى ذلك).

يميز الانحراف المعياري مدى انحراف القيم الفردية للسمة المدروسة في المتوسط ​​عن القيمة المتوسطة للسكان ، ويتم التعبير عنها بوحدات السمة المدروسة. يتم استخدام الانحراف المعياري ، باعتباره أحد المقاييس الرئيسية للتباين ، على نطاق واسع في تقييم حدود تباين سمة في مجموعة سكانية متجانسة ، وفي تحديد قيم إحداثيات منحنى التوزيع الطبيعي ، وكذلك في الحسابات المتعلقة بتنظيم مراقبة العينة وتحديد دقة خصائص العينة. يتم حساب الانحراف المعياري للبيانات غير المبوبة وفقًا للخوارزمية التالية: يتم تربيع كل انحراف عن المتوسط ​​، ويتم جمع كل المربعات ، وبعد ذلك يتم قسمة مجموع المربعات على عدد المصطلحات في السلسلة ويؤخذ الجذر التربيعي من حاصل القسمة:

حيث Iip - قيمة الانحراف المعياري ؛ Xj-قيمة الميزة X- متوسط ​​قيمة السمة لمجتمع الدراسة ؛ ف -عدد الوحدات السكانية.

بالنسبة للبيانات المجمعة التي تم تحليلها ، يتم حساب الانحراف المعياري للبيانات باستخدام الصيغة الموزونة

أين - قيمة الانحراف المعياري ؛ Xj-قيمة الميزة X -متوسط ​​قيمة السمة للسكان المدروسين ؛ fx-عدد الوحدات السكانية في مجموعة معينة.

يُطلق على التعبير الموجود تحت الجذر في كلتا الحالتين اسم التباين. وبالتالي ، يتم حساب التباين على أنه متوسط ​​مربع انحرافات قيم السمات عن متوسط ​​قيمتها. بالنسبة لقيم الميزات غير الموزونة (البسيطة) ، يتم تعريف التباين على النحو التالي:

لقيم الخصائص المرجحة

هناك أيضًا طريقة مبسطة خاصة لحساب التباين: بشكل عام

لقيم الميزات غير الموزونة (البسيطة) لقيم الخصائص المرجحة
باستخدام طريقة العد من الصفر الشرطي

حيث أ 2 - قيمة التشتت ؛ x ، - - قيمة الميزة ؛ X -متوسط ​​قيمة الميزة ، ح-قيمة الفاصل الزمني للمجموعة ، ر 1 -الوزن (أ =

للتشتت تعبير مستقل في الإحصاء وهو أحد أهم مؤشرات التباين. يتم قياسه بالوحدات المقابلة لمربع وحدات قياس السمة قيد الدراسة.

التشتت الخصائص التالية.

  • 1. تشتت قيمة ثابتة صفر.
  • 2. لا يؤدي تقليل جميع قيم الميزة بنفس قيمة A إلى تغيير قيمة التباين. هذا يعني أنه لا يمكن حساب متوسط ​​مربع الانحرافات من القيم المعطاة للسمة ، ولكن من انحرافاتها عن بعض الأرقام الثابتة.
  • 3. إنقاص كل قيم الموضع في كمرات يقلل من التشتت في ك 2 مرات ، والانحراف المعياري - in كمرات ، أي يمكن تقسيم جميع قيم السمات على عدد ثابت (على سبيل المثال ، بقيمة فاصل السلسلة) ، ويمكن حساب الانحراف المعياري ، ثم ضربه برقم ثابت.
  • 4. إذا قمنا بحساب متوسط ​​مربع الانحرافات عن أي قيمة وفييختلف إلى حد ما عن الوسط الحسابي ، فسيكون دائمًا أكبر من متوسط ​​مربع الانحرافات المحسوبة عن المتوسط ​​الحسابي. في هذه الحالة ، سيكون متوسط ​​مربع الانحرافات أكبر بقيمة محددة جيدًا - بمربع الفرق بين المتوسط ​​والقيمة المأخوذة شرطيًا.

تباين السمة البديلة هو وجود أو عدم وجود الخاصية المدروسة في وحدات السكان. من الناحية الكمية ، يتم التعبير عن تباين السمة البديلة بقيمتين: يتم الإشارة إلى وجود الخاصية المدروسة في الوحدة بواحد (1) ، وغيابها يُرمز إليه بصفر (0). يتم الإشارة إلى نسبة الوحدات التي تحتوي على خاصية قيد الدراسة بواسطة P ، ويتم الإشارة إلى نسبة الوحدات التي لا تحتوي على هذه الخاصية بواسطة ج.وبالتالي ، فإن تباين السمة البديلة يساوي ناتج نسبة الوحدات التي لها خاصية معينة (P) بنسبة الوحدات التي لا تمتلك هذه الخاصية (ز).يتم تحقيق أكبر تباين في عدد السكان في الحالات التي يكون فيها جزء من السكان ، وهو 50٪ من الحجم الإجمالي للسكان ، له خاصية ، والجزء الآخر من السكان ، الذي يساوي أيضًا 50٪ ، لا يمتلك هذه الميزة ، بينما يصل التباين إلى قيمة قصوى قدرها 0.25 ، أي P = 0.5 ، G = 1 - P \ u003d 1 - 0.5 \ u003d 0.5 و o 2 \ u003d 0.5 0.5 \ u003d 0.25. الحد الأدنى لهذا المؤشر يساوي صفرًا ، وهو ما يتوافق مع حالة لا يوجد فيها اختلاف في الإجمالي. التطبيق العملي لتباين ميزة بديلة هو بناء فترات ثقة عند إجراء ملاحظة عينة.

كلما كان التباين والانحراف المعياري أصغر ، زاد تجانس السكان وكلما كان المتوسط ​​أكثر نموذجية. في ممارسة الإحصاء ، غالبًا ما يكون من الضروري مقارنة الاختلافات في الميزات المختلفة. على سبيل المثال ، من المثير للاهتمام مقارنة الاختلافات في عمر العمال ومؤهلاتهم ، ومدة الخدمة والأجور ، والتكلفة والربح ، ومدة الخدمة وإنتاجية العمل ، إلخ. بالنسبة لمثل هذه المقارنات ، فإن مؤشرات التباين المطلق للخصائص غير مناسبة: من المستحيل مقارنة تباين خبرة العمل ، معبراً عنه بالسنوات ، مع اختلاف الأجور ، معبراً عنه بالروبل. لإجراء مثل هذه المقارنات ، بالإضافة إلى مقارنات تذبذب نفس السمة في العديد من المجموعات السكانية ذات الوسائل الحسابية المختلفة ، يتم استخدام مؤشرات التباين - معامل التذبذب ، معامل التباين الخطي ومعامل التباين ، والتي تُظهر مقياس تقلبات القيم المتطرفة حول المتوسط.

عامل التذبذب:

أين V R -قيمة معامل التذبذب ؛ ص- قيمة مدى التباين ؛ X -

معامل التباين الخطي ".

أين vj-قيمة معامل التباين الخطي ؛ أنا-قيمة متوسط ​​الانحراف الخطي ؛ X -متوسط ​​قيمة السمة للسكان قيد الدراسة.

معامل الاختلاف:

أين فرجينيا-قيمة معامل الاختلاف ؛ أ - قيمة الانحراف المعياري ؛ X -متوسط ​​قيمة السمة للسكان قيد الدراسة.

معامل التذبذب هو النسبة المئوية لمدى التباين إلى القيمة المتوسطة للسمة قيد الدراسة ، والمعامل الخطي للتغير هو نسبة الانحراف الخطي المتوسط ​​إلى القيمة المتوسطة للسمة قيد الدراسة ، معبراً عنها كنسبة مئوية. معامل الاختلاف هو النسبة المئوية للانحراف المعياري لمتوسط ​​قيمة السمة قيد الدراسة. كقيمة نسبية ، معبرًا عنها كنسبة مئوية ، يتم استخدام معامل الاختلاف لمقارنة درجة التباين في السمات المختلفة. باستخدام معامل الاختلاف ، يتم تقدير تجانس المجتمع الإحصائي. إذا كان معامل الاختلاف أقل من 33٪ ، فإن المجموعة السكانية قيد الدراسة تكون متجانسة والتباين ضعيف. إذا كان معامل الاختلاف أكبر من 33٪ ، فإن السكان قيد الدراسة غير متجانسين ، والتباين قوي ، ومتوسط ​​القيمة غير نمطي ولا يمكن استخدامه كمؤشر معمم لهذه المجموعة السكانية. بالإضافة إلى ذلك ، تُستخدم معاملات التباين لمقارنة تذبذب سمة واحدة في مجموعات سكانية مختلفة. على سبيل المثال ، لتقييم التباين في مدة خدمة العمال في مؤسستين. كلما زادت قيمة المعامل ، زادت أهمية تباين الميزة.

استنادًا إلى الربعية المحسوبة ، من الممكن أيضًا حساب المؤشر النسبي للتغير ربع السنوي باستخدام الصيغة

أين س 2 و

يتم تحديد النطاق الربيعي بواسطة الصيغة

يتم استخدام الانحراف الربعي بدلاً من نطاق التباين لتجنب العيوب المرتبطة باستخدام القيم القصوى:

بالنسبة للسلسلة المتغيرة ذات الفاصل الزمني غير المتكافئ ، يتم أيضًا حساب كثافة التوزيع. يتم تعريفه على أنه حاصل قسمة التردد أو التردد المقابل مقسومًا على قيمة الفاصل الزمني. في سلسلة الفواصل الزمنية غير المتكافئة ، يتم استخدام كثافات التوزيع المطلقة والنسبية. كثافة التوزيع المطلقة هي التردد لكل وحدة طول الفترة. كثافة التوزيع النسبية - التردد لكل وحدة طول الفترة.

كل ما سبق ينطبق على سلسلة التوزيع التي يكون قانون التوزيع الخاص بها موصوفًا جيدًا بواسطة قانون التوزيع العادي أو قريب منه.

سلسلة التباين: التعريف ، الأنواع ، الخصائص الرئيسية. طريقة الحساب
الموضة والوسيط والوسيلة الحسابية في الدراسات الطبية والإحصائية
(اعرض في مثال شرطي).

السلسلة المتغيرة هي سلسلة من القيم العددية للسمة قيد الدراسة ، والتي تختلف عن بعضها البعض في حجمها ويتم ترتيبها في تسلسل معين (بترتيب تصاعدي أو تنازلي). تسمى كل قيمة عددية من السلسلة متغير (V) ، وتسمى الأرقام التي توضح عدد مرات حدوث هذا المتغير أو ذاك في تكوين هذه السلسلة التردد (p).

يُشار إلى العدد الإجمالي لحالات الملاحظات ، التي تتكون منها سلسلة التباينات ، بالحرف n. يسمى الاختلاف في معنى الخصائص المدروسة بالاختلاف. إذا لم يكن لعلامة المتغير مقياس كمي ، فإن الاختلاف يسمى نوعي ، وتسمى سلسلة التوزيع إحالة (على سبيل المثال ، التوزيع حسب نتيجة المرض ، الحالة الصحية ، إلخ).

إذا كان لعلامة المتغير تعبير كمي ، فإن هذا الاختلاف يسمى كميًا ، وتسمى سلسلة التوزيع متغيرة.

تنقسم السلاسل المتغيرة إلى متقطعة ومستمرة - وفقًا لطبيعة السمة الكمية ، بسيطة ومرجحة - وفقًا لتكرار حدوث المتغير.

في سلسلة متغيرة بسيطة ، يحدث كل متغير مرة واحدة فقط (p = 1) ، في متغير مرجح ، يحدث نفس المتغير عدة مرات (p> 1). سيتم مناقشة أمثلة على هذه السلسلة لاحقًا في النص. إذا كانت السمة الكمية مستمرة ، أي بين القيم الصحيحة توجد قيم كسرية وسيطة ، وتسمى السلسلة المتغيرة المستمر.

على سبيل المثال: 10.0 - 11.9

14.0 - 15.9 ، إلخ.

إذا كانت العلامة الكمية غير متصلة ، أي تختلف قيمها الفردية (الخيارات) عن بعضها البعض من خلال عدد صحيح وليس لها قيم كسرية وسيطة ، تسمى سلسلة التباين متقطعة أو منفصلة.

استخدام البيانات من المثال السابق حول معدل ضربات القلب

بالنسبة لـ 21 طالبًا ، سنقوم ببناء سلسلة متنوعة (الجدول 1).

الجدول 1

توزيع طلاب الطب حسب معدل النبض (نبضة في الدقيقة)

وبالتالي ، فإن بناء سلسلة متغيرة يعني تنظيم وتبسيط القيم العددية الحالية (الخيارات) ، أي الترتيب في تسلسل معين (بترتيب تصاعدي أو تنازلي) مع الترددات المقابلة. في المثال قيد النظر ، يتم ترتيب الخيارات بترتيب تصاعدي ويتم التعبير عنها كأعداد صحيحة (منفصلة) ، كل خيار يحدث عدة مرات ، أي نحن نتعامل مع سلسلة متغيرة مرجحة أو متقطعة أو منفصلة.

كقاعدة عامة ، إذا كان عدد الملاحظات في المجتمع الإحصائي الذي ندرسه لا يتجاوز 30 ، فإنه يكفي ترتيب جميع قيم السمة قيد الدراسة في سلسلة متغيرة بترتيب تصاعدي ، كما في الجدول. 1 ، أو بترتيب تنازلي.

مع وجود عدد كبير من الملاحظات (n> 30) ، يمكن أن يكون عدد المتغيرات التي تحدث كبيرًا جدًا ، وفي هذه الحالة يتم تجميع فاصل زمني أو سلسلة متغيرة مجمعة ، والتي من أجل تبسيط المعالجة اللاحقة وتوضيح طبيعة التوزيع ، يتم دمج المتغيرات في مجموعات.

عادة ما يتراوح عدد خيارات المجموعة من 8 إلى 15.

يجب أن يكون هناك 5 منهم على الأقل ، لأن. وإلا ، فسيكون تضخيمًا مفرطًا وخشنًا للغاية ، مما يشوه الصورة العامة للتباين ويؤثر بشكل كبير على دقة القيم المتوسطة. عندما يكون عدد خيارات المجموعة أكثر من 20-25 ، تزداد دقة حساب متوسط ​​القيم ، لكن ميزات تباين السمة مشوهة بشكل كبير وتصبح المعالجة الرياضية أكثر تعقيدًا.

عند تجميع سلسلة مجمعة ، من الضروري أخذها في الاعتبار

- يجب ترتيب المجموعات المتغيرة بترتيب معين (تصاعدي أو تنازلي) ؛

- يجب أن تكون الفترات الزمنية في مجموعات المتغيرات هي نفسها ؛

- يجب ألا تتطابق قيم حدود الفترات ، لأن لن يكون من الواضح في أي المجموعات تنسب الخيارات الفردية ؛

- من الضروري مراعاة السمات النوعية للمادة المجمعة عند تحديد حدود الفترات (على سبيل المثال ، عند دراسة وزن البالغين ، يكون الفاصل الزمني 3-4 كجم مقبولاً ، وبالنسبة للأطفال في الأشهر الأولى من العمر ، يجب ألا يتجاوز 100 جرام).

دعونا نبني سلسلة مجمعة (فاصلة) تميز البيانات الخاصة بمعدل النبض (عدد النبضات في الدقيقة) لـ 55 طالب طب قبل الامتحان: 64 ، 66 ، 60 ، 62 ،

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

لإنشاء سلسلة مجمعة ، تحتاج إلى:

1. تحديد قيمة الفاصل الزمني.

2. حدد وسط وبداية ونهاية مجموعات متغير سلسلة التباينات.

● يتم تحديد قيمة الفاصل الزمني (i) من خلال عدد المجموعات المتوقعة (r) ، والتي يتم تعيين عددها اعتمادًا على عدد الملاحظات (n) وفقًا لجدول خاص

عدد المجموعات حسب عدد الملاحظات:

في حالتنا ، بالنسبة لـ 55 طالبًا ، من الممكن تكوين من 8 إلى 10 مجموعات.

يتم تحديد قيمة الفاصل الزمني (i) بالصيغة التالية -

أنا = Vmax-Vmin / r

في مثالنا ، قيمة الفترة هي 82-58 / 8 = 3.

إذا كانت قيمة الفاصل الزمني عبارة عن رقم كسري ، فيجب تقريب النتيجة إلى عدد صحيح.

هناك عدة أنواع من المتوسطات:

● الوسط الحسابي ،

● الوسط الهندسي ،

● الوسط التوافقي ،

● جذر متوسط ​​التربيع ،

● تقدم متوسط ​​،

● الوسيط

غالبًا ما تستخدم المتوسطات الحسابية في الإحصاء الطبي.

المتوسط ​​الحسابي (M) هو قيمة معممة تحدد القيمة النموذجية التي تميز المجتمع بأكمله. الطرق الرئيسية لحساب M هي: طريقة المتوسط ​​الحسابي وطريقة اللحظات (الانحرافات الشرطية).

يتم استخدام طريقة المتوسط ​​الحسابي لحساب المتوسط ​​الحسابي البسيط والمتوسط ​​الحسابي الموزون. يعتمد اختيار طريقة حساب قيمة المتوسط ​​الحسابي على نوع سلسلة التباينات. في حالة وجود سلسلة متغيرة بسيطة ، حيث يحدث كل متغير مرة واحدة فقط ، يتم تحديد المتوسط ​​الحسابي البسيط بواسطة الصيغة:

حيث: М - متوسط ​​القيمة الحسابية ؛

V هي قيمة الخاصية المتغيرة (الخيارات) ؛

Σ - يشير إلى الإجراء - التجميع ؛

n هو العدد الإجمالي للملاحظات.

مثال على حساب المتوسط ​​الحسابي بسيط. معدل التنفس (عدد الأنفاس في الدقيقة) لدى 9 رجال تتراوح أعمارهم بين 35:20 ، 22 ، 19 ، 15 ، 16 ، 21 ، 17 ، 23 ، 18.

لتحديد متوسط ​​مستوى معدل التنفس لدى الرجال الذين تبلغ أعمارهم 35 عامًا ، من الضروري:

1. قم ببناء سلسلة متغيرة ، وضع كل الخيارات بترتيب تصاعدي أو تنازلي ، حصلنا على سلسلة متغيرة بسيطة ، لأن القيم المتغيرة تحدث مرة واحدة فقط.

M = ∑V / n = 171/9 = 19 نفسًا في الدقيقة

خاتمة. يبلغ معدل التنفس لدى الرجال الذين يبلغون من العمر 35 عامًا 19 نفسًا في الدقيقة.

إذا تم تكرار القيم الفردية للمتغير ، فلا داعي لكتابة كل متغير في سطر ؛ يكفي سرد ​​أحجام المتغير التي تحدث (V) وبعد ذلك للإشارة إلى عدد التكرارات (p). مثل هذه السلسلة المتغيرة ، التي يتم فيها ترجيح الخيارات ، كما كانت ، وفقًا لعدد الترددات المقابلة لها ، تسمى السلسلة المتغيرة الموزونة ، ومتوسط ​​القيمة المحسوبة هو المتوسط ​​الحسابي المرجح.

يتم تحديد المتوسط ​​المرجح الحسابي بواسطة الصيغة: M = ∑Vp / n

حيث n هو عدد المشاهدات التي تساوي مجموع الترددات - Σr.

مثال على حساب المتوسط ​​المرجح الحسابي.

كانت مدة العجز (بالأيام) لدى 35 مريضًا يعانون من أمراض الجهاز التنفسي الحادة (ARI) الذين عولجهم طبيب محلي خلال الربع الأول من العام الحالي: 6 ، 7 ، 5 ، 3 ، 9 ، 8 ، 7 ، 5 ، 6 ، 4 ، 9 ، 8 ، 7 ، 6 ، 6 ، 9 ، 6 ، 5 ، 10 ، 8 ، 7 ، 11 ، 13 ، 5 ، 6 ، 7 ، 12 ، 4 ، 3 ، 6 ، 5 ، 6 ، 5 أيام.

كانت منهجية تحديد متوسط ​​مدة الإعاقة لدى مرضى التهابات الجهاز التنفسي الحادة كما يلي:

1. دعونا نبني سلسلة متغيرة مرجحة ، لأن تتكرر قيم المتغيرات الفردية عدة مرات. للقيام بذلك ، يمكنك ترتيب جميع الخيارات بترتيب تصاعدي أو تنازلي مع الترددات المقابلة لها.

في حالتنا ، الخيارات بترتيب تصاعدي.

2. احسب المتوسط ​​المرجح الحسابي باستخدام الصيغة: M = ∑Vp / n = 233/35 = 6.7 أيام

توزيع مرضى التهابات الجهاز التنفسي الحادة حسب مدة الإعاقة:

مدة العجز عن العمل (V) عدد المرضى (ع) vp
∑p = n = 35 ∑Vp = 233

خاتمة. وبلغ متوسط ​​مدة الإعاقة عند مرضى الجهاز التنفسي الحادة 6.7 أيام.

الوضع (Mo) هو المتغير الأكثر شيوعًا في سلسلة التنوعات. بالنسبة للتوزيع المعروض في الجدول ، يتوافق الوضع مع المتغير الذي يساوي 10 ، ويحدث في كثير من الأحيان أكثر من غيره - 6 مرات.

توزيع المرضى حسب مدة الإقامة في سرير المستشفى (بالأيام)

الخامس
ص

في بعض الأحيان يكون من الصعب تحديد القيمة الدقيقة للوضع ، حيث قد يكون هناك العديد من الملاحظات في البيانات التي تتم دراستها والتي تحدث "في أغلب الأحيان".

الوسيط (Me) هو مؤشر غير حدودي يقسم سلسلة التباين إلى نصفين متساويين: نفس العدد من الخيارات يقع على جانبي الوسيط.

على سبيل المثال ، للتوزيع الموضح في الجدول ، الوسيط هو 10 لأن على جانبي هذه القيمة يقع في الخيار الرابع عشر ، أي الرقم 10 يحتل موقعًا مركزيًا في هذه السلسلة وهو متوسطها.

بالنظر إلى أن عدد الملاحظات في هذا المثال زوجي (ن = 34) ، يمكن تحديد الوسيط على النحو التالي:

أنا = 2 + 3 + 4 + 5 + 6 + 5 + 4 + 3 + 2/2 = 34/2 = 17

هذا يعني أن منتصف المتسلسلة يقع على الخيار السابع عشر ، والذي يتوافق مع وسيط 10. بالنسبة للتوزيع المعروض في الجدول ، يكون المتوسط ​​الحسابي هو:

M = ∑Vp / n = 334/34 = 10.1

لذلك ، لـ 34 ملاحظة من الجدول. 8 ، حصلنا على: Mo = 10 ، Me = 10 ، المتوسط ​​الحسابي (M) هو 10.1. في مثالنا ، تبين أن جميع المؤشرات الثلاثة متساوية أو قريبة من بعضها البعض ، على الرغم من اختلافها تمامًا.

المتوسط ​​الحسابي هو المجموع الناتج لجميع التأثيرات ؛ وتشارك جميع المتغيرات ، دون استثناء ، في تكوينه ، بما في ذلك المتغيرات المتطرفة ، وغالبًا ما تكون غير نمطية لظاهرة أو مجموعة معينة.

الوضع والوسيط ، على عكس المتوسط ​​الحسابي ، لا يعتمدان على قيمة جميع القيم الفردية للسمة المتغيرة (قيم المتغيرات المتطرفة ودرجة تشتت السلسلة). يميز المتوسط ​​الحسابي الكتلة الكاملة للملاحظات ، ويميز الأسلوب والوسيط الكتلة

الصفوف بنيت بالكمية، وتسمى متغير.

تتكون سلسلة التوزيع من خيارات(القيم المميزة) و الترددات(عدد المجموعات). يتم استدعاء الترددات المعبر عنها كقيم نسبية (الأسهم ، النسب المئوية) الترددات. مجموع كل الترددات يسمى حجم سلسلة التوزيع.

حسب النوع ، يتم تقسيم سلسلة التوزيع إلى منفصلة(مبني على القيم المتقطعة للميزة) و فاصلة(مبني على قيم السمات المستمرة).

سلسلة التباينيمثل عمودين (أو صفوف) ؛ توفر إحداها قيمًا فردية للسمة المتغيرة ، تسمى المتغيرات ويُشار إليها بواسطة X ؛ وفي الآخر - الأرقام المطلقة التي توضح عدد المرات (عدد المرات) التي يحدث فيها كل خيار. تسمى مؤشرات العمود الثاني الترددات ويشار إليها تقليديًا بالرمز f. مرة أخرى ، نلاحظ أنه في العمود الثاني ، يمكن أيضًا استخدام المؤشرات النسبية التي تميز حصة تكرار المتغيرات الفردية في المبلغ الإجمالي للترددات. تسمى هذه المؤشرات النسبية الترددات ويشار إليها تقليديًا بـ ω مجموع كل الترددات في هذه الحالة يساوي واحدًا. ومع ذلك ، يمكن أيضًا التعبير عن الترددات كنسبة مئوية ، ومن ثم يعطي مجموع كل الترددات 100٪.

إذا تم التعبير عن متغيرات السلسلة المتغيرة كقيم منفصلة ، فسيتم استدعاء هذه السلسلة المتغيرة منفصلة.

بالنسبة للميزات المستمرة ، يتم إنشاء سلسلة التباينات كـ فاصلة، أي يتم التعبير عن قيم السمة فيها "من ... إلى ...". في هذه الحالة ، تسمى القيم الدنيا للسمة في مثل هذا الفاصل الزمني الحد الأدنى للفاصل الزمني ، والحد الأقصى - الحد الأعلى.

تم تصميم سلسلة الفواصل المتغيرة أيضًا للميزات المنفصلة التي تختلف عبر نطاق واسع. يمكن أن تكون سلسلة الفاصل الزمني متساويو غير متكافئفترات.

ضع في اعتبارك كيفية تحديد قيمة الفواصل الزمنية المتساوية. دعونا نقدم الترميز التالي:

أنا- قيمة الفاصل ؛

- الحد الأقصى لقيمة السمة لوحدات السكان ؛

- الحد الأدنى لقيمة السمة لوحدات السكان ؛

ن-عدد المجموعات المخصصة.

إذا كان n معروفًا.

إذا كان من الصعب تحديد عدد المجموعات المخصصة مسبقًا ، فيمكن التوصية بالصيغة التي اقترحها Sturgess في عام 1926 لحساب الحجم الأمثل للفترة مع حجم السكان الكافي:

n = 1+ 3.322 log N ، حيث N هو عدد الآحاد في المجتمع.

يتم تحديد قيمة الفترات غير المتكافئة في كل حالة فردية ، مع مراعاة خصائص موضوع الدراسة.

التوزيع الإحصائي للعينةاستدعاء قائمة الخيارات والترددات المقابلة لها (أو الترددات النسبية).

يمكن تحديد التوزيع الإحصائي للعينة في شكل جدول ، يوجد في العمود الأول خيارات ، وفي العمود الثاني - الترددات المقابلة لهذه الخيارات. نيأو الترددات النسبية باي .

التوزيع الإحصائي للعينة

تسمى سلسلة الفترات سلسلة التباين حيث يتم التعبير عن قيم السمات الكامنة وراء تكوينها ضمن حدود معينة (فترات زمنية). الترددات في هذه الحالة لا تشير إلى القيم الفردية للسمة ، ولكن إلى الفاصل الزمني بأكمله.

يتم إنشاء سلسلة التوزيع الفاصل وفقًا للخصائص الكمية المستمرة ، وكذلك وفقًا لخصائص منفصلة ، متفاوتة ضمن نطاق كبير.

يمكن تمثيل السلسلة الفاصلة بالتوزيع الإحصائي للعينة ، مع الإشارة إلى الفترات الزمنية والترددات المقابلة لها. في هذه الحالة ، يتم أخذ مجموع ترددات المتغير الذي وقع في هذا الفاصل الزمني على أنه تردد الفترة.

عند التجميع حسب السمات الكمية المستمرة ، من المهم تحديد حجم الفاصل الزمني.

بالإضافة إلى متوسط ​​العينة وتباين العينة ، يتم أيضًا استخدام خصائص أخرى لسلسلة التباين.

موضةقم بتسمية المتغير الذي يحتوي على أعلى معدل تكرار.


يغلق