Проверка статистических гипотез при помощи scipy.stats. Часть 2.

Проверка статистических гипотез при помощи функций библиотеки scipy.stats.

Проверка статистических гипотез при помощи scipy.stats. Часть 1.

Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события

Пусть по достаточно большому числу n независимых испытаний, в каждом из которых вероятность p появления события A постоянна, но неизвестна, найдена относительная частота m/n (m - количество произошедших событий А). Пусть имеются основания полагать, что неизвестная вероятность события А равна гипотетическому значению \(p_0\). Требуется при заданном уровне значимости \(\alpha\) проверить нулевую гипотезу о том, что неизвестная вероятность события А равна гипотетической вероятности \(p_0\).

Например, поставщик деталей утверждает, что не больше 10% деталей в поставляемой партии бракованные. Было проверено 15 деталей, 3 из них были бракованные. Верно ли утверждение поставщика или брака в партии больше?

  • Нулевая гипотеза: в партии 10% деталей бракованные.
  • Альтернативная гипотеза: в партии больше 10% деталей бракованные.

Используем функцию scipy.stats.binom_test. Аргументы функции:

  • m - сколько раз произошло событие А
  • n - количество испытаний (объем выборки деталей)
  • гипотетическая вероятность
  • альтернативная гипотеза

Зададимся критическим значением p-критерия 5% (0,05).

scipy.stats.binom_test(3, n=15, p=0.1, alternative='greater')

Параметр alternative может принимать значение ‘two-sided’, ‘greater’ или ‘less’ в зависимости от альтернативной гипотезы.

Результат работы функции scipy.stats.binom_test:

>> 0.18406106910639106

Нулевая гипотеза не может быть отвергнута с уровнем доверия 5%, поскольку полученное p-значение больше чем критическое значение 5%.

Однофакторный дисперсионный анализ (ANOVA F-test)

Однофакторный дисперсионный анализ проверяет нулевую гипотезу о том, что две или более групп имеют одинаковое среднее значение генеральной совокупности. Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвергаются разные выборки испытуемых.

Пример. Исследователи изучали связь между курением биологических матерей и массой тела их детей при рождении. В 1-ю группу вошли некурящие. Во 2-ю группу вошли курильщики, выкуривающие менее одной пачки сигарет в день. Группа 3 выкуривала более одной, но менее двух пачек в день. Группа 4 выкуривала более двух пачек в день. Ниже приведен массив значений масс тела младенцев при рождении (n = 11 в каждой группе) в зависимости от курения матери:

G1 = [3510, 3174, 3580, 3232, 3884, 3982, 4055, 3459, 3998, 3852, 3421]
G2 = [3344, 3211, 3190, 3102, 2995, 3101, 3600, 3350, 2997, 3431, 3120]
G3 = [2908, 2555, 3100, 2775, 2985, 2479, 2901, 2778, 2199, 2500, 2422]
G4 = [2223, 2331, 2200, 2121, 2001, 1566, 1676, 1783, 2002, 2118, 1882]

Есть ли различия в средних значениях массы тела между группами? Каково p-значение для этого теста?

Для проверки этой гипотезы используем функцию scipy.stats.f_oneway.

scipy.stats.f_oneway(G1, G2, G3, G4)

Результат работы функции:

F_onewayResult(statistic=14.736466253517861, pvalue=0.0010253111436286351)

Полученное p-значение также мало, следовательно между первой и второй группой различие в массе значимо.

Построим диаграммы размаха четырех групп.

data = pd.DataFrame(np.array([G1,G2,G3,G4]).transpose(),columns = ['G1','G2','G3','G4'])
data.plot(kind='box', xlabel='Группа', ylabel='Масса, г')

Список использованных источников

  1. F-tests for Equality of Two Variances
  2. Гмуртан В. Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. - 8-е изд. стер. - М.: Высш. шк. 2002.
  3. Высшая математика - просто и доступно! Проверка статистических гипотез
  4. Введение в анализ данных с помощью Pandas
  5. Критерии нормальности распределения
  6. Статистические гипотезы. Презентация.
  7. Emory Oxford college. Exercises - Comparing Means 2
  8. Confidence Interval and Hypothesis Testing: Exercises and Solutions
  9. MS-A0503 First course in probability and statistics Department of mathematics and systems analysis
  10. Exercises - One Way Analysis of Variance (ANOVA)
  11. Chapter: Biostatistics for the Health Sciences: One-Way Analysis of Variance

© 2023. All rights reserved.

Powered by Hydejack v9.1.6