Проверка статистических гипотез при помощи scipy.stats. Часть 2.
Проверка статистических гипотез при помощи функций библиотеки scipy.stats.
Проверка статистических гипотез при помощи scipy.stats. Часть 1.
Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события
Пусть по достаточно большому числу n независимых испытаний, в каждом из которых вероятность p появления события A постоянна, но неизвестна, найдена относительная частота m/n (m - количество произошедших событий А). Пусть имеются основания полагать, что неизвестная вероятность события А равна гипотетическому значению \(p_0\). Требуется при заданном уровне значимости \(\alpha\) проверить нулевую гипотезу о том, что неизвестная вероятность события А равна гипотетической вероятности \(p_0\).
Например, поставщик деталей утверждает, что не больше 10% деталей в поставляемой партии бракованные. Было проверено 15 деталей, 3 из них были бракованные. Верно ли утверждение поставщика или брака в партии больше?
- Нулевая гипотеза: в партии 10% деталей бракованные.
- Альтернативная гипотеза: в партии больше 10% деталей бракованные.
Используем функцию scipy.stats.binom_test. Аргументы функции:
- m - сколько раз произошло событие А
- n - количество испытаний (объем выборки деталей)
- гипотетическая вероятность
- альтернативная гипотеза
Зададимся критическим значением p-критерия 5% (0,05).
scipy.stats.binom_test(3, n=15, p=0.1, alternative='greater')
Параметр alternative может принимать значение ‘two-sided’, ‘greater’ или ‘less’ в зависимости от альтернативной гипотезы.
Результат работы функции scipy.stats.binom_test:
>> 0.18406106910639106
Нулевая гипотеза не может быть отвергнута с уровнем доверия 5%, поскольку полученное p-значение больше чем критическое значение 5%.
Однофакторный дисперсионный анализ (ANOVA F-test)
Однофакторный дисперсионный анализ проверяет нулевую гипотезу о том, что две или более групп имеют одинаковое среднее значение генеральной совокупности. Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвергаются разные выборки испытуемых.
Пример. Исследователи изучали связь между курением биологических матерей и массой тела их детей при рождении. В 1-ю группу вошли некурящие. Во 2-ю группу вошли курильщики, выкуривающие менее одной пачки сигарет в день. Группа 3 выкуривала более одной, но менее двух пачек в день. Группа 4 выкуривала более двух пачек в день. Ниже приведен массив значений масс тела младенцев при рождении (n = 11 в каждой группе) в зависимости от курения матери:
G1 = [3510, 3174, 3580, 3232, 3884, 3982, 4055, 3459, 3998, 3852, 3421]
G2 = [3344, 3211, 3190, 3102, 2995, 3101, 3600, 3350, 2997, 3431, 3120]
G3 = [2908, 2555, 3100, 2775, 2985, 2479, 2901, 2778, 2199, 2500, 2422]
G4 = [2223, 2331, 2200, 2121, 2001, 1566, 1676, 1783, 2002, 2118, 1882]
Есть ли различия в средних значениях массы тела между группами? Каково p-значение для этого теста?
Для проверки этой гипотезы используем функцию scipy.stats.f_oneway.
scipy.stats.f_oneway(G1, G2, G3, G4)
Результат работы функции:
F_onewayResult(statistic=14.736466253517861, pvalue=0.0010253111436286351)
Полученное p-значение также мало, следовательно между первой и второй группой различие в массе значимо.
Построим диаграммы размаха четырех групп.
data = pd.DataFrame(np.array([G1,G2,G3,G4]).transpose(),columns = ['G1','G2','G3','G4'])
data.plot(kind='box', xlabel='Группа', ylabel='Масса, г')
Список использованных источников
- F-tests for Equality of Two Variances
- Гмуртан В. Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. - 8-е изд. стер. - М.: Высш. шк. 2002.
- Высшая математика - просто и доступно! Проверка статистических гипотез
- Введение в анализ данных с помощью Pandas
- Критерии нормальности распределения
- Статистические гипотезы. Презентация.
- Emory Oxford college. Exercises - Comparing Means 2
- Confidence Interval and Hypothesis Testing: Exercises and Solutions
- MS-A0503 First course in probability and statistics Department of mathematics and systems analysis
- Exercises - One Way Analysis of Variance (ANOVA)
- Chapter: Biostatistics for the Health Sciences: One-Way Analysis of Variance