Математическая статистика (лекция 5) презентация

Содержание


Презентации» Математика» Математическая статистика (лекция 5)
Математические методы в биологии
 Блок 3. Математическая статистика
 Лекция 5Основные определения
 Генеральная совокупность – всё то множество объектов, относительно которогоВизуализация выборок
 Полигон – график, сопоставляющий варианты значений признака с ихОписательные статистики
 Их цель – описать, охарактеризовать выборку безотносительно ГС
 Выборочная средняя и выборочная дисперсия
 Выборочная средняя - среднее арифметическое всехИ всё же, откуда в формуле выборочной дисперсии (n-1)?
 Рассмотрим «очевидное»Стандартная ошибка среднего (SE)
 Выборочная средняя - случайная величина с мат.ожиданием,Построение доверительного интервала для среднего
 Пусть у нас есть выборка, иПусть есть некая выборка из 64 наблюдений с выборочным средним, равнымГипотезы и их проверка
 Понятие статистической гипотезы
 Статистическая гипотеза - некоеТиповой пример статистической задачи на проверку гипотез
 Средний срок выздоровления отРаспределение сл.вел. «средний срок выздоровления после приёма нового лекарства» при условииP-value (уровень значимости)
 Это вероятность наблюдения заданных отклонений (различий) при условии,Чем чреваты маленькие выборки (n<30)
 Выборочные средние сильнее отклоняются от μНормальное распределение vs распределение Стьюдента
 Вероятностные характеристики N постоянны – дляСравнение средних – парный t-тест
 Постановка задачи. 
 Есть две выборки:
Пример на сравнение средних
 Процесс денатурации ДНК (разрушения водородных связей междуt-распределение c 38 степенями свободыРезюме (или что мы умеем делать из статистики)
 Строить доверительный интервал



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Математические методы в биологии Блок 3. Математическая статистика Лекция 5


Слайд 2
Описание слайда:
Основные определения Генеральная совокупность – всё то множество объектов, относительно которого исследователь хотел бы делать выводы в рамках определённого исследования Примеры ГС: все совершеннолетние жители Казани; все люди с заболеванием Альцгеймера Выборка – некая часть ГС, её модель, на основе изучения которой исследователь делает выводы о всей ГС. Репрезентативность выборки – её способность отражать существенные для исследования характеристики ГС

Слайд 3
Описание слайда:
Визуализация выборок Полигон – график, сопоставляющий варианты значений признака с их частотами (абсолютными или относительными) (для дискретных признаков) Пример. Изучаем количество детей в семьях Казани. Объём выборки – 10 семей. Гистограмма – ступенчатая фигура из прямоугольников с основанием, равным ширине интервала по оси x (значения признака) и высотой, равной частоте значений признака из этого интервала (абсолютной или относительной) (для непрерывных признаков)

Слайд 4
Описание слайда:
Описательные статистики Их цель – описать, охарактеризовать выборку безотносительно ГС Мода Размах Медиана Выборочная дисперсия Выборочная средняя Стандартное отклонение

Слайд 5
Описание слайда:
Выборочная средняя и выборочная дисперсия Выборочная средняя - среднее арифметическое всех значений признака в выборке: Выборочная средняя – случайная величина (изменяется от выборки к выборке для одной и той же ГС) Мат.ожидание выборочной средней как случайной величины есть истинная средняя – средняя для всей ГС: (т.е. - несмещённая оценка ) Сумма отклонений значений признака от выборочной средней равна 0: Выборочная дисперсия – сумма квадратов отклонений значений признака от выборочной средней, делённая на n-1 (n – объём выборки): Выборочную дисперсию можно вычислять так: (Все правила для M(X) и D(X) (лекции №№3,4) переводятся на язык выборок)

Слайд 6
Описание слайда:
И всё же, откуда в формуле выборочной дисперсии (n-1)? Рассмотрим «очевидное» выражение для выборочной дисперсии: Это случ.величина, зависящая от выборки дважды (так как включает в себя случайную величину , а не неизвестную константу ). Сумма квадратов отклонений значений признака от меньше, чем сумма квадратов отклонений значений признака от любого другого числа (в т.ч. от постоянной ), поэтому - это всегда заниженная, смещённая оценка генеральной (истинной) дисперсии. Чтобы «приподнять» её, используют поправочный коэффициент Отсюда Использование поправочного коэффициента имеет обязательный характер при n<30 и практически не влияет на значение дисперсии и станд.отклонения при n≥100.

Слайд 7
Описание слайда:
Стандартная ошибка среднего (SE) Выборочная средняя - случайная величина с мат.ожиданием, равным μ ВОПРОС: чему равна дисперсия ? Пусть из ГС извлечено много выборок одинакового объёма n. Тогда Используем выб.дисперсию как оценку :

Слайд 8
Описание слайда:
Построение доверительного интервала для среднего Пусть у нас есть выборка, и мы знаем и sd ВОПРОС: Можем ли мы найти μ (истинное среднее)? ОТВЕТ: И да, и нет!! Точное значение μ мы не узнаем, но можем указать численный интервал, в котором μ находится с определённой вероятностью (этот интервал называется доверительным).

Слайд 9
Описание слайда:
Пусть есть некая выборка из 64 наблюдений с выборочным средним, равным 100, и стандартным отклонением, равным 4. Построить 95%-ный доверительный интервал для истинного среднего. Пусть есть некая выборка из 64 наблюдений с выборочным средним, равным 100, и стандартным отклонением, равным 4. Построить 95%-ный доверительный интервал для истинного среднего. Решение. n=64, =100, sd=4. Рассчитаем стандартную ошибку среднего: Истинное среднее имеет нормальное распределение с и σ=0,5. 95% значений истинного среднего расположены в интервале от , значит, мы можем на 95% быть уверенны в том, что мат.ожидание (истинное среднее) находится где-то на отрезке [99,02;100,98]. А как же другие интервалы?

Слайд 10
Описание слайда:
Гипотезы и их проверка Понятие статистической гипотезы Статистическая гипотеза - некое предположение о виде неизвестного распределения или о его параметрах. Примеры статистических гипотез: Распределение роста студентов нормально Средняя продолжительность жизни в России – 67 лет Нулевая гипотеза (H0)– основное предположение, выдвинутое в статистическом исследовании (обычно пессимистична). Альтернативная гипотеза (H1) – гипотеза, противоречащая нулевой. Гипотезы проверяются статистическими тестами. Результат статистического теста – отклонение () или не отклонение нулевой гипотезы () Отклонение нулевой гипотезы означает принятие альтернативной () НО: Не отклонение нулевой гипотезы – это ещё не отклонение альтернативной!

Слайд 11
Описание слайда:
Типовой пример статистической задачи на проверку гипотез Средний срок выздоровления от некоторого заболевания – 20 дней. Для борьбы с заболеванием было разработано новое лекарство. Данные по его применению: n=64, ВОПРОС: Действительно ли новое лекарство влияет на срок выздоровления или эти различия случайны (попалась «везучая» выборка)? ПОСТАНОВКА ГИПОТЕЗ: H0: (мат.ожидание случайной величины «средний срок выздоровления после приёма нового лекарства» не отличается от 20, т.е. наблюдаемые различия носят случайный характер) H1: (различия не случайны, лекарство влияет на срок выздоровления) ДОПУСТИМ, ВЕРНА НУЛЕВАЯ ГИПОТЕЗА (в среднем, выборка из 64 человек выздоравливает за 20 дней даже после нового лекарства) Рассчитаем стандартную ошибку среднего: При условии соблюдения H0 случайная величина «средний срок выздоровления после приёма нового лекарства» имеет нормальное распределение с мат.ожиданием 20 и стандартным отклонением 0,5.

Слайд 12
Описание слайда:
Распределение сл.вел. «средний срок выздоровления после приёма нового лекарства» при условии принятия H0

Слайд 13
Описание слайда:
P-value (уровень значимости) Это вероятность наблюдения заданных отклонений (различий) при условии, что верна H0 (вероятность случайности заданного выборочного значения) Чем меньше, тем большее право имеем на отклонение H0 «Золотой стандарт» порогового уровня p-value – 0,05 (<0,05 – отклоняем H0 и принимаем H1, если ≥0,05 – оснований для отклонения H0 недостаточно!) Обычно двусторонний (вычисляем вероятность отклонения как в одну, так и в другую сторону) Статистические ошибки Ошибка первого рода – отклонили H0, хотя она была верна (выборочные данные были получены случайно) Последствия – получили ложно статистически значимый вывод. Возможный способ борьбы – уменьшить пороговое p-value (до 0,001, например). P-value – вероятность совершить ошибку первого рода. Ошибка второго рода – не отклонили H0, хотя она не была верна (верна H1). Последствия – не получили статистического вывода. Возможный способ борьбы – увеличить объём выборки.

Слайд 14
Описание слайда:
Чем чреваты маленькие выборки (n<30) Выборочные средние сильнее отклоняются от μ => нарушаются условия ЦПТ, т.е. нормальность распределения Выборочные стандартные отклонения хуже описывают истинные => не имеем права заменить истинное ст.отклонение на выборочное в формуле для вычисления стандартной ошибки среднего Что же делать? Заменить нормальное распределение для распределением Стьюдента (t-рас-е)

Слайд 15
Описание слайда:
Нормальное распределение vs распределение Стьюдента Вероятностные характеристики N постоянны – для t они зависят от k (k=n-1, так как, зная выборочное среднее, последнее значение тоже известно) Пример. Есть выборка с параметрами: H0: По нормальному распределению: По распределению Стьюдента: k (число степ.свободы)=25-1=24

Слайд 16
Описание слайда:
Сравнение средних – парный t-тест Постановка задачи. Есть две выборки: и - случайные величины => - тоже случайная величина. ЕСЛИ ВЕРНА НУЛЕВАЯ ГИПОТЕЗА, то она распределена с и (квадратный корень суммы квадратов стандартных ошибок средних) (т.к. , см. пред.презентацию) Это t-распределение с числом степеней свободы k = n1-1+n2-1=n1+n2-2 - величина, показывающая, сколько станд.отклонений укладывается в отклонение между с.в.и конст.

Слайд 17
Описание слайда:
Пример на сравнение средних Процесс денатурации ДНК (разрушения водородных связей между её цепями) зависит от температуры, которая может различаться у разных видов. В исследовании сравнивали температуру денатурации ДНК у двух биологических видов. ВОПРОС: Правда ли, что у вида 1 и вида 2 разная температура денатурации (являются ли различия статистически значимыми)? ФОРМУЛИРОВКА ГИПОТЕЗ: H0: H1: Рассчитаем t-значение: (разность между выб.средними отклонилась от разности между мат.ожиданиями на 2,53 стандартных отклонений)

Слайд 18
Описание слайда:
t-распределение c 38 степенями свободы

Слайд 19
Описание слайда:
Резюме (или что мы умеем делать из статистики) Строить доверительный интервал для среднего с исп-ем ЦПТ (например, ) для 95%-ного интервала) 2. Проверять гипотезу о соответствии мат.ожидания выборочного среднего числу с исп-ем свойств норм.распр-я и t-распр-я 3. Проводить t-тест и сравнивать средние двух выборок


Скачать презентацию на тему Математическая статистика (лекция 5) можно ниже:

Похожие презентации