Математическая статистика (лекция 7) презентация

Содержание


Презентации» Математика» Математическая статистика (лекция 7)
Математические методы в биологии
 Блок 3. Математическая статистика
 Лекция 7Понятие корреляции
 Взаимосвязь между количественной и качественной переменной – t-test (еслиКоэффициент корреляции
 Это численный показатель, позволяющий определить:
 направление корреляции (положительная/отрицательная)
 еёПочему коэффициент корреляции варьирует на [-1;+1]? 
 Обозначим как A, аКоэффициент детерминации R2
 Это коэффициент корреляции в квадрате
 Всегда неотрицателен иСтатистическая значимость коэффициента корреляции Пирсона
 Есть две количественные переменные – XУсловия применения коэффициента корреляции Пирсона
 Характер взаимосвязи – прямолинейный и монотонный
Регрессионный анализ
 Позволяет не только ответить на вопрос, есть ли взаимосвязь,Как найти оптимальную линию регрессии, или метод наименьших квадратов (МНК)
 ЦелеваяУсловия применения линейной регрессии
 Линейная взаимосвязь X и Y (проверяется диаграммойПример задачи на линейную регрессию
 Исходные данные – социально-экономические показатели дляЕщё об интерпретацииНаконец, проверим требования к использованию линейной регрессии
 Линейная взаимосвязь
 Нормальное распределениеМножественная линейная регрессия
 Несколько предикторов, одна зависимая переменная
 Уравнение регрессии выглядитМножественная линейная регрессия на примере
 Загоним в нашу 
 предсказательную модель
Проверим мультиколлинеарность
 Корреляции независимых переменных между собой:
 Переменная female_house сильно коррелируетВведение в логистическую регрессию
 Интересный подвид регрессии, в которой зависимая переменнаяОт вероятности к логарифму шанса
 Шанс (odds) – отношение вероятности успехаКак подбирать коэффициенты логистической регрессии?
 Будем двигаться последовательно, и начнём сМодель с одним номинативным предиктором
 Теперь будем учитывать ещё и полЕсли независимая переменная - количественная
 ЗАДАЧА. Исследовать, как влияет средний баллСхема анализа количественных данных



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Математические методы в биологии Блок 3. Математическая статистика Лекция 7


Слайд 2
Описание слайда:
Понятие корреляции Взаимосвязь между количественной и качественной переменной – t-test (если качественная переменная представлена двумя градациями) или дисперсионный анализ + критерий Тьюки (если градаций больше) ВОПРОС: А как исследовать взаимосвязь между двумя количественными переменными? Например, между ростом и весом, между возрастом и IQ и т.п. Корреляция – статистическая взаимосвязь двух случайных величин. Бывает: Положительной Пример. Корреляция между ростом и весом Отрицательной Пример. Корреляция между возрастом и скоростью бега

Слайд 3
Описание слайда:
Коэффициент корреляции Это численный показатель, позволяющий определить: направление корреляции (положительная/отрицательная) её силу

Слайд 4
Описание слайда:
Почему коэффициент корреляции варьирует на [-1;+1]? Обозначим как A, а – как B: Согласно неравенству Коши-Буняковского, Отсюда , и, значит,

Слайд 5
Описание слайда:
Коэффициент детерминации R2 Это коэффициент корреляции в квадрате Всегда неотрицателен и варьирует на [0;1] R2 – часть изменчивости (дисперсии) переменной, обусловленная её взаимосвязью с другой переменной

Слайд 6
Описание слайда:
Статистическая значимость коэффициента корреляции Пирсона Есть две количественные переменные – X и Y. Объём выборки равен N. H0: μ(rXY)=0 H1: μ(rXY)≠0 Случайная величина rXY имеет t-распределение с числом степеней свободы N-2 (так как переменных две) => осталось рассчитать стандартную ошибку и можем найти уровень значимости (p-value) привычным способом. ВОПРОС: Всегда ли высокий коэф-т корреляции rXY (напр., 0,7) будет статистически значимым? ОТВЕТ: Нет, всё зависит от объёма выборки (числа степеней свободы)! Пусть N=50, rXY=0.7. . t=0.7/0.103=6.8 Пусть N=30, rXY=0.7. t=0.7/0.135=5.18 Пусть N=10, rXY=0.7. t=0.7/0.252=2.78 Для N=8 t-значение равно 2.4, и результат уже не статистически значим!

Слайд 7
Описание слайда:
Условия применения коэффициента корреляции Пирсона Характер взаимосвязи – прямолинейный и монотонный Проверка. Графически – построить диаграмму рассеяния Пример нелинейной взаимосвязи: Нормальность распределения X и Y (так как вся корреляция завязана на , и выбросы очень опасны)

Слайд 8
Описание слайда:
Регрессионный анализ Позволяет не только ответить на вопрос, есть ли взаимосвязь, но и описать, какая это взаимосвязь (построить модель взаимосвязи) Простейший случай – модель с одной зависимой переменной (Y) и одной независимой – предиктором (X). Обе переменных количественные. Неоценимое значение регрессионного анализа – возможность предсказать значение зависимой переменной по новому значению независимой, не участвовавшему в анализе. Её уравнение:

Слайд 9
Описание слайда:
Как найти оптимальную линию регрессии, или метод наименьших квадратов (МНК) Целевая функция – сумма квадратов остатков (разностей между фактическим и предсказанным значением зависимой переменной). Задача – минимизировать целевую функцию Те параметры линии регрессии b0 и b1, при которых целевая функция достигает своего минимума,- оптимальны и соответствуют уравнению прямой, наилучшим образом описывающей данные.

Слайд 10
Описание слайда:
Условия применения линейной регрессии Линейная взаимосвязь X и Y (проверяется диаграммой рассеяния) Нормальное распределение остатков Гомоскедастичность – постоянная изменчивость остатков на всех уровнях независимой переменной Всё хорошо: Всё плохо:

Слайд 11
Описание слайда:
Пример задачи на линейную регрессию Исходные данные – социально-экономические показатели для штатов США ВОПРОС: Связаны ли между собой (коррелируют ли) уровень образования с уровнем бедности? Независимая переменная – hs_grad, зависимая – poverty.

Слайд 12
Описание слайда:
Ещё об интерпретации

Слайд 13
Описание слайда:
Наконец, проверим требования к использованию линейной регрессии Линейная взаимосвязь Нормальное распределение остатков Гомоскедастичность – постоянная изменчивость остатков на всех уровнях независимой переменной

Слайд 14
Описание слайда:
Множественная линейная регрессия Несколько предикторов, одна зависимая переменная Уравнение регрессии выглядит так: При n=2 уравнение регрессии задаёт не прямую, а плоскость, а при n>2 привычным образом его вообще визуализировать нельзя  Чем больше коэффициент при xi, тем сильнее этот предиктор влияет на зависимую переменную ТРЕБОВАНИЯ: Линейная взаимосвязь Нормальное распределение остатков Гомоскедастичность остатков +Проверка на мультиколлинеарность (очень сильную взаимосвязь, корреляцию между какими-то из независимых переменных) +Нормальность распределения всех переменных (желательно)

Слайд 15
Описание слайда:
Множественная линейная регрессия на примере Загоним в нашу предсказательную модель для уровня бедности все оставшиеся переменные

Слайд 16
Описание слайда:
Проверим мультиколлинеарность Корреляции независимых переменных между собой: Переменная female_house сильно коррелирует с переменными white и hs_grad. Давайте удалим её из нашей модели!

Слайд 17
Описание слайда:
Введение в логистическую регрессию Интересный подвид регрессии, в которой зависимая переменная – номинативная (качественная) с двумя градациями, а независимые – количественные или качественные Пример. Как связаны между собой средний бал по предметам в школе (количественная переменная) с тем, поступил студент в университет или нет (номинативная с двумя градациями: «0» – «не поступил», «1» – «поступил»)? ВОПРОС: как примирить между собой левую и правую часть уравнения регрессии , ведь теперь у нас слева – номинативная, а справа – количественная переменная, варьирующая на (-∞; +∞)? ОТВЕТ: подменим номинативную переменную вероятностью положительного исхода (вероятностью сдачи экзамена, например)! ВОПРОС: а как теперь «сжать» область значений в правой части, чтобы (-∞; +∞) превратить в [0;1] (ведь так варьирует вероятность)? ОТВЕТ: Никак! Но это не повод расстраиваться, ведь наша регрессия не зря называется «логистической»…

Слайд 18
Описание слайда:
От вероятности к логарифму шанса Шанс (odds) – отношение вероятности успеха к вероятности неудачи Заметим, что шанс варьирует уже на [0;+∞]. А теперь рассчитаем натуральный логарифм шанса! Таким образом, теперь и в левой, и в правой части уравнения - действительные числа, варьирующие на (-∞;+∞). Более того, если ln(odds)<0 (т.е. odds <1), то вероятность неудачи выше вероятности успеха, а если ln(odds)>0, то вероятность успеха выше вероятности неудачи. ЗАДАЧА. Дано распределение слушателей курса по биоинформатике по полу и основной специальности. Рассчитать логарифм шанса, что случайный человек из этой выборки – биолог.

Слайд 19
Описание слайда:
Как подбирать коэффициенты логистической регрессии? Будем двигаться последовательно, и начнём с модели вовсе без предикторов (intercept-only model). В качестве тренировочного примера возьмём данные про пассажиров «Титаника» (714 наблюдений). Номинативные переменные: Выжил/нет (это будет зависимая переменная) Пол (мужчина/женщина) Класс каюты (1й класс/2й класс/3й класс)

Слайд 20
Описание слайда:
Модель с одним номинативным предиктором Теперь будем учитывать ещё и пол пассажира. Распределение пассажиров по полу и исходу пребывания на Титанике (таблица сопряжённости): Рассчитаем шанс выжить для мужчин и ываываываыаыаываыва женщин по отдельности: odds(male)=93/360=0,26 odds(female)=197/64=3,08 Их логарифмы: ln(odds(male))=-1,35 ln(odds(female))=1,12 Отношение шансов выжить для мужчин и женщин = 0,26/3,08=0,08 Его логарифм: ln(odds(male)/odds(female))=ln(odds(male))-ln(odds(female))=-2,47 Уравнение регрессии примет вид: ln(odds(survive))=1,12-2,47*Sex_male

Слайд 21
Описание слайда:
Если независимая переменная - количественная ЗАДАЧА. Исследовать, как влияет средний балл абитуриента в школе на вероятность его поступления в ВУЗ. Исходные данные – 400 наблюдений вида Коэффициенты уравнения регрессии:

Слайд 22
Описание слайда:
Схема анализа количественных данных


Скачать презентацию на тему Математическая статистика (лекция 7) можно ниже:

Похожие презентации