Связи между двумя переменными (лекция 9) презентация

Содержание


Презентации» Математика» Связи между двумя переменными (лекция 9)
Лекция 9. Связи между двумя переменными 
 Дмитриева Арина
 admitrieva@eu.spb.ru
 16Двумерные связи 
 Таблицы сопряженности 
 Корреляция и регрессияИсследовательская модель
 Будет ли назначено подсудимому реальный или условный срок вТаблица сопряженности
 Позволяет увидеть связи между двумя переменными 
 Номинальной иТаблица сопряженностиТаблица сопряженности, %
 В абсолютных цифрах таблица сопряженности неинформативнаТаблица сопряженности, %Таблица сопряженности между двумя порядковыми переменнымиГрафическое изображениеСвязь между двумя метрическими переменнымиПеременные 
 Sent – размер назначенного наказания (в разных единицах: штрафДиаграмма рассеивания (интервальные данные)Корреляция между двумя переменными
 Корреляция – наличие связи между двумя переменнымиКоэффициент корреляции Пирсона 
 Каково направление и сила связи между размеромФормула для коэффициента корреляции
 Корреляция – одно число, которое объясняет линейнуюХарактеристики корреляции
 Наклон: 
 положительная 
 отрицательная
 Сила: 
 сильная, 
Требования 
 Линейная связь между X и Y
 X и YКорреляцияРегрессионная линия
 Если точки на диаграмме рассеяния аппроксимируются прямой линией, тоПодгонка линии 
 Метод наименьших квадратовРегрессионный анализ
 Базовая модель линейной регрессии: 
  - точка пересеченияРегрессионная модель
 Метод наименьших квадратов:
 Регрессионный коэффициент:
 Пересечение с осью ординат:Предсказанная линия
 
 			 
 Остатки: 
 Сумма квадратов остатковРегрессионное уравнение 
 Регрессионное уравнение зависимости размера наказания от числа предыдущихСумма квадратов 
 Для проверки качества модели рассчитывают ряд стастик: 
R-квадрат 
 Какую долю разброса данных объясняет модель линейной регрессии?Интерпретация
 Корреляция не значит каузация (причинно-следственная связь) 
 X влияет наСвязь между метрической и категориальной переменнойДисперсионный анализ 
 Дисперсионный анализ позволяет ответить на вопрос, влияет лиСравнение средних
 Одинаков ли размер наказания для тех, у кого естьСравнение, используя ящичковую диаграмму
 graph box sent , over (dependants)Виды связей между переменнымиПрактическое занятие - 3Пропущенные значения (missing data) 
 Dealing with missing data: Key assumptionsСтандартизация показателей
 Z-стандартизация
 Позволяет сравнивать значения, измеренные в разных шкалах
 Например,Операция стандартизации
 Стандартизация – преобразование произвольного распределения с параметрами в нормальноеПравило «трех сигм»Создание таблиц сопряженности 
 tabout gravity education using table2.doc, append dpcommaПостроение гистограмм для двух категорий
 catplot sentsusp dependants , percent(dependants) blabel(bar,Построение корреляций
 Корреляция между двумя переменными
 cor sent episodes
 Все парныеРегрессионный анализ: этапы 
 Построить модель (что является зависимой переменной, чтоДиаграмма рассеяния
 Диаграмма рассеяния
 twoway (scatter sent priors_count)  
 РегрессионнаяВывод во внешний файл
 ssc install outreg2 
 outreg2 using regres1.doc,Описательные статистики для набора переменных 
 preserve
 keep(sent priors_count)
 outreg2 usingОтдельные описательные статистики (опция eqkeep)
 outreg2 using table3.doc, replace sum(log) keep(sentСредние для групп



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Лекция 9. Связи между двумя переменными Дмитриева Арина admitrieva@eu.spb.ru 16 ноября, 2016


Слайд 2
Описание слайда:
Двумерные связи Таблицы сопряженности Корреляция и регрессия

Слайд 3
Описание слайда:
Исследовательская модель Будет ли назначено подсудимому реальный или условный срок в зависимости от наличия детей

Слайд 4
Описание слайда:
Таблица сопряженности Позволяет увидеть связи между двумя переменными Номинальной и номинальной Номинальной и порядковой Порядковой и порядковой Таблица сопряженности (contingency table, cross-tab) – статистический метод, который отражает совместное распределение двух или больше переменных с ограниченным числом категорий

Слайд 5
Описание слайда:
Таблица сопряженности

Слайд 6
Описание слайда:
Таблица сопряженности, % В абсолютных цифрах таблица сопряженности неинформативна

Слайд 7
Описание слайда:
Таблица сопряженности, %

Слайд 8
Описание слайда:
Таблица сопряженности между двумя порядковыми переменными

Слайд 9
Описание слайда:
Графическое изображение

Слайд 10
Описание слайда:
Связь между двумя метрическими переменными

Слайд 11
Описание слайда:
Переменные Sent – размер назначенного наказания (в разных единицах: штраф – в рублях, исправительные работы или тюремное заключение – в годах и месяцах) Любая статья УК содержит информацию о нижней (lbound) и верхней (ubound) границе размера наказания Наказание может быть назначено: В пределах границ Ниже или выше границ

Слайд 12
Описание слайда:
Диаграмма рассеивания (интервальные данные)

Слайд 13
Описание слайда:
Корреляция между двумя переменными Корреляция – наличие связи между двумя переменными Эта связь может быть прямой и обратной Размер связи меняется от -1 до 1 Прямая связь: большему значению X соответствует большее значение Y Обратная: большему значению X соответствует меньшее значение Y Гальтон: корреляция роста родителей и детей Наиболее известен коэффициент линейной корреляции Пирсона r

Слайд 14
Описание слайда:
Коэффициент корреляции Пирсона Каково направление и сила связи между размером наказания и возрастом? Относятся ли судьи мягче к молодым подсудимым? Строже, чтобы «не повадно было впредь»? (гипотеза исправления и наказания)

Слайд 15
Описание слайда:
Формула для коэффициента корреляции Корреляция – одно число, которое объясняет линейную связь между двумя переменными Основная формула Корреляция – ковариация деленная на произведение соответствующих среднеквадратических отклонений

Слайд 16
Описание слайда:
Характеристики корреляции Наклон: положительная отрицательная Сила: сильная, слабая, совершенная Отсутствие корреляции Нелинейная корреляция

Слайд 17
Описание слайда:
Требования Линейная связь между X и Y X и Y являются метрическими переменными X и Y являются случайными величинами (выборка должна быть репрезентативна) X и Y распределены нормально (но при N>30 требования к распределению снижаются)

Слайд 18
Описание слайда:
Корреляция

Слайд 19
Описание слайда:
Регрессионная линия Если точки на диаграмме рассеяния аппроксимируются прямой линией, то мы имеем дело с линейной регрессионной моделью

Слайд 20
Описание слайда:
Подгонка линии Метод наименьших квадратов

Слайд 21
Описание слайда:
Регрессионный анализ Базовая модель линейной регрессии: - точка пересечения с осью Y (значение Y, когда X равен 0) - наклон регрессионной линии (изменение Y в ответ на изменение X на 1 единицу), коэффициент регрессии (математически: тангенс угла, образуемого регрессионной линией и осью X)

Слайд 22
Описание слайда:
Регрессионная модель Метод наименьших квадратов: Регрессионный коэффициент: Пересечение с осью ординат: Регрессионная линия всегда проходит через точку ) Связь между коэффициентом регрессии и коэффициентом корреляции

Слайд 23
Описание слайда:

Слайд 24
Описание слайда:
Предсказанная линия Остатки: Сумма квадратов остатков

Слайд 25
Описание слайда:

Слайд 26
Описание слайда:
Регрессионное уравнение Регрессионное уравнение зависимости размера наказания от числа предыдущих судимостей Какой срок дадут человеку с 3 судимостями? Человеку с 3 судимостями дадут больше срок, чем человеку с 2 судимостями? Насколько? Сколько дадут человеку без судимостей?

Слайд 27
Описание слайда:
Сумма квадратов Для проверки качества модели рассчитывают ряд стастик: – общая сумма квадратов отклонений зависимой переменной от ее среднего – объясненная регрессией сумма квадратов отклонений –сумма квадратов остатков

Слайд 28
Описание слайда:
R-квадрат Какую долю разброса данных объясняет модель линейной регрессии?

Слайд 29
Описание слайда:
Интерпретация Корреляция не значит каузация (причинно-следственная связь) X влияет на Y Y влияет на X Z влияет на X и Y Экстремальные значения могут сильно повлиять на построение модели

Слайд 30
Описание слайда:
Связь между метрической и категориальной переменной

Слайд 31
Описание слайда:
Дисперсионный анализ Дисперсионный анализ позволяет ответить на вопрос, влияет ли интересующая нас номинальная переменная (фактор) на количественную переменную (отклик) Сравниваются средние переменной отклика для каждой группы (фактора)

Слайд 32
Описание слайда:
Сравнение средних Одинаков ли размер наказания для тех, у кого есть иждивенцы и для тех, у кого нет?

Слайд 33
Описание слайда:
Сравнение, используя ящичковую диаграмму graph box sent , over (dependants)

Слайд 34
Описание слайда:
Виды связей между переменными

Слайд 35
Описание слайда:
Практическое занятие - 3

Слайд 36
Описание слайда:
Пропущенные значения (missing data) Dealing with missing data: Key assumptions and methods for applied analysis Marina Soley-Bori msoley@bu.edu

Слайд 37
Описание слайда:
Стандартизация показателей Z-стандартизация Позволяет сравнивать значения, измеренные в разных шкалах Например, при поступлении на PhD Петр подал результаты сдачи IELTS = 7,5 (Mean (IELTS) = 6,02, STD = 1,2) Вероника подала результаты сдачи TOEFL = 97 (mean = 85, STD = 18) У кого английский лучше?

Слайд 38
Описание слайда:
Операция стандартизации Стандартизация – преобразование произвольного распределения с параметрами в нормальное с параметрами (0,1) Стандартизация – смещение распределения и изменение его формы, чтобы оно стало стандартным

Слайд 39
Описание слайда:
Правило «трех сигм»

Слайд 40
Описание слайда:
Создание таблиц сопряженности tabout gravity education using table2.doc, append dpcomma cells (row) tabout gravity education using table2.doc, append dpcomma cells (row)

Слайд 41
Описание слайда:
Построение гистограмм для двух категорий catplot sentsusp dependants , percent(dependants) blabel(bar, position(outside) format(%3.1f)) ylabel(none) yscale(r(0,60)) ytitle("") subtitle("назначение вида наказани в зависимости от наличи иждивенцев") asyvars bar(1, bcolor(navy)) bar(2, bcolor(green))

Слайд 42
Описание слайда:
Построение корреляций Корреляция между двумя переменными cor sent episodes Все парные корреляции между набором переменных pwcorr sent episodes age

Слайд 43
Описание слайда:
Регрессионный анализ: этапы Построить модель (что является зависимой переменной, что независимой) Построить диаграмму рассеяния Построить описательные статистики для всех переменных, включенных в модель

Слайд 44
Описание слайда:
Диаграмма рассеяния Диаграмма рассеяния twoway (scatter sent priors_count) Регрессионная линия graph twoway lfit sent priors_count Диаграмма рассеяния и регрессионная линия на одном графике graph twoway (lfit sent priors_count) (scatter sent priors_count) ,

Слайд 45
Описание слайда:

Слайд 46
Описание слайда:

Слайд 47
Описание слайда:

Слайд 48
Описание слайда:
Вывод во внешний файл ssc install outreg2 outreg2 using regres1.doc, replace ctitle (“Модель 1") label addtext(Other controls , NO)

Слайд 49
Описание слайда:
Описательные статистики для набора переменных preserve keep(sent priors_count) outreg2 using table3.doc, replace sum(log) keep(sent priors_count)

Слайд 50
Описание слайда:
Отдельные описательные статистики (опция eqkeep) outreg2 using table3.doc, replace sum(log) keep(sent priors_count) eqkeep(N mean sd)

Слайд 51
Описание слайда:
Средние для групп


Скачать презентацию на тему Связи между двумя переменными (лекция 9) можно ниже:

Похожие презентации