Пакет анализа «Регрессия». Теория и практические советы презентация

Содержание


Презентации» Информатика» Пакет анализа «Регрессия». Теория и практические советы
Пакет анализа «Регрессия»
 Теория и практические советыПро корреляцию & регрессию
 Задача корреляционного анализа – определение тесноты иУравнение регрессии -
 это форма связи результативного признака Y с факторамиПарная и множественная
 В зависимости от числа взаимосвязанных признаков различают парнуюЗадачи регрессионного анализа
 При помощи регрессионного анализа возможно решение задачи прогнозирования.Особенность и этапы регрессионного анализа
 Основная особенность регрессионного анализа: при егоЭтапы регрессионного анализа
 1. Задание аналитической формы уравнения регрессии и определениеЗачем
 Инструмент анализа "Регрессия" применяется для подбора параметров уравнения регрессии сОпределение функции и оценка неизвестных значений
 Определение функции регрессии.
 Вторая задачаПредположения РА
 Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.
 ПредположениеУравнение регрессии 
 Уравнение регрессии выглядит следующим образом: Y=a+b*X
 При помощиЭтап 1
 Уравнение множественной линейной регрессии
 где   – теоретическиеМНК
 Параметры уравнения регрессии могут быть определены с помощью метода наименьшихМНК
 Рассматривая S в качестве функции параметров    иЭтап 2
 Для определения величины степени стохастической взаимосвязи результативного признака YДисперсии 
 - факторную дисперсию результативного признака Y, отображающую влияние толькоСложение дисперсий 
 При корреляционной связи результативного признака и факторов выполняетсяКоэффициент детерминации
 Для анализа общего качества уравнения линейной многофакторной регрессии используютВеличина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. ЭтоF критерий
 Так как в большинстве случаев уравнение регрессии приходится строитьF критерий
 В математической статистике доказывается, что если гипотеза  
Ошибка аппроксимации
 Для оценки адекватности уравнения регрессии часто также используют показательЭтап 3 
 Возможна ситуация, когда часть вычисленных коэффициентов регрессии неt-критерий
 Для оценки адекватности уравнения регрессии часто также используют показатель среднейt-критерий
 В математической статистике доказывается, что если гипотеза  
 Границы доверительных интервалов
 Зная  значение     можноКоэффициент эластичности
 При экономической интерпретации уравнения регрессии также широко используются частныеТехнология работыРис. 14-1Подготовка данных для ввода
 К сожалению, пакет анализа данных принимает вПример массива, сформированного для ввода4-56
 6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.7-89-11Пример 14.1Табл. 14.1Что гдеРис. 14.2Анализ табл. 14-2Таблица 14.2Таблица 14.3Анализ табл.14-3Анализ табл.14-3 – часть 2Таблица 14.4Анализ табл.14-4Табл. 14.5Описание табл. 14-5Строим уравнение регрессииЗначимость коэффициента детерминацииЗначимость коэффициентов регрессииЗначимость коэффициентов регрессии - 2ВЫВОД ОСТАТКАПри помощи этой части отчета мы можем видеть отклонения каждой точкиИсходные данные и линия регрессии
 Рисунок 1Осталась нерассмотренной задача оценки неизвестных будущих значений зависимой переменной на основанииПрогнозВыводы 
 Таким образом, в результате использования регрессионного анализа в пакете



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Пакет анализа «Регрессия» Теория и практические советы


Слайд 2
Описание слайда:
Про корреляцию & регрессию Задача корреляционного анализа – определение тесноты и направления связи между изучаемыми величинами. В ходе регрессионного анализа определяется аналитическое выражение связи зависимой случайной величины Y (результативный признак) с независимыми случайными величинами Х1, Х2, …Хm (факторами).

Слайд 3
Описание слайда:
Уравнение регрессии - это форма связи результативного признака Y с факторами Х1, Х2, …Хm. В зависимости от типа выбранного уравнения различают линейную и нелинейную (квадратичную, экспоненциальную, логарифмическую и т.д.) регрессию.

Слайд 4
Описание слайда:
Парная и множественная В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Парная – исследуется связь между двумя признаками (результативным и факторным). Множественная (многофакторная) – между тремя признаками (результативным и несколькими факторными).

Слайд 5
Описание слайда:
Задачи регрессионного анализа При помощи регрессионного анализа возможно решение задачи прогнозирования. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Задачи регрессионного анализа Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной. Установление формы зависимости. Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии: положительная линейная регрессия (выражается в равномерном росте функции); положительная равноускоренно возрастающая регрессия; положительная равнозамедленно возрастающая регрессия; отрицательная линейная регрессия (выражается в равномерном падении функции); отрицательная равноускоренно убывающая регрессия; отрицательная равнозамедленно убывающая регрессия. Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Слайд 6
Описание слайда:
Особенность и этапы регрессионного анализа Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. Последовательность этапов регрессионного анализа Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений. Определение зависимых и независимых (объясняющих) переменных. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель. Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная). Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии) Оценка точности регрессионного анализа. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. Предсказание неизвестных значений зависимой переменной.

Слайд 7
Описание слайда:
Этапы регрессионного анализа 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

Слайд 8
Описание слайда:
Зачем Инструмент анализа "Регрессия" применяется для подбора параметров уравнения регрессии с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Можно вычислить степень влияния каждого из этих трех факторов по результатам выступления спортсмена, а затем использовать полученные данные для предсказания выступления другого спортсмена. Инструмент "Регрессия" использует функцию ЛИНЕЙН.

Слайд 9
Описание слайда:
Определение функции и оценка неизвестных значений Определение функции регрессии. Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа. Оценка неизвестных значений зависимой переменной. Решение этой задачи сводится к решению задачи одного из типов: Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции. Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции. Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Слайд 10
Описание слайда:
Предположения РА Рассмотрим некоторые предположения, на которые опирается регрессионный анализ. Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа. Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммами остатков. При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей. Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Слайд 11
Описание слайда:
Уравнение регрессии Уравнение регрессии выглядит следующим образом: Y=a+b*X При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом. В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой. Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения). Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис "Пакет анализа" и инструмент анализа "Регрессия". Задаем входные интервалы X и Y. Входной интервал Y - это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X - это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16. На выходе процедуры в выходном диапазоне получаем отчет, приведенный в следующих таблицах.

Слайд 12
Описание слайда:
Этап 1 Уравнение множественной линейной регрессии где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; – значения факторных признаков; – параметры уравнения (коэффициенты регрессии).

Слайд 13
Описание слайда:
МНК Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов, который используется в пакете анализа данных «Регрессия»: находятся параметры модели , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е. min.

Слайд 14
Описание слайда:
МНК Рассматривая S в качестве функции параметров и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ). Здесь n – число наблюдений, m – число факторов в уравнении регрессии. Решение системы позволяет получить значения параметров регрессии .

Слайд 15
Описание слайда:
Этап 2 Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов Х необходимо знать следующие дисперсии: - общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов: где - среднее значение результативного признака Y;

Слайд 16
Описание слайда:
Дисперсии - факторную дисперсию результативного признака Y, отображающую влияние только основных факторов: - остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:

Слайд 17
Описание слайда:
Сложение дисперсий При корреляционной связи результативного признака и факторов выполняется соотношение при этом

Слайд 18
Описание слайда:
Коэффициент детерминации Для анализа общего качества уравнения линейной многофакторной регрессии используют множественный коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Слайд 19
Описание слайда:
Величина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1]. В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей. Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата, близкое к нулю, означает плохое качество построенной модели. множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y). Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона.

Слайд 20
Описание слайда:
F критерий Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения данным генеральной совокупности. Для этого проводится проверка статистической значимости коэффициента детерминации на основе F-критерия Фишера: где n – число наблюдений; m – число факторов в уравнении регрессии. Если в уравнении регрессии свободный член 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m.

Слайд 21
Описание слайда:
F критерий В математической статистике доказывается, что если гипотеза выполняется, то величина F имеет F-распределение с k=m и i=n-m-1 числом степеней свободы, т.е. Гипотеза о незначимости коэффициента детерминации отвергается, если При значениях считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов Х.

Слайд 22
Описание слайда:
Ошибка аппроксимации Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации

Слайд 23
Описание слайда:
Этап 3 Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации включает также и проверку значимости каждого коэффициента регрессии.

Слайд 24
Описание слайда:
t-критерий Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации где - стандартное значение ошибки для коэффициента регрессии .

Слайд 25
Описание слайда:
t-критерий В математической статистике доказывается, что если гипотеза выполняется, то величина t имеет распределение Стьюдента с k=n-m-1 числом степеней свободы, т.е. Гипотеза о незначимости коэффициента регрессии отвергается, если

Слайд 26
Описание слайда:
Границы доверительных интервалов Зная значение можно найти границы доверительных интервалов для коэффициентов регрессии

Слайд 27
Описание слайда:
Коэффициент эластичности При экономической интерпретации уравнения регрессии также широко используются частные коэффициенты эластичности, показывающие , на сколько процентов в среднем изменится значение результативного признака при изменении значения соответствующего факторного признака на 1%, и определяемые по формуле где - среднее значение соответствующего факторного признака; - среднее значение результативного признака; - коэффициент регрессии при соответствующем факторном признаке.

Слайд 28
Описание слайда:
Технология работы

Слайд 29
Описание слайда:
Рис. 14-1

Слайд 30
Описание слайда:
Подготовка данных для ввода К сожалению, пакет анализа данных принимает в качестве входного интервала только данные, идущие подряд. Нельзя через точку с запятой перечислять массивы, находящиеся в разных местах файла. Кроме того, каждый показатель должен быть прописан по столбцам сверху вниз. Должно быть одинаковое количество значений в каждой вводимой переменной. Если необходимо вводить переменные текущего периода и лаговые, их следует выстроить на одинаковом уровне, а только подписать, где текущая переменная, а где лаговая. Пример входного массива дан на следующем слайде.

Слайд 31
Описание слайда:
Пример массива, сформированного для ввода

Слайд 32
Описание слайда:
4-5

Слайд 33
Описание слайда:
6 6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

Слайд 34
Описание слайда:
7-8

Слайд 35
Описание слайда:
9-11

Слайд 36
Описание слайда:
Пример 14.1

Слайд 37
Описание слайда:
Табл. 14.1

Слайд 38
Описание слайда:
Что где

Слайд 39
Описание слайда:
Рис. 14.2

Слайд 40
Описание слайда:
Анализ табл. 14-2

Слайд 41
Описание слайда:
Таблица 14.2

Слайд 42
Описание слайда:
Таблица 14.3

Слайд 43
Описание слайда:
Анализ табл.14-3

Слайд 44
Описание слайда:
Анализ табл.14-3 – часть 2

Слайд 45
Описание слайда:
Таблица 14.4

Слайд 46
Описание слайда:
Анализ табл.14-4

Слайд 47
Описание слайда:
Табл. 14.5

Слайд 48
Описание слайда:
Описание табл. 14-5

Слайд 49
Описание слайда:
Строим уравнение регрессии

Слайд 50
Описание слайда:
Значимость коэффициента детерминации

Слайд 51
Описание слайда:
Значимость коэффициентов регрессии

Слайд 52
Описание слайда:
Значимость коэффициентов регрессии - 2

Слайд 53
Описание слайда:
ВЫВОД ОСТАТКА

Слайд 54
Описание слайда:
При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в нашем случае - 0,778, наименьшее - 0,043. Для лучшей интерпретации этих данных воспользуемся графиком исходных данных и построенной линией регрессии, представленными на рисунке. Как видим, линия регрессии достаточно точно "подогнана" под значения исходных данных. Следует учитывать, что рассматриваемый пример является достаточно простым и далеко не всегда возможно качественное построение регрессионной прямой линейного вида.

Слайд 55
Описание слайда:
Исходные данные и линия регрессии Рисунок 1

Слайд 56
Описание слайда:
Осталась нерассмотренной задача оценки неизвестных будущих значений зависимой переменной на основании известных значений независимой переменной, т.е. задача прогнозирования. Имея уравнение регрессии, задача прогнозирования сводится к решению уравнения Y= x*2,305454545+2,694545455 с известными значениями x. Результаты прогнозирования зависимой переменной Y на шесть шагов вперед представлены в таблице 4.

Слайд 57
Описание слайда:
Прогноз

Слайд 58
Описание слайда:
Выводы Таким образом, в результате использования регрессионного анализа в пакете Microsoft Excel мы: построили уравнение регрессии; установили форму зависимости и направление связи между переменными - положительная линейная регрессия, которая выражается в равномерном росте функции; установили направление связи между переменными; оценили качество полученной регрессионной прямой; смогли увидеть отклонения расчетных данных от данных исходного набора; предсказали будущие значения зависимой переменной. Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью. Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.

Слайд 59
Описание слайда:


Скачать презентацию на тему Пакет анализа «Регрессия». Теория и практические советы можно ниже:

Похожие презентации