Методы многомерной калибровки: PCR/PLS. Многомерная калибровка Multivariate Calibration презентация

Содержание


Презентации» Информатика» Методы многомерной калибровки: PCR/PLS. Многомерная калибровка Multivariate Calibration
Проекционные методы в линейном регрессионном анализе: PCR-PLS
 Андрей Богомолов
 Российское хемометрическоеТема лекцииК вопросу о русской терминологии
 родной язык хемометрики - английский
 терминологияРегрессионный анализ
 линейная регрессия 
 Y = XB + E
 МГКСпектроскопические данныеРегрессия & Калибровка
 “Regression is an approach for relating two setsДля чего нужна калибровка?
 замена прямого измерения интересующего свойства, измерением другого,Примеры из различных областей
 ХИМИЯ: калибровка – инструмент №1 количественного анализа
Одномерная калибровка:  один компонентОдномерная калибровка:  многокомпонентная смесьМногомерная калибровкаПреимущества многомерной калибровки
 возможность анализировать несколько компонентов одновременно
 выигрыш в точностиКалибровка и предсказаниеКлассические и инверсные методы
 Два основных подхода в многомерной калибровке: 
Множественная линейная регрессия (МЛР)Недостатки МЛР
 МЛР может не сработать, если:
 высока коллинеарность в XПример спектральных данных: полиароматические углеводородыМЛР-калибровкаМГК (PCA) - оружие против коллинеарности
   Метод главных компонент,Концепция PCA «на пальцах»PCA + MLR = PCR !
 В результате РГК (PCA):
 ПроисходитСхема РГК (PCR) – подробнееИнтерпретация РГК-модели
 интерпретация модели служит для изучения внутренней структуры данных:
 Группы
Строим РГК-модель (Simdata)Проверка (валидация) модели
 проверка (Validation) модели служит для:
 Определения размерности моделиRMSEP
 RMSEС = Root Mean Square Error of Calibration
 RMSEP =Оценка числа компонент в РГК
 правильный выбор числа главных компонент -Число компонент (Simdata)Оценка числа ГК в РГК: особенности
 число ГК (размерность модели) определяетсяНесовершенства РГК
 РГК - мощный метод многомерной калибровки
 имеет безусловные преимуществаФакторные пространства
 существует бесконечное множество способов декомпозиции данных вида
 	D =PLS – мощная альтернатива PCR
 Метод проекции на латентные структуры (ПЛС)ПЛС-регрессия:  схематическое представление
 ПЛС-декомпозиция затрагивает обе матрицы X и Y
Две разновидности ПЛС:  ПЛС1 и ПЛС2
 существуют две популярных разновидностиОсновы алгоритма ПЛС
 ПЛС-декомпозиция производится алгоримом NIPALS
 NIPALS = Non-linear IterativeNIPALS алгоритм для ПЛС2NIPALS алгоритм для ПЛС1NIPALS алгоритм для ПЛС1Предсказание по ПЛС-моделиПЛС1 и ПЛС2
 ПЛС1 моделирует только одну переменную y «за раз»
Строим ПЛС2-модель (Simdata)Интерпретация ПЛС-моделей структура X (Simdata)Интерпретация ПЛС-моделей: связь X и Y (Simdata) 
 	Интерпретация модели служитИнтерпретация ПЛС-модели: выбросы (Octane)Проверка ПЛС-моделей
 	Проверка (Validation) модели преследует две основные цели:
 Оценка предсказательнойСравнение моделей (Simdata)
 вывод: модели РГК, ПЛС1-Р, ПЛС2-Р примерно одинково хорошиСравнение методов калибровки
 MLR плохо пригоден для спектроскопических данных
 PCR имеетПредсказание: диагностика соответствия новых образцов
 с построением калибровочной модели проблемы ещеДиагностика предсказания (Simdata)Принципы построения «хорошей» калибровки
 правильно приготовить (собрать) образцы
 визуально изучить данные,План семинара
 Пример 1. Концентрационная калибровка трехкомпонентной смеси ПАУ по спектрамРекомендуемая литература
 Richard Kramer 
 	Chemometric Tchniques for Quantitative Analysis *
Пример 1:  Калибровка смеси ПАУПример 2: Определение октанового числа бензинаПример 3: Качество пшеницы



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Проекционные методы в линейном регрессионном анализе: PCR-PLS Андрей Богомолов Российское хемометрическое общество


Слайд 2
Описание слайда:
Тема лекции

Слайд 3
Описание слайда:
К вопросу о русской терминологии родной язык хемометрики - английский терминология за 30 лет устоялась: статьи, учебники, книги, конференции устоявшиеся аббревиатуры: PCA, PCR, PLS, SIMCA, RMSEP, etc. - не нуждаются в расшифровке русская терминология создается сейчас почему нужен перевод? в настоящей лекции - параллельная терминология

Слайд 4
Описание слайда:
Регрессионный анализ линейная регрессия Y = XB + E МГК - моделирование (X) Регрессия - моделирование (X,Y)

Слайд 5
Описание слайда:
Спектроскопические данные

Слайд 6
Описание слайда:
Регрессия & Калибровка “Regression is an approach for relating two sets of variables to each other” Kim Esbensen “Calibration is a process of constructing a mathematical model to relate the output of an instrument to properties of samples” Kenneth Beebe Калибровка ~ Регрессия

Слайд 7
Описание слайда:
Для чего нужна калибровка? замена прямого измерения интересующего свойства, измерением другого, коррелирующего с первым такая потребность возникает если прямое измерение интересующего свойства нежелательно: дорого трудоемко занимает много времени этически нежелательно эксперимент невозможен, и т. п. в подавляющем числе практических ситуаций такая замена оправдана!

Слайд 8
Описание слайда:
Примеры из различных областей ХИМИЯ: калибровка – инструмент №1 количественного анализа БИОЛОГИЯ: непосредственный анализ может быть губителен для живых существ МЕДИЦИНА: неинвазивный анализ, например, определение сахара в крови спектроскопически (ближний ИК) ПСИХОЛОГИЯ: анализ личности может потребовать длительных наблюдений, желательно использовать косвенные данные СОЦИОЛОГИЯ и ФИНАНСЫ: предсказание может быть основано только на исторических данных

Слайд 9
Описание слайда:
Одномерная калибровка: один компонент

Слайд 10
Описание слайда:
Одномерная калибровка: многокомпонентная смесь

Слайд 11
Описание слайда:
Многомерная калибровка

Слайд 12
Описание слайда:
Преимущества многомерной калибровки возможность анализировать несколько компонентов одновременно выигрыш в точности от усреднения при использования «избыточных», в т.ч. сильно коррелирующих измерений (спектры); возможность диагностики «плохих» образцов в процессе предсказания «парадигматический сдвиг» в подходах к решению проблем (например, NIR)

Слайд 13
Описание слайда:
Калибровка и предсказание

Слайд 14
Описание слайда:
Классические и инверсные методы Два основных подхода в многомерной калибровке: Классический МНК (Classical Least Squares, CLS) основан на прямом решении уравнения Бугера-Ламберта-Бера A = Cε | X = Yε Инверсный МНК (Inverse Least Squares, ILS) решают уравнение вида С = Ab | Y = Xb В настоящей лекции – только ILS

Слайд 15
Описание слайда:
Множественная линейная регрессия (МЛР)

Слайд 16
Описание слайда:
Недостатки МЛР МЛР может не сработать, если: высока коллинеарность в X (спектры) неустойчивое решение для коллинеарных даных обусловлено преобразованием (XT X)-1 XT высокий уровень шума, ошибки в X переменных больше, чем образцов (типично для спектральных данных) есть линейная зависимость между переменными внутри X визуальная интерпретация МЛР-моделей затруднительна

Слайд 17
Описание слайда:
Пример спектральных данных: полиароматические углеводороды

Слайд 18
Описание слайда:
МЛР-калибровка

Слайд 19
Описание слайда:
МГК (PCA) - оружие против коллинеарности Метод главных компонент, МГК (Principle Component Analysis, PCA) преобразует данные, проецируя их в пространство ГК

Слайд 20
Описание слайда:
Концепция PCA «на пальцах»

Слайд 21
Описание слайда:
PCA + MLR = PCR ! В результате РГК (PCA): Происходит компрессия данных уменьшается размерность данных коллинеарность обращается во благо; уменьшается ошибка; РГК-нагрузки (PCA-scores) T ортогональны содержат информацию о концентрациях компонентов T можно использовать для построения MLR-модели, вместо X; этот метод называется… регрессия на главные компоненты, РГК (Principal Component Regression, PCR)

Слайд 22
Описание слайда:
Схема РГК (PCR) – подробнее

Слайд 23
Описание слайда:
Интерпретация РГК-модели интерпретация модели служит для изучения внутренней структуры данных: Группы Выбросы Связь между X и Y инструменты диагностики МГК (PCA) работают в РГК (PCR): График счетов (Scores) График нагрузок (Loadings) График счетов и нагрузок вместе (Bi-plot) График остатков (Residuals) инструменты диагностики РГК: Совместный график нагрузок X и Y

Слайд 24
Описание слайда:
Строим РГК-модель (Simdata)

Слайд 25
Описание слайда:
Проверка (валидация) модели проверка (Validation) модели служит для: Определения размерности модели (числа ГК) Оценки предсказательной способности модели проверка модели производится с помощью тестовых данных: того же диапазона и того же качества что обущающие данные (та же генеральная выборка) достаточно представительные или кросс-валидации (Cross-Validation) Полная Сегментная

Слайд 26
Описание слайда:
RMSEP RMSEС = Root Mean Square Error of Calibration RMSEP = Root Mean Square Error of Prediction минимум на кривой RMSEP - основной индикатор числа ГК RMSEP - оценка точности в единицах измерения! RMSEP используется для сравнения моделей

Слайд 27
Описание слайда:
Оценка числа компонент в РГК правильный выбор числа главных компонент - ключевая проблема многомерной калибровки модель с недостаточным числом ГК (underfitting) не использует всей полезной информации из данных модель с избыточным числом ГК (overfitting) начинает моделировать шум (ошибку) нужно найти оптимальную размерность модели это помогают сделать тестовые данные

Слайд 28
Описание слайда:
Число компонент (Simdata)

Слайд 29
Описание слайда:
Оценка числа ГК в РГК: особенности число ГК (размерность модели) определяется нуждами калибровки, и не обязательно совпадает с результатом МГК активно используется тестовые данные (Test Set) RMSEP = Root Mean Square Error of Prediction минимум на кривой RMSEP - основной индикатор числа ГК для спектральных данных показательной может быть форма X-нагрузок (X-loadings) решение всегда за экспертом!

Слайд 30
Описание слайда:
Несовершенства РГК РГК - мощный метод многомерной калибровки имеет безусловные преимущества перед MLR однако, не вполне оптимизирован для калибровки пространство ГК оптимально для моделирования внутренней структуры данных матрицы X, но не учитывает структуры Y и связи между X и Y можно ли учесть эту связь при построении проекционной модели? да, использовать PLS!

Слайд 31
Описание слайда:
Факторные пространства существует бесконечное множество способов декомпозиции данных вида D = TPT + E парные вектора в T и P называются факторами (factors), а преобразование - проекцией данных на факторное пространство (factor space) или факторной компрессией пространство главных компонент один из наиболее важных вариантов факторного пространства для задания факторного пространства нужен критерий, например, МГК (PCA) использует критерий максимальной остаточной дисперсии

Слайд 32
Описание слайда:
PLS – мощная альтернатива PCR Метод проекции на латентные структуры (ПЛС) и ПЛС-регрессия (ПЛС-Р) PLS = Partial Least Squares -> Projection on Latent Structures ПЛС-пространство создается при участии двух переменных X и Y одновременно; критерием является моделирование той структуры (информации) в X, которая имеет корреляцию с Y например, спектральные полосы (X), которые отвечают за концентрацию компонента(ов), заданные в Y ПЛС-модель специально оптимизирована для регрессионного анализа

Слайд 33
Описание слайда:
ПЛС-регрессия: схематическое представление ПЛС-декомпозиция затрагивает обе матрицы X и Y в результате - 2 набора счетов (scores) и нагрузок (loadings) плюс дополнительная матрица взвешенных нагрузок W (loading-weights) критерий: максимальная ковариация между T и U

Слайд 34
Описание слайда:
Две разновидности ПЛС: ПЛС1 и ПЛС2 существуют две популярных разновидности ПЛС: ПЛС1 (PLS1) и ПЛС2 (PLS2) ПЛС1 модель строится для единственной переменной Y (аналогия с МЛР), например, для концентрации одного компонента смеси если нужна калибровка по нескольким компонентам, строится несколько независимых моделей ПЛС2 рассчитывается для нескольких компонентов одновременно расчетные алгоритмы методов отличаются соответственно

Слайд 35
Описание слайда:
Основы алгоритма ПЛС ПЛС-декомпозиция производится алгоримом NIPALS NIPALS = Non-linear Iterative Partial Least Squares факторы находятся по очереди, один за другим, расчет всех факторов (как в SVD) не обязателен итерационная замена векторов uf -> tf и uf -> tf для нахождения текущего фактора f - алгоритмическая основа ПЛС алгоритм работает до выполнения критерия сходимости детальное изучение алгоритмов не входит в задачу данной лекции, однако… ознакомимся с основными шагами на примере ПЛС2

Слайд 36
Описание слайда:
NIPALS алгоритм для ПЛС2

Слайд 37
Описание слайда:
NIPALS алгоритм для ПЛС1

Слайд 38
Описание слайда:
NIPALS алгоритм для ПЛС1

Слайд 39
Описание слайда:
Предсказание по ПЛС-модели

Слайд 40
Описание слайда:
ПЛС1 и ПЛС2 ПЛС1 моделирует только одну переменную y «за раз» в этом смысле ПЛС2 кажется гибче при калибровке нескольких свойств, позволяя моделировать любую комбинацию переменных без их разделения - совместно однако, ПЛС1 дает по отдельной модели на каждое из интересующих свойств, возможно, с различным числом факторов не будет ли набор независимых моделей всегда лучшим решением? однозначного ответа пока нет… сравним методы на практике!

Слайд 41
Описание слайда:
Строим ПЛС2-модель (Simdata)

Слайд 42
Описание слайда:
Интерпретация ПЛС-моделей структура X (Simdata)

Слайд 43
Описание слайда:
Интерпретация ПЛС-моделей: связь X и Y (Simdata) Интерпретация модели служит для изучения внутренней структуры данных Сходство с РГК (PCR): X-счета и нагрузки (scores & loadings) Особенности: график t – u : метод обнаружения выбросов (outliers) графики нагрузок w – w : карта переменных cравнение двух X-нагрузок p – w : насколько Y повлияла на декомпозицию X график w – q

Слайд 44
Описание слайда:
Интерпретация ПЛС-модели: выбросы (Octane)

Слайд 45
Описание слайда:
Проверка ПЛС-моделей Проверка (Validation) модели преследует две основные цели: Оценка предсказательной способности модели: График “предсказанние относительно измерения” (Predicted vs Measured) RMSEP Определение оптимального числа компонент Меньше факторов чем в РГК Минимум RMSEP

Слайд 46
Описание слайда:
Сравнение моделей (Simdata) вывод: модели РГК, ПЛС1-Р, ПЛС2-Р примерно одинково хороши для калибровки этих данных (без осложнений) результаты МЛР значительно хуже, для [C3] - неудовлетворительные

Слайд 47
Описание слайда:
Сравнение методов калибровки MLR плохо пригоден для спектроскопических данных PCR имеет недостатки, но хорошо работает при отсутствии осложнений PLS является лучшим решением для большинства практических задач PLS1 или PLS2? Как выбрать метод? – пробовать! Как сравнивать разные модели? RMSEP

Слайд 48
Описание слайда:
Предсказание: диагностика соответствия новых образцов с построением калибровочной модели проблемы еще не кончаются возможность выявления образцов, несоответствующих данной регрессионной модели является одним из преимуществ многомерного подхода в калибровке Deviation - эмпирический параметр, характеризующий меру соответствия нового образца калибровочной модели рассмотрим наш пример…

Слайд 49
Описание слайда:
Диагностика предсказания (Simdata)

Слайд 50
Описание слайда:
Принципы построения «хорошей» калибровки правильно приготовить (собрать) образцы визуально изучить данные, если необходимо, применить предварительную обработку данных (preprocessing) если необходимо применить шкалирование/ взвешивание (scaling/weighting) интерпретировать модель, изучить структуру данных, выявить и удалить возможные выбросы тщательно оценить размерность модели, диагностировать модель диагностировать предсказание

Слайд 51
Описание слайда:
План семинара Пример 1. Концентрационная калибровка трехкомпонентной смеси ПАУ по спектрам в УФ-видимой области (искусственные данные). общие навыки калибровки, интерпретации и диагностики модели, предсказания на «идеальных» данных Пример 2. Определение октанового числа топлива по спектрам ближнего ИК. калибровка на реальных данных, обнаружение и удаление выбросов Пример 3. Качество пшеницы (факультативно). самостоятельное построение калибровки, MSC, выбор переменных

Слайд 52
Описание слайда:
Рекомендуемая литература Richard Kramer Chemometric Tchniques for Quantitative Analysis * Kim H. Esbensen Multivariate Data Analysis - in Practice ** Kenneth R. Beebee et al. Chemometrics: a Practical Guide ** Harald Martens, Tormod Naes Multivariate Calibration ** Richard G. Brereton Chemometrics: Data Analysis for the Laboratory and Chemical Plant *** Edmund R. Malinowski Factor Analysis in Chemistry ****

Слайд 53
Описание слайда:
Пример 1: Калибровка смеси ПАУ

Слайд 54
Описание слайда:
Пример 2: Определение октанового числа бензина

Слайд 55
Описание слайда:
Пример 3: Качество пшеницы


Скачать презентацию на тему Методы многомерной калибровки: PCR/PLS. Многомерная калибровка Multivariate Calibration можно ниже:

Похожие презентации