СПО для Больших Данных – Большой Риск или Большая Выгода? презентация

Содержание


Презентации» Образование» СПО для Больших Данных – Большой Риск или Большая Выгода?
СПО для Больших Данных – Большой Риск или Большая Выгода?
 ДенисПроисхождение Больших ДанныхФеномен Больших Данных
 На порядки больше, чем в традиционных СУБД
 СотниТрадиционные платформы для аналитикиЧто если Аналитика будет подобна Google ?Новая Платформа для Аналитики Больших ДанныхЗачем Вам параллельные вычисления?
 Потому что закон Мура не помогает решитьСУБД EMC Greenplum
 Массивно параллельная обработка данных - MPPOpen Source решения для Больших Данных
 Условно бесплатный доступ к коду
Open Source решения для Больших Данных
 Проект может затянуться
 Неверный расчетHadoop – open source среда для Больших ДанныхHadoop – проблемы масштабирования
 В среде с одним сервером нет проблемHadoop – проблемы масштабирования
 Частичный или полный отказ внутренней сети
 ЗапаздываниеHadoop – проблемы масштабирования
 В случае сбоя, оставшаяся часть распределенной системыHadoop – проблемы масштабирования
 Успешная распределенная система должна эффективно управлять ресурсамиHadoop – проблемы масштабирования
 Система должна обеспечивать эффективную синхронизацию между узламиАрхитектура Hadoop
 •	HDFS - Hadoop Distributed File System
 •	Hive – языкHadoop на EMC Greenplum
 Open Source разработка
 Масштабная распределенная инфраструктура дляGreenplum – это гибкость и выборСтарые процессы бизнес-аналитикиЧто если коллаборация аналитиков станет подобна Facebook?Новые процессы аналитикиGreenplum ChorusОрганизации должны изменитьсяПревратившись в командуMADlib – еще одна возможность для СПО сообщества 
 Библиотека встраиваемыхMADlib - возможность для СПО сообщества 
 Библиотека встраиваемых функций дляMADlib - возможность для СПО сообщества 
 Библиотека встраиваемых функций дляГибкая аналитика это …На основе  ПО EMC GreenplumИТОГИ
 Использование СПО для Больших Данных это не только Большая Выгода,



Слайды и текст этой презентации
Слайд 1
Описание слайда:
СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов


Слайд 2
Описание слайда:

Слайд 3
Описание слайда:

Слайд 4
Описание слайда:
Происхождение Больших Данных

Слайд 5
Описание слайда:

Слайд 6
Описание слайда:
Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно масштабируемый кластер распределенная файловая система

Слайд 7
Описание слайда:
Традиционные платформы для аналитики

Слайд 8
Описание слайда:
Что если Аналитика будет подобна Google ?

Слайд 9
Описание слайда:
Новая Платформа для Аналитики Больших Данных

Слайд 10
Описание слайда:
Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить проблему!

Слайд 11
Описание слайда:
СУБД EMC Greenplum Массивно параллельная обработка данных - MPP

Слайд 12
Описание слайда:
Open Source решения для Больших Данных Условно бесплатный доступ к коду Возможность модификации под свои нужды Больше возможностей разработки Экспертиза сообщества СПО Быстрая отладка кода

Слайд 13
Описание слайда:
Open Source решения для Больших Данных Проект может затянуться Неверный расчет ресурсов/людей/денег Срыв проекта под одного заказчика Резкая смена конъюнктуры рынка Невозможность внедрения в корпоративной среде

Слайд 14
Описание слайда:
Hadoop – open source среда для Больших Данных

Слайд 15
Описание слайда:
Hadoop – проблемы масштабирования В среде с одним сервером нет проблем обработки аппаратного отказа  Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов P1/n=1-(1-P1)^N=N*P1

Слайд 16
Описание слайда:
Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд

Слайд 17
Описание слайда:
Hadoop – проблемы масштабирования В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев

Слайд 18
Описание слайда:
Hadoop – проблемы масштабирования Успешная распределенная система должна эффективно управлять ресурсами разных узлов: Процессорной мощностью Оперативной памятью Местом на жестких дисках Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям.

Слайд 19
Описание слайда:
Hadoop – проблемы масштабирования Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом

Слайд 20
Описание слайда:
Архитектура Hadoop • HDFS - Hadoop Distributed File System • Hive – язык запросов к данным в распределенном хранилище данных на базе HDFS • Pig – язык параллельной обработки данных в среде MapReduce • Hbase – база данных Hadoop с линейной и распределенной масштабируемостью • Zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий

Слайд 21
Описание слайда:
Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными http://greenplum.org

Слайд 22
Описание слайда:
Greenplum – это гибкость и выбор

Слайд 23
Описание слайда:
Старые процессы бизнес-аналитики

Слайд 24
Описание слайда:
Что если коллаборация аналитиков станет подобна Facebook?

Слайд 25
Описание слайда:
Новые процессы аналитики

Слайд 26
Описание слайда:
Greenplum Chorus

Слайд 27
Описание слайда:
Организации должны измениться

Слайд 28
Описание слайда:
Превратившись в команду

Слайд 29
Описание слайда:
MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых функций для аналитики Greenplum

Слайд 30
Описание слайда:
MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики

Слайд 31
Описание слайда:
MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики

Слайд 32
Описание слайда:
Гибкая аналитика это …

Слайд 33
Описание слайда:
На основе ПО EMC Greenplum

Слайд 34
Описание слайда:
ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу Архитектурная надежность Параллельная обработка Масштабируемость Возможность поддержки корпоративного класса Возможность предварительно протестировать EMC предлагает Open Source сообществу: Greenplum – СУБД и платформа для Больших Данных Hadoop – платформу для неструктурированных Данных Chorus – платформа для коллаборации аналитиков MADLib - набор встроенных аналитических функций

Слайд 35
Описание слайда:


Скачать презентацию на тему СПО для Больших Данных – Большой Риск или Большая Выгода? можно ниже:

Похожие презентации