СПО для Больших Данных – Большой Риск или Большая Выгода? презентация

Содержание

4. Происхождение Больших Данных
6. Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни
7. Традиционные платформы для аналитики
8. Что если Аналитика будет подобна Google ?
9. Новая Платформа для Аналитики Больших Данных
10. Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить
11. СУБД EMC Greenplum Массивно параллельная обработка данных - MPP
12. Open Source решения для Больших Данных Условно бесплатный доступ к коду
13. Open Source решения для Больших Данных Проект может затянуться Неверный расчет
14. Hadoop – open source среда для Больших Данных
15. Hadoop – проблемы масштабирования В среде с одним сервером нет проблем
16. Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание
17. Hadoop – проблемы масштабирования В случае сбоя, оставшаяся часть распределенной системы
18. Hadoop – проблемы масштабирования Успешная распределенная система должна эффективно управлять ресурсами
19. Hadoop – проблемы масштабирования Система должна обеспечивать эффективную синхронизацию между узлами
20. Архитектура Hadoop • HDFS - Hadoop Distributed File System • Hive – язык
21. Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для
22. Greenplum – это гибкость и выбор
23. Старые процессы бизнес-аналитики
24. Что если коллаборация аналитиков станет подобна Facebook?
25. Новые процессы аналитики
26. Greenplum Chorus
27. Организации должны измениться
28. Превратившись в команду
29. MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых
30. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для
31. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для
32. Гибкая аналитика это …
33. На основе ПО EMC Greenplum
34. ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода,
36. Скачать презентацию

Презентации» Образование» СПО для Больших Данных – Большой Риск или Большая Выгода?

СПО для Больших Данных – Большой Риск или Большая Выгода?
Денис

Феномен Больших Данных
На порядки больше, чем в традиционных СУБД
Сотни

Что если Аналитика будет подобна Google ?

Новая Платформа для Аналитики Больших Данных

Зачем Вам параллельные вычисления?
Потому что закон Мура не помогает решить

СУБД EMC Greenplum
Массивно параллельная обработка данных - MPP

Open Source решения для Больших Данных
Условно бесплатный доступ к коду

Open Source решения для Больших Данных
Проект может затянуться
Неверный расчет

Hadoop – open source среда для Больших Данных

Hadoop – проблемы масштабирования
В среде с одним сервером нет проблем

Hadoop – проблемы масштабирования
Частичный или полный отказ внутренней сети
Запаздывание

Hadoop – проблемы масштабирования
В случае сбоя, оставшаяся часть распределенной системы

Hadoop – проблемы масштабирования
Успешная распределенная система должна эффективно управлять ресурсами

Hadoop – проблемы масштабирования
Система должна обеспечивать эффективную синхронизацию между узлами

Архитектура Hadoop
• HDFS - Hadoop Distributed File System
• Hive – язык

Hadoop на EMC Greenplum
Open Source разработка
Масштабная распределенная инфраструктура для

Что если коллаборация аналитиков станет подобна Facebook?

MADlib – еще одна возможность для СПО сообщества
Библиотека встраиваемых

MADlib - возможность для СПО сообщества
Библиотека встраиваемых функций для

ИТОГИ
Использование СПО для Больших Данных это не только Большая Выгода,

Слайды и текст этой презентации

Слайд 1

Описание слайда:

СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов

Слайд 2

Описание слайда:

Слайд 3

Описание слайда:

Слайд 4

Описание слайда:

Происхождение Больших Данных

Слайд 5

Описание слайда:

Слайд 6

Описание слайда:

Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно масштабируемый кластер распределенная файловая система

Слайд 7

Описание слайда:

Традиционные платформы для аналитики

Слайд 8

Описание слайда:

Что если Аналитика будет подобна Google ?

Слайд 9

Описание слайда:

Новая Платформа для Аналитики Больших Данных

Слайд 10

Описание слайда:

Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить проблему!

Слайд 11

Описание слайда:

СУБД EMC Greenplum Массивно параллельная обработка данных - MPP

Слайд 12

Описание слайда:

Open Source решения для Больших Данных Условно бесплатный доступ к коду Возможность модификации под свои нужды Больше возможностей разработки Экспертиза сообщества СПО Быстрая отладка кода

Слайд 13

Описание слайда:

Open Source решения для Больших Данных Проект может затянуться Неверный расчет ресурсов/людей/денег Срыв проекта под одного заказчика Резкая смена конъюнктуры рынка Невозможность внедрения в корпоративной среде

Слайд 14

Описание слайда:

Hadoop – open source среда для Больших Данных

Слайд 15

Описание слайда:

Hadoop – проблемы масштабирования В среде с одним сервером нет проблем обработки аппаратного отказа  Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов P1/n=1-(1-P1)^N=N*P1

Слайд 16

Описание слайда:

Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд

Слайд 17

Описание слайда:

Hadoop – проблемы масштабирования В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев

Слайд 18

Описание слайда:

Hadoop – проблемы масштабирования Успешная распределенная система должна эффективно управлять ресурсами разных узлов: Процессорной мощностью Оперативной памятью Местом на жестких дисках Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям.

Слайд 19

Описание слайда:

Hadoop – проблемы масштабирования Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом

Слайд 20

Описание слайда:

Архитектура Hadoop • HDFS - Hadoop Distributed File System • Hive – язык запросов к данным в распределенном хранилище данных на базе HDFS • Pig – язык параллельной обработки данных в среде MapReduce • Hbase – база данных Hadoop с линейной и распределенной масштабируемостью • Zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий

Слайд 21

Описание слайда:

Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными http://greenplum.org

Слайд 22

Описание слайда:

Greenplum – это гибкость и выбор

Слайд 23

Описание слайда:

Старые процессы бизнес-аналитики

Слайд 24

Описание слайда:

Что если коллаборация аналитиков станет подобна Facebook?

Слайд 25

Описание слайда:

Новые процессы аналитики

Слайд 26

Описание слайда:

Greenplum Chorus

Слайд 27

Описание слайда:

Организации должны измениться

Слайд 28

Описание слайда:

Превратившись в команду

Слайд 29

Описание слайда:

MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых функций для аналитики Greenplum

Слайд 30

Описание слайда:

MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики

Слайд 31

Описание слайда:

MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики

Слайд 32

Описание слайда:

Гибкая аналитика это …

Слайд 33

Описание слайда:

На основе ПО EMC Greenplum

Слайд 34

Описание слайда:

ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу Архитектурная надежность Параллельная обработка Масштабируемость Возможность поддержки корпоративного класса Возможность предварительно протестировать EMC предлагает Open Source сообществу: Greenplum – СУБД и платформа для Больших Данных Hadoop – платформу для неструктурированных Данных Chorus – платформа для коллаборации аналитиков MADLib - набор встроенных аналитических функций

Слайд 35

Описание слайда:

Скачать презентацию на тему СПО для Больших Данных – Большой Риск или Большая Выгода? можно ниже: