[Dragonfly]
SRE (Site Reliability Engineering) platform as a Service
Платформа контроля IT-решений
#SRE (Site Reliability Engineering)
#Мониторинги #Автотесты
#DevOps #Kubernates #CI/CD
#SLI/SLO/SLA
IT решения ломаются
Зоопарк решений
Готовых IT-решений, удовлетворяющих всем требованиям бизнеса, как правило не существует. Как следствие, в рамках проекта внедрения выполняются доработки.
При внедрении IT-решения оно должно вписаться в текущий контур IT-решений компании. Т.е. дополнительно создаются интеграционные решения.
В результате контур IT-решений компаний, как правило, наполнен кастомными, проинтегрированными между собой решениями.
Поддерживать или развивать?
Для каждого внедренного IT решения есть 2 задачи:
- Поддерживать стабильность того, что выпустили.
- Улучшать решение, добавляя новые возможности.
Эти 2 задачи противоречат друг другу - чем больше нового кода добавляется в решение, тем сложнее оно становится и тем выше вероятность, что что-то сломается.
SRE best practices from Google
В 2016 году Google выпустила книгу SRE (Site Reliability Engineering).
Основные направления SRE:
  • Наблюдаемость: мониторинги + информинги. Цель: максимально оперативно (а еще лучше - заблаговременно) знать о проблеме.
  • Инструменты диагностики аварий. Цель: максимально быстро находить причину проблемы.
  • Автоматизация процедур восстановления. Цель: максимально быстро восстанавливать работоспособность.
  • Оцифровка инцидентов и культура PostMortem. Цель: извлекать уроки из проблем, чтобы они не повторялись.
  • Автотесты. Цель: максимально безопасный поток изменений на продакшен.
Статья на VC.RU про SRE
SRE (Site Reliability Engineering) на языке бизнеса
SRE - это культура работы с IT-решениями, которая с помощью улучшения процессов разработки и тестирования, а также за счет автоматизации позволяет сократить аварийное время, делая IT-решения более предсказуемыми и устойчивыми, а бизнес в результате - более успешным.

[Dragonfly] (SRE platform as a Service) - платформа,

с помощью которой внедрение SRE практик для ваших IT-решений пройдет максимально быстро.


При этом не важно какое у вас IT решение -

ecommerce площадка, 1C, CRM, WMS, или какие-то другие информационные системы.

  • Контроль стабильности IT-решений в Production
  • Контроль изменений
  • Повышение эффективности диагностики аварий
  • KPI-мотивация команды разработки
    на стабильность работы IT-решений
Метрики:
  • Аппаратные, ОС, фреймворки, БД, ...
  • Программные (очереди, процедуры, API вызовы, …)
  • Бизнесовые (оценка работы бизнес-процессов)
Алерты:
  • Простые (пороговые)
  • Сложные (поиск аномалий)
Инциденты:
  • Автоматические
  • Полуручные
  • Ручные
“Под капотом” - современные open-source решения:

Для кого подходит

  • У вас есть IT-решение в продуктиве, стабильность невысокая, есть падения, о которых вы узнаете поздно. Есть потребность выстроить мониторинги.
    Мы внедрим нашу платформу, проведем обучение и в максимально короткий срок вы получите наблюдаемость и управляемость изменениями.
  • У вашей продуктовой команды есть мониторинги, но алармы - это еще не инциденты.
    Выстроив полный цикл алерт->инцидент->SLI/SLO/SLA->KPI мы поможем построить мотивацию команды на поддержание стабильности.
  • У вашей продуктовой команды есть базовый набор мониторингов (процессор, диски, память, …). Этого мало, чтобы оперативно понимать, какая бизнес-функция сломалась.
    Мы поможем трансформировать подход к мониторингам на продуктовый.
  • У вашей продуктовой команды есть мониторинги, но процесс разработки не связан с ними.
    Мы поможем перестроить процессы разработки так, чтобы контроль изменений был важной составляющей CI/CD.
Как мы работаем
1
Проводим аудит и консультируем по архитектуре, выбору и настройке инструментов мониторинга.
2
Инсталлируем платформу Dragonfly на вашу инфраструктуру или готовим для вас новую инфраструктуру.
3
Корректируем и настраиваем платформу Dragonfly под требования ваших IT решений.
4
Проводим комплексное обучение команд разработки.
5
Поддерживаем бесперебойную работу платформы Dragonfly, а также регулярно все обновляем.
6
Помогаем командам разработки максимально эффективно пользоваться платформой.

*Или делимся опытом и экспертизой по модели T&M.

    Оставьте ваши координаты и мы свяжемся с вами для обсуждения внедрения практик SRE
    phone: +7 916 692-60-74
    email: info@r-n-d-lab.ru
    Отправляя данную форму вы даете согласие на обработку ваших персональных данных.