Поделиться через


Управление инцидентами для рабочих нагрузок SaaS в Azure

Независимые поставщики программного обеспечения (НЕЗАВИСИМЫе поставщики программного обеспечения) для решений saaS должны работать с решением для своих клиентов. Для этого требуется настройка организации и региональные параметры, которые плавно обрабатывают непредвиденные рабочие ситуации. В качестве архитектора необходимо разработать процессы и инструменты управления соответствующим образом.

В этой статье описано, как выровнять культуру, процессы и средства организации для поддержки управления инцидентами рабочего решения SaaS.

Общие сведения о ваших обязанностях в качестве поставщика услуг

Работа с решением SaaS означает, что вы являетесь ИТ-отделом клиентов 24x7 и ит-отделом. Вам необходимо подготовиться с правильным персоналом, культурой, процессами и инструментами.

Рекомендации по проектированию

  • Отвечайте за поддержку 24x7x365. Работа с решением SaaS требует, чтобы ваша организация всегда была подготовлена к реагированию на инциденты. Эта подготовка включает в себя всегда наличие участников группы, так как инциденты могут возникать за пределами рабочих часов.

    Поддержка динамического сайта включает мониторинг и реагирование на инциденты в режиме реального времени, влияющие на доступность системы, безопасность, производительность или развертывание. Вы или ваши клиенты могут обнаруживать эти инциденты. Для обработки таких инцидентов требуются определенные навыки, включая способность анализировать и решать проблемы под давлением.

    Поддержка live-сайта может быть стрессовой, и важно поддержать участников вашей команды. Если команда не связана с этой ответственностью, тщательно спланируйте переход. Устранение проблем с обязанностями по вызову, компенсацией и управлением недоступностью во время инцидентов.

    Риск: управление навыками и ожиданиями. Не все инженеры подходят для роли поддержки 24x365. При переходе существующей команды на поддержку решения SaaS убедитесь, что установлены правильные ожидания и предоставляются возможности для образования.

  • Институт живой культуры. Рассмотрим, как управлять случаями поддержки и инцидентами, а также как происходит эскалация. Цель состоит в том, чтобы участники группы понимали свои обязанности и имели необходимые навыки и средства для обработки инцидентов.

    Стартапы и небольшие организации могут иметь упрощенный план для проблем с динамическим сайтом. Инженеры могут первоначально служить в качестве передней поддержки, отвечая на случаи поддержки клиентов. Зрелые организации или поставщики SaaS с корпоративными клиентами нуждаются в более структурированной поддержке и выделенных командах.

    Компромисс: операционное превосходство и стоимость. Управление событиями live-site может отказаться от времени разработки для новых функций или исправлений ошибок. Если скорость разработки является проблемой, рассмотрите возможность найма выделенных ресурсов live-site.

Рекомендации по проектированию

Рекомендация Преимущества
Введите фронтовую команду по обработке случаев поддержки.

В сложных случаях эта команда собирает информацию, необходимую команде инженеров для его исследования. Поставщик может служить вашей командой поддержки передней линии и выполнять первоначальный анализ проблем и устранять простые проблемы.
Вы избегаете переполнения группы инженеров обязанностями по обработке инцидентов и с прерываниями своих регулярных обязанностей.
Инвестируйте в функцию по вызову для инженеров, чтобы обрабатывать сложные случаи, исследовать и принимать меры.

По возможности смените обязанности по вызову среди членов команды, при этом каждый инженер будет позвонить несколько дней в течение нескольких дней.
С четко определенными обязанностями и путями эскалации вы можете быстро выявлять и устранять проблемы, не нарушая рабочий процесс проектирования.
Приобретение средств, специализированных для управления инцидентами.

Убедитесь, что все респонденты имеют доступ к этим средствам и понять, как эффективно использовать эти средства.

Выберите средства, которые могут отслеживать состояние системы, отслеживать обнаруженные клиентом проблемы, выявлять проблемы, передавать инженерам по вызову, управлять неответственными инженерами и включать изменения в рабочей среде.
Наличие правильных средств помогает вашей команде по вызову быстро выявлять и устранять инциденты при поддержании безопасности и оперативного контроля.
Улучшение мониторинга, развертываний, обновлений и других регулярных операций управления. Инвестируя в операционную зрелость, вы снижаете вероятность проблем с динамическим сайтом. Если возникают проблемы, то наличие четко определенных операций сокращает время разрешения.

Определение плана ответа

Подтвердите, что инциденты неизбежны и подготовьтесь к ним, определив план реагирования на инциденты. Этот упреждающий подход предотвращает разработку стратегии реагирования во время первого инцидента.

Заранее спланируйте крупные инциденты, которые обычно влияют на способность клиентов использовать службу. Эта подготовка помогает свести к минимуму стресс и сложность при управлении инцидентами по мере их возникновения.

Рекомендации по проектированию

  • Определите путь эскалации. Убедитесь, что команды понимают процесс эскалации для задач поддержки. Во многих решениях SaaS клиенты обращаются в службу поддержки frontline, которая затем взаимодействует с командой инженеров. Убедитесь, что клиенты знают, с кем взаимодействовать и почему они не должны обходить эти процессы. Кроме того, убедитесь, что ваша инженерная группа знает, когда и как обратиться за помощью от поставщиков, включая группы поддержки в Корпорации Майкрософт.

  • Определите уровни серьезности. Различные инциденты зависят от важности для вас и ваших клиентов. Как обрабатывать крупный сбой в рабочей среде отличается от способа устранения незначительных ошибок. Определите уровни серьезности на основе влияния клиента и задайте соответствующие ожидания и временные шкалы для каждого уровня.

  • Сведения о документе, необходимые для рассмотрения. Актуальность документации является важной для эффективного реагирования на инциденты. В этой документации содержатся архитектурный макет системы, сведения о уровне компонентов, владельцы и ключевые контакты. Неточная или устаревшая информация может привести к тому, что группа реагирования на инциденты тратит ценное время на определение системных операций, обязанностей и потенциальное влияние инцидента.

  • Планирование эффективного взаимодействия с клиентами. Предоставление обновлений состояния является ключевым в управлении инцидентами. Обновления состояния помогают клиентам понять характер инцидента, а также уменьшить объем случаев поддержки от клиентов, которые испытывают аналогичные проблемы.

Рекомендации по проектированию

Рекомендация Преимущества
Предоставьте четкий процесс создания отчетов об инцидентах, например открытие обращения в службу поддержки передней линии для клиентов. Вы гарантируете согласованность в том, как вы обнаруживаете и реагируете на инциденты, что сокращает время для разрешения и предотвращает потерю или упущение информации.
Документируйте макет архитектуры, сведения о уровне компонентов, конфиденциальность или классификации безопасности, владельцы и ключевые контакты. Команда триажа имеет информацию, которая легко доступна и может сосредоточиться на расследованиях и оценке влияния.
Убедитесь, что ваша группа реагирования на инциденты может получить доступ к необходимым ресурсам и системам, таким как журналы. Кроме того, им необходимо иметь возможность вносить изменения в рабочую среду с помощью безопасного и управляемого процесса. Вы восстанавливаете операции быстрее, гарантируя, что ваша команда не тратила время.
Используйте страницу коммерческого состояния вместо создания собственного. Экономия времени с помощью страницы коммерческого состояния. Страница состояния, размещенная другой организацией, также остается доступной клиентам во время сбоя в системе.

Методичное управление инцидентами

Соблюдение определенного плана имеет решающее значение, чтобы избежать импровизации во время отклика. Этот подход помогает свести к минимуму стресс и сложность управления этими ситуациями.

Рекомендации по проектированию

  • Назначьте серьезность инцидентов. Используйте план реагирования на инциденты, чтобы определить серьезность инцидента. Клиенты часто разочарованы во время инцидентов. Важно понимать влияние, которое они видят, чтобы вы могли определить приоритеты. Четко сообщите о серьезности инцидента, чтобы клиенты имели реалистичные ожидания.

  • Оставайтесь спокойным и четко думайте. Инциденты могут быть стрессовые и неоднозначные, с несколькими заинтересованными лицами, требуя внимания. Иметь четкий процесс для того, кто берет на себя лидерство в инциденте. Триадж инцидентов как лучше, как вы можете, признавая, что вы, возможно, должны работать с несовершенной информацией. Старайтесь оставаться под контролем ситуации.

    Руководители организации могут помочь, экранируя членов группы, которые активно расследуют или смягчают инцидент.

  • Сообщите о состоянии своим клиентам. Обновите страницу состояния, чтобы опубликовать достаточно информации. Оперативно общаться и предоставлять необходимые сведения, такие как предполагаемое время разрешения. Предоставление клиентам частых обновлений для поддержания доверия.

Рекомендации по проектированию

Рекомендация Преимущества
Во время инцидента определите приоритет восстановления по сравнению с обнаружением.

При возникновении инцидента определите приоритет операций восстановления быстро, чтобы свести к минимуму нарушения работы клиентов.
Возможно, вы сможете восстановиться путем маршрутизации по затронутому компоненту или откату обновления, даже если вы еще не понимаете, что вызвало проблему.
Своевременное, четкое и частое обновление во время сбоев. Вы можете принудили доверие клиентов и снизить нагрузку в вашей команде поддержки передней линии.
Назначьте диспетчер коммуникаций во время активного инцидента. Этот менеджер может быть одним человеком, или вы можете сменить ответственность между участниками группы между инцидентами. Имея один голос для вашей инженерной команды, вы централизуете беседы и сокращаете отвлекающие факторы для других участников команды. Вы также не допустите конфликтующую информацию от достижения клиентов или заинтересованных лиц во время хаотического инцидента.
Убедитесь, что у вас есть критически важный план поддержки для поставщиков, таких как Майкрософт. Если возникает сбой, вам нужна быстрая связь с поставщиками платформы, такими как Корпорация Майкрософт, чтобы определить, где возникла проблема, и сократить продолжительность сбоя.

Проведение проверок после инцидента

После восстановления после инцидента просмотрите и проанализируйте то, что произошло, чтобы узнать об этом. Реализуйте действия по исправлению, которые могут включать технические изменения, корректировки процесса или многое другое обучение.

Рекомендации по проектированию

  • Узнайте об инцидентах. Сбои предоставляют ценные возможности обучения. Проводите тщательные проверки после инцидентов для выявления уроков и реализации улучшений. Крупные инциденты часто имеют несколько причин. Оцените, могут ли другие слои решения, например операционные процессы, предотвратить или обнаружить проблему перед эскалацией. Кроме того, найдите аналогичные шаблоны в другом месте решения, которые также могут быть подвержены риску той же проблемы.

  • Общаться с клиентами. Многие поставщики программного обеспечения обеспечивают связь после инцидента, особенно для корпоративных клиентов, которые ожидают высококачественных обновлений. Будьте прозрачными и предоставьте достаточно информации для клиентов, чтобы понять проблему и шаги по устранению рисков. Однако для обеспечения безопасности и целостности не используйте чрезмерную внутреннюю информацию об архитектуре или компонентах решения.

Рекомендации по проектированию

Рекомендация Преимущества
Создайте процесс для выполнения внутренних проверок после инцидента.

Сосредоточьтесь на выявлении причин, которые способствовали возникновению проблемы. Рассмотрим технические причины, как ваши процессы могли бы способствовать сбою и как вы ответили на инцидент.
Внутренние проверки после инцидента помогут вам узнать о сбоях в рабочей среде и свести к минимуму риск подобных проблем, возникающих снова.
Создайте структурированный план для решения всех элементов, которые нуждаются в исправлении. Включите четкую подотчетность и временную шкалу. Очистка подотчетности помогает обеспечить соответствие каждой роли своим функциональным ожиданиям, повысить ясность и обеспечить прозрачную отчетность на требуемых уровнях.
Публикация отзывов о после инцидентах, с которыми сталкиваются клиенты.

Предоставьте клиентам достаточно подробных сведений, чтобы понять проблему и меры по устранению неполадок, не раскрывая ненужные внутренние сведения или архитектуру системы.

Сообщения после инцидента всегда должны быть написаны и опубликованы людьми. Технические и нетехнические заинтересованные лица должны проверять связь для точности и ясности.
Этот подход помогает поддерживать уверенность клиентов и гарантирует их, что вы узнали из инцидента и решаете выявленные проблемы.

Следующий шаг

После просмотра областей проектирования перейдите к средству оценки, чтобы оценить проект.