Procedimientos recomendados de confiabilidad en Azure Monitor
En la nube, reconocemos que se producen errores. En lugar de intentar evitar todos los errores, el objetivo es minimizar los efectos que pueden provocar los errores de un único componente. Use la siguiente información para supervisar las máquinas virtuales y sus cargas de trabajo de cliente en busca de errores.
En este artículo se describe la Confiabilidad para Azure Monitor como parte del Marco de buena arquitectura de Azure. El marco de buena arquitectura de Azure es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. El marco consta de cinco pilares de excelencia arquitectónica:
- Confiabilidad
- Seguridad
- Optimización de costos
- Excelencia operativa
- Eficiencia del rendimiento
Registros de Azure Monitor
Las áreas de trabajo de Log Analytics ofrecen un alto grado de confiabilidad. La canalización de ingesta, que envía datos recopilados al área de trabajo de Log Analytics, valida que el área de trabajo de Log Analytics procese correctamente cada registro de log antes de quitar el registro de la canalización. Si la canalización de ingesta no está disponible, los agentes que envían los datos almacenan en búfer y vuelven a intentar enviar los registros durante muchas horas.
Características de registros de Azure Monitor que mejoran la resistencia
Los registros de Azure Monitor ofrecen varias características que mejoran la resistencia de las áreas de trabajo a varios tipos de problemas. Puede usar estas características individualmente o en combinación, en función de sus necesidades.
En este vídeo se proporciona información general sobre las opciones de confiabilidad y resistencia disponibles para las áreas de trabajo de Log Analytics:
Protección en la región mediante zonas de disponibilidad
Cada región de Azure que admite zonas de disponibilidad tiene un conjunto de centros de datos equipado con energía, refrigeración e infraestructura de red independientes.
Las zonas de disponibilidad de registros de Azure Monitor son redundantes, lo que significa que Microsoft propaga las solicitudes de servicio y replica los datos en distintas zonas de las regiones admitidas. Si un incidente afecta a una zona, Microsoft usa una zona de disponibilidad diferente en la región en su lugar, automáticamente. No es necesario realizar ninguna acción, ya que el cambio de zona se realiza de forma sencilla.
En la mayoría de las regiones, las zonas de disponibilidad de registros de Azure Monitor admiten la resistencia de datos, lo que significa que los datos almacenados están protegidos contra la pérdida de datos relacionados con errores zonales, pero las operaciones de servicio podrían verse afectadas por incidentes regionales. Si el servicio no puede ejecutar consultas, no podrá ver los registros hasta que se resuelva el problema.
Un subconjunto de las zonas de disponibilidad que admiten resistencia de datos también admite resistencia del servicio, lo que significa que las operaciones del servicio Registros de Azure Monitor (por ejemplo, ingesta de registros, consultas y alertas) pueden continuar en caso de error de zona.
Las zonas de disponibilidad protegen frente a incidentes relacionados con la infraestructura, como errores de almacenamiento. No protegen contra problemas de nivel de aplicación, como implementaciones de código defectuosos o errores de certificado, que afectan a toda la región.
Copia de seguridad de datos de tablas específicas mediante la exportación continua
Puede exportar continuamente los datos enviados a tablas específicas del área de trabajo de Log Analytics a cuentas de almacenamiento de Azure.
La cuenta de almacenamiento a la que exporta los datos debe estar en la misma región que el área de trabajo de Log Analytics. Para proteger y tener acceso a los registros ingeridos, incluso si la región del área de trabajo está inactiva, use una cuenta de almacenamiento con redundancia geográfica, como se explica en Recomendaciones de configuración.
El mecanismo de exportación no proporciona protección contra incidentes que afectan a la canalización de ingesta o al propio proceso de exportación.
Nota:
Puede acceder a los datos de una cuenta de almacenamiento desde Registros de Azure Monitor mediante el operador externaldata. Sin embargo, los datos exportados se almacenan en blobs de cinco minutos y el análisis de datos que abarcan varios blobs puede ser complicado. Por lo tanto, exportar datos a una cuenta de almacenamiento es un buen mecanismo de copia de seguridad de datos, pero tener los datos de copia de seguridad en una cuenta de almacenamiento no es ideal si los necesita para su análisis en los Registros de Azure Monitor. Puede consultar grandes volúmenes de datos de blobs mediante Azure Data Explorer, Azure Data Factory o cualquier otra herramienta de acceso a almacenamiento.
Resistencia de servicio y protección de datos entre regiones mediante la replicación del área de trabajo (versión preliminar)
La replicación del área de trabajo (versión preliminar) es la solución de resistencia más extensa, ya que replica el área de trabajo de Log Analytics y los registros entrantes en otra región.
La replicación del área de trabajo protege los registros y las operaciones de servicio, y le permite seguir supervisando los sistemas en caso de incidentes relacionados con la infraestructura o la aplicación en toda la región.
A diferencia de las zonas de disponibilidad, que Microsoft administra de un extremo a otro, debe supervisar el estado del área de trabajo principal y decidir cuándo cambiar al área de trabajo en la región secundaria y volver.
Diseño de una lista de comprobación
- Para garantizar la resistencia del servicio y los datos a incidentes de toda la región, habilite la replicación del área de trabajo.
- Para garantizar la protección en la región frente a errores del centro de datos, cree el área de trabajo en una región que admita zonas de disponibilidad.
- Para la copia de seguridad entre regiones de datos en tablas específicas, use la característica de exportación continua para enviar datos a una cuenta de almacenamiento con replicación geográfica.
- Supervise el estado de las áreas de trabajo de Log Analytics.
Recomendaciones para la configuración
Recomendación | Prestación |
---|---|
Para garantizar el mayor grado de resistencia, habilite la replicación del área de trabajo. | Resistencia entre regiones para las operaciones de servicio y datos del área de trabajo. La Replicación del área de trabajo (versión preliminar) garantiza una alta disponibilidad mediante la creación de una instancia secundaria del área de trabajo en otra región e ingesta de los registros en ambas áreas de trabajo. Cuando sea necesario, cambie al área de trabajo secundaria hasta que se resuelvan los problemas que afectan al área de trabajo principal. Puede seguir ingiriendo registros, consultar datos mediante paneles, alertas y Sentinel en el área de trabajo secundaria. También tiene acceso a los registros ingeridos antes del cambio de región. Se trata de una característica de pago, por lo que debe tener en cuenta si desea replicar todos los registros entrantes o solo algunos flujos de datos. |
Si es posible, cree el área de trabajo en una región que admita la resistencia del servicio de Azure Monitor. | Resistencia en la región de las operaciones de servicio y datos del área de trabajo en caso de problemas del centro de datos. Las zonas de disponibilidad que admiten la resistencia del servicio también admiten la resistencia de los datos. Esto significa que incluso si un centro de datos completo deja de estar disponible, la redundancia entre zonas permite que las operaciones de servicio de Azure Monitor, como la ingesta y la consulta, sigan funcionando y los registros ingeridos permanezcan disponibles. Las zonas de disponibilidad proporcionan protección en la región, pero no protegen contra problemas que afectan a toda la región. Para obtener información sobre qué regiones admiten la resistencia de datos, consulte Mejora de la resistencia de datos y servicios en los Registros de Azure Monitor con zonas de disponibilidad. |
Cree el área de trabajo en una región que admita la resistencia de los datos. | Protección en la región contra la pérdida de los registros del área de trabajo en caso de problemas del centro de datos. La creación del área de trabajo en una región que admita la resistencia de datos significa que, incluso si todo el centro de datos deja de estar disponible, los registros ingeridos son seguros. Si el servicio no puede ejecutar consultas, no podrá ver los registros hasta que se resuelva el problema. Para obtener información sobre qué regiones admiten la resistencia de datos, consulte Mejora de la resistencia de datos y servicios en los Registros de Azure Monitor con zonas de disponibilidad. |
Configure la exportación de datos de tablas específicas a una cuenta de almacenamiento replicada entre regiones. | Mantenga una copia de seguridad de los datos de registro en otra región. La característica de exportación de datos de Azure Monitor permite exportar continuamente los datos enviados a tablas específicas a Azure Storage, donde se pueden conservar durante períodos prolongados. Use una cuenta de almacenamiento con redundancia geográfica (GRS) o almacenamiento con redundancia de zona geográfica (GZRS) para mantener los datos seguros incluso si toda una región deja de estar disponible. Para que los datos sean legibles desde las otras regiones, configure la cuenta de almacenamiento para el acceso de lectura a la región secundaria. Para más información, consulte Redundancia de Azure Storage en una región secundaria y Acceso de lectura de Azure Storage a los datos de la región secundaria. Para tablas que no admiten la exportación continua de datos, puede usar otros métodos de exportación de datos, incluido Logic Apps, para proteger los datos. Esta es principalmente una solución para cumplir el cumplimiento de la retención de datos, ya que los datos pueden ser difíciles de analizar y restaurar en el área de trabajo. La exportación de datos es susceptible a incidentes regionales porque se basa en la estabilidad de la canalización de ingesta de Azure Monitor en su región. No proporciona resistencia frente a incidentes que afectan a la canalización de ingesta regional. |
Supervise el estado de las áreas de trabajo de Log Analytics. | Use la Información del área de trabajo de Log Analytics para realizar un seguimiento de las consultas con errores y crear una alerta de estado de mantenimiento para notificarle de forma proactiva si un área de trabajo deja de estar disponible debido a un error regional o de un centro de datos. |
Comparación de las características de resistencia de los Registros de Azure Monitor
Característica | Resistencia del servicio | Copia de seguridad de datos | Alta disponibilidad | Ámbito de protección | Configurar | Costos |
---|---|---|---|---|---|---|
Replicación del área de trabajo | ✅ | ✅ | ✅ | Protección entre regiones frente a incidentes en toda la región | Habilite la replicación del área de trabajo y las reglas de recopilación de datos relacionadas. Cambie entre regiones según sea necesario. | En función del número de GB y regiones replicados. |
Zonas de disponibilidad | ✅ En las regiones admitidas |
✅ | ✅ | Protección en la región frente a problemas del centro de datos | Habilitado automáticamente en regiones admitidas. | Sin costo |
Exportación de datos continua | ✅ | Protección contra la pérdida de datos debido a un error regional 1 | Habilite por tabla. | Costo de exportación de datos y blob de almacenamiento o Event Hubs |
1 La Exportación de datos proporciona protección entre regiones si exporta registros a una cuenta de almacenamiento con replicación geográfica. En caso de incidente, se realiza una copia de seguridad de los datos exportados previamente y están disponibles fácilmente; sin embargo, puede producirse un error en la exportación adicional, en función de la naturaleza del incidente.
Alertas
Las alertas de Azure Monitor ofrecen un alto grado de confiabilidad sin decisiones de diseño. Las condiciones en las que se puede producir una pérdida temporal de datos de alerta suelen mitigarse mediante características de otros componentes de Azure Monitor.
Diseño de una lista de comprobación
- Configurar reglas de alertas de estado del servicio.
- Configurar reglas de alertas de estado de recursos.
- Evitar los límites de servicio para las reglas de alerta que producen notificaciones a gran escala.
Recomendaciones para la configuración
Recomendación | Prestación |
---|---|
Configurar reglas de alertas de estado del servicio. | Las alertas de estado del servicio le envían notificaciones para interrupciones, interrupciones del servicio, mantenimiento planeado y avisos de seguridad. Consulte Crear o editar una regla de alertas. |
Configurar reglas de alertas de estado de recursos. | Las alertas de Resource Health pueden notificarle casi en tiempo real de los cambios de estado de mantenimiento en estos recursos. Consulte Crear o editar una regla de alertas. |
Evitar los límites de servicio para las reglas de alerta que producen notificaciones a gran escala. | Si tiene reglas de alerta que enviarían un gran número de notificaciones, puede alcanzar los límites de servicio correspondientes al servicio que usa para enviar notificaciones por correo electrónico o SMS. Configure acciones mediante programación o elija un método de notificación alternativo o proveedor para controlar las notificaciones a gran escala. Consulte Límites de servicio para las notificaciones. |
Máquinas virtuales
Diseño de una lista de comprobación
- Cree reglas de alertas de disponibilidad para máquinas virtuales de Azure.
- Cree una regla de alerta de latido del agente para comprobar el estado del agente.
- Configure la recopilación de datos y las alertas para supervisar la confiabilidad de los flujos de trabajo de cliente.
Recomendaciones para la configuración
Recomendación | Descripción |
---|---|
Cree reglas de alertas de disponibilidad para máquinas virtuales de Azure. | Use la métrica de disponibilidad (versión preliminar) para hacer un seguimiento de cuándo se ejecuta una máquina virtual de Azure. Aunque puede habilitar rápidamente una regla de alertas de disponibilidad para una máquina individual mediante alertas recomendadas, una única regla de alerta destinada a un grupo de recursos o una suscripción habilita las alertas de disponibilidad para todas las máquinas virtuales de ese ámbito para una región determinada. Esto es más fácil de administrar que crear una regla de alerta para cada máquina virtual y garantiza que las nuevas máquinas virtuales creadas en el ámbito se supervisen automáticamente. Esta regla de alerta no requiere que el agente de Azure Monitor esté instalado en la máquina virtual, pero no está disponible para las máquinas virtuales fuera de Azure. |
Cree una regla de alerta de latido del agente para comprobar el estado del agente. | El agente de Azure Monitor envía un latido al área de trabajo de Log Analytics cada minuto. Use una regla de alertas de búsqueda de registros mediante el latido del agente para recibir alertas cuando un agente deja de enviar latidos, que es un indicador de que la máquina virtual está inactiva o que el agente es incorrecto y las cargas de trabajo de cliente no se supervisan. Esta regla de alerta requiere que el agente de Azure Monitor esté instalado en la máquina virtual y se aplique tanto a máquinas virtuales de Azure como a las que no son de Azure. |
Configure la recopilación de datos y las alertas para supervisar la confiabilidad de los flujos de trabajo de cliente. | Use la información de las máquinas virtuales de Monitor con Supervisión de máquinas virtuales con Azure Monitor: recopilación de datos para configurar la recopilación de eventos de cliente que indican posibles problemas con las cargas de trabajo de cliente. Use la información de Supervisión de máquinas virtuales con Supervisión de máquinas virtuales con Azure Monitor: alertas para crear reglas de alerta para recibir notificaciones proactivas de cualquier posible problema operativo con las cargas de trabajo de cliente. |
Contenedores
Diseño de una lista de comprobación
- Habilite la extracción de métricas de Prometheus para el clúster.
- Habilite Container Insights para la recopilación de registros y datos de rendimiento del clúster.
- Cree una configuración de diagnóstico para recopilar registros del plano de control para clústeres de AKS.
- Habilite las alertas de Prometheus recomendadas.
- Garantice la disponibilidad del área de trabajo de Log Analytics que admite Container Insights.
Recomendaciones para la configuración
Recomendación | Prestación |
---|---|
Habilite la extracción de métricas de Prometheus para el clúster. | Habilite Prometheus en el clúster con el servicio administrado de Azure Monitor para Prometheus si aún no tiene un entorno de Prometheus. Use Azure Managed Grafana para analizar los datos de Prometheus recopilados. Consulte Personalización de la extracción de métricas de Prometheus en el servicio administrado de Azure Monitor para Prometheus para recopilar métricas adicionales más allá de la configuración predeterminada. |
Habilite Container Insights para la recopilación de registros y datos de rendimiento del clúster. | Container Insights recopila registros stdout/stderr, métricas de rendimiento y eventos de Kubernetes de cada nodo del clúster. Proporciona paneles e informes para analizar estos datos, incluida la disponibilidad de los nodos y otros componentes. Use Log Analytics para identificar los errores de disponibilidad en los registros recopilados. |
Cree una configuración de diagnóstico para recopilar registros del plano de control para clústeres de AKS. | AKS implementa registros del plano de control como registros de recursos en Azure Monitor. Cree una configuración de diagnóstico para enviar estos registros al área de trabajo de Log Analytics de modo que pueda usar consultas de registro para identificar aquellos errores y problemas que afecten a la disponibilidad. |
Habilite las alertas de Prometheus recomendadas. | Las alertas de Azure Monitor le informan de forma proactiva cuando se detectan problemas. Comience con un conjunto de reglas de alerta de Prometheus recomendadas que detecten los problemas de rendimiento y disponibilidad más comunes con el clúster. Puede agregar alertas de búsqueda de registros mediante los datos recopilados por Container Insights. |
Garantice la disponibilidad del área de trabajo de Log Analytics que admite Container Insights. | Container Insights se basa en un área de trabajo de Log Analytics. Consulte Procedimientos recomendados para registros de Azure Monitor para ver las recomendaciones para garantizar la confiabilidad del área de trabajo. |