Güvenilir bir izleme ve uyarı stratejisi tasarlama önerileri
Bu Azure İyi Tasarlanmış Çerçeve Güvenilirliği denetim listesi önerisi için geçerlidir:
RE:10 | Çözümün sistem durumu göstergelerini ölçün ve yayımlayın. çalışma süresi ve diğer güvenilirlik verilerini iş yükü genelinden ve tek tek bileşenlerden ve önemli akışlardan sürekli olarak yakalayın. |
---|
Bu kılavuzda, güvenilir bir izleme ve uyarı stratejisi tasarlamaya yönelik öneriler açıklanmaktadır. Operasyon ekiplerinizin ortamınızın sistem durumu hakkında bilgi sahibi olmasını sağlamak ve iş yükünüz için belirlenmiş güvenilirlik hedeflerini karşıladığınızdan emin olmak için bu stratejiyi uygulayın.
Tanımlar
Süre | Tanım |
---|---|
Ölçümler | Düzenli aralıklarla toplanan sayısal değerler. Ölçümler, belirli bir zamanda sistemin bazı yönlerini açıklar. |
Kaynak günlükleri | Bir sistemin oluşturduğu veriler. Sistemin durumu hakkında bilgi sağlar. |
İzlemeler | Bir isteğin hizmetler ve bileşenler üzerinden geçtiği yol hakkında bilgi sağlayan veriler. |
Temel tasarım stratejileri
İzleme ve uyarı stratejisi oluşturmadan önce, güvenilirlik planlamanızın bir parçası olarak iş yükünüz için aşağıdaki görevleri gerçekleştirin:
Kritik ve kritik olmayan akışları tanımlama.
Akışlarınız için hata modu analizi (FMA) gerçekleştirin.
Güvenilirlik hedeflerini belirleyin.
Yedeklilik, ölçeklendirme, kendini koruma ve kendini iyileştirme uygulayarak güvenilirlik tasarımı.
Güçlü bir test stratejisi tasarla.
İş yükünüzün ve bileşenlerinin durumunu modelleyin.
İş yükünüzün güvenilir bir şekilde çalıştığından emin olmak için bir izleme ve uyarı stratejisi oluşturun. İzleme ve uyarı stratejisi, operasyon ekiplerinize farkındalığı sağlayarak iş yükünüzün durumundaki değişikliklerden haberdar olmasını ve sorunları hızla ele almalarını sağlar. Kritik akışlarınız ve bu kritik akışların oluşturduğu bileşenler için bir sistem durumu modeli oluşturarak sağlam ve güvenilir bir izleme stratejisi oluşturun. Sistem durumu modeli iyi durumda, düzeyi düşürülmüş ve iyi durumda olmayan durumları tanımlar. Bu durumlardaki değişiklikleri hemen yakalamak için operasyonel duruşunuzu tasarlar. Sağlık durumları iyi durumdan düzeyi düşürülmüş veya iyi durumda olmayan durumlara değiştiğinde, uyarı mekanizmaları otomatik düzeltici ölçüleri tetikler ve uygun takımlara bildirim gönderir.
İşletmenizin gereksinimlerini karşılayan bir izleme ve uyarı stratejisi tasarlamak için aşağıdaki önerileri uygulayın.
Genel bir izleme stratejisi uygulama
Tüm bulut kaynakları için günlüğe kaydetmeyi etkinleştirin. Ortamınızda tanılama günlüğünü etkinleştirmek için dağıtımlarınızda otomasyon ve idareyi kullanın.
Tüm tanılama günlüklerini Log Analytics çalışma alanı gibi merkezi bir veri havuzuna ve analiz platformuna iletin. Bölgesel veri hakimiyeti gereksinimleriniz varsa, bu gereksinimlere tabi bölgelerdeki yerel veri havuzlarını kullanmanız gerekir.
Dengeleme: Günlükleri depolamak ve sorgulamak için maliyet etkileri vardır. Günlük analizinizin ve saklamanızın bütçenizi nasıl etkilediğine dikkat edin ve gereksinimlerinizi karşılamak için en iyi kullanım bakiyesini belirleyin. Daha fazla bilgi için bkz . Maliyet iyileştirme için en iyi yöntemler.
İş yükleriniz bir veya daha fazla uyumluluk çerçevesine tabiyse, hassas bilgileri işleyen bazı bileşen günlükleri de bu çerçevelere tabidir. İlgili bileşen günlüklerini Microsoft Sentinel gibi bir güvenlik bilgileri ve olay yönetimi (SIEM) sistemine gönderin.
Uyumluluk çerçevelerinin iş yükünüz üzerinde uyguladığı uzun süreli saklama gereksinimlerini içeren bir günlük saklama ilkesi oluşturun.
Günlük verilerini sorgulamayı iyileştirmek için tüm günlük iletileri için yapılandırılmış günlük kaydını kullanın.
Değerler, bir sistem durumu modeli durumuyla bağıntılı kritik eşiklerden geçtiğinde tetikleme yapmak için uyarıları (örneğin yeşilden sarıya veya kırmızıya) yapılandırın.
Eşik yapılandırması, sürekli iyileştirmenin bir uygulamasıdır. İş yükünüz geliştikçe tanımladığınız eşikler değişebilir. Bazı durumlarda, dinamik eşikler izleme stratejiniz için iyi bir seçenektir.
Operasyon ekiplerinin gelecekte başvurmak üzere bu olayları izleyebilmesi için, durumlar iyiye gittiği zaman uyarıları (kırmızıdan sarıya veya kırmızıdan yeşile gibi) kullanmayı göz önünde bulundurun.
Ortamınızın gerçek zamanlı durumunu görselleştirin.
Sistem durumu modellerinizi ve izleme ve uyarı stratejinizi sürekli geliştirmek için olaylar sırasında toplanan verileri kullanın.
Bulut platformu izleme ve uyarı hizmetlerini dahil edin, örneğin:
Azure Hizmet Durumu gibi platform düzeyinde sistem durumu.
Azure Kaynak Durumu gibi kaynak düzeyinde sistem durumu.
Azure İzleyici içgörü araçları gibi bulut sağlayıcınız tarafından sunulan amaca yönelik gelişmiş izleme ve analiz özelliklerini birleştirir.
Yakalamak için yedekleme ve kurtarma izlemesi uygulayın:
Uygulamaları izleme
Sistem durumu yoklamaları oluşturun veya işlevleri denetleyin ve bunları uygulamanın dışından düzenli olarak çalıştırın. Coğrafi olarak müşterilerinize yakın olan birden çok konumdan test ettiğinizden emin olun.
Uygulama üretim ortamında çalışırken verileri günlüğe kaydedin. Üretim durumundaki sorunların nedenini tanılamak için yeterli bilgiye ihtiyacınız vardır.
Hizmet sınırlarındaki olayları günlüğe kaydedin. Hizmet sınırları boyunca akan bir bağıntı kimliği ekleyin. Bir işlem birden çok hizmetten geçerse ve bunlardan biri başarısız olursa, bağıntı kimliği uygulamanızdaki istekleri izlemenize ve işlemin neden başarısız olduğunu saptamanıza yardımcı olur.
Zaman uyumsuz günlük kaydı kullanın. Zaman uyumlu günlük işlemleri bazen uygulama kodunuzu engeller ve bu da günlükler yazılırken isteklerin yedeklenmesine neden olur. Uygulama günlüğü sırasında kullanılabilirliği korumak için zaman uyumsuz günlüğü kullanın.
Uygulama günlüğünü denetimden ayırın. Denetim kayıtları genellikle uyumluluk veya mevzuat gereksinimleri için korunur ve eksiksiz olmalıdır. Bırakılan işlemleri önlemek için denetim günlüklerini tanılama günlüklerinden ayrı olarak koruyun.
Uçtan uca uygulama ve kritik sistem akışları aracılığıyla işlemleri eşleyebileceğinizden emin olmak için telemetri bağıntısını kullanın. Bu işlem, hatalarda kök neden analizi (RCA) gerçekleştirmek için çok önemlidir. Sistem durumu modelini bilgilendirmek ve sorunları algılamak ve tahmin etmek için uygulamadan CPU yüzdesi, ağ giriş, ağ çıkışı ve saniyede disk işlemleri gibi platform düzeyinde ölçümleri ve günlükleri toplayın. Bu yaklaşım, geçici ve geçici olmayan hatalar arasında ayrım yapmak için yardımcı olabilir.
Uygulamayı anlamsal günlükler ve ölçümlerle izlemek için beyaz kutu izlemeyi kullanın. Sistem durumu modelini bilgilendirmek ve sorunları algılamak ve tahmin etmek için uygulamadan bellek tüketimi veya istek gecikmesi gibi uygulama düzeyindeki ölçümleri ve günlükleri toplayın.
Platform hizmetlerini ve sonuçta elde edilen müşteri deneyimini ölçmek için kara kutu izlemeyi kullanın. Kara kutu izleme, sistemin iç bileşenlerini bilmeden dışarıdan görünen uygulama davranışını test eder. Bu yaklaşım müşteri odaklı hizmet düzeyi göstergelerini (SLI), hizmet düzeyi hedeflerini (SLO'lar) ve hizmet düzeyi sözleşmelerini (SLA) ölçmek için yaygındır.
Not
Uygulama izleme hakkında daha fazla bilgi için bkz . Sistem Durumu Uç Noktası İzleme düzeni.
Verileri ve depolamayı izleme
Depolama kapsayıcılarınızın kullanılabilirlik ölçümlerini izleyin. Bu ölçüm yüzde 100'in altına düştüğünde başarısız yazma işlemleri olduğunu gösterir. Bulut sağlayıcınız yükü yönettiğinde geçici kullanılabilirlik düşüşleri oluşabilir. İş yükünüzle ilgili bir sorun olup olmadığını belirlemek için kullanılabilirlik eğilimlerini izleyin.
Bazı durumlarda, depolama kapsayıcısı için kullanılabilirlik ölçümlerindeki bir düşüş, depolama kapsayıcısıyla ilişkili işlem katmanında bir performans sorunu olduğunu gösterir.
Veritabanları için izlenecek birçok ölçüm vardır. Güvenilirlik bağlamında izlenmesi gereken önemli ölçümler şunlardır:
Sorgu süresi
Zaman aşımları
Bekleme süreleri
Bellek baskısı
Kilitler
Azure kolaylaştırma
Azure İzleyici , bulut ve şirket içi ortamlarınızdan izleme verilerini toplamak, analiz etmek ve yanıtlamak için kullanılan kapsamlı bir izleme çözümüdür.
Log Analytics , Azure portalında Log Analytics çalışma alanında bulunan verilerde günlük sorgularını düzenlemek ve çalıştırmak için kullanılan bir araçtır.
Application Insights , Azure İzleyici'nin bir uzantısıdır. Uygulama performansı izleme (APM) özellikleri sağlar.
Azure İzleyici içgörüleri , sanal makineler, uygulama hizmetleri ve kapsayıcılar gibi Azure hizmetlerini izlemeye yardımcı olan gelişmiş analiz araçlarıdır. İçgörüler, Azure İzleyici ve Log Analytics'in üzerine kurulmuştur.
SAP çözümleri için Azure İzleyici, Azure üzerinde çalışan SAP manzaraları için Azure'a özel bir izleme ürünüdür.
Azure İlkesi, kuruluş standartlarını zorunlu kılmaya ve uygun ölçekte uyumluluğu değerlendirmeye yardımcı olur.
Azure İş Sürekliliği Merkezi , iş sürekliliği varlığınız hakkında içgörüler sağlar. İş sürekliliği ve olağanüstü durum kurtarma (BCDR) için verilen yaklaşımları uygularken, Azure İş Sürekliliği Merkezi'ni kullanarak Azure ve hibrit iş yükleri genelinde iş sürekliliği korumasının yönetimini merkezi hale getirebilirsiniz. Azure İş Sürekliliği Merkezi, uygun koruma olmayan kaynakları (yedekleme veya olağanüstü durum kurtarma yoluyla) tespit eder ve düzeltici eylemler gerçekleştirir. Araç, birleşik izlemeyi kolaylaştırır ve tek bir konumdan kolayca erişilebilen Azure İlkesi aracılığıyla idare ve denetim uyumluluğu oluşturmanıza olanak tanır.
Birden çok çalışma alanı en iyi deneyimi için bkz . Log Analytics çalışma alanı mimarisi tasarlama.
Örnek
Gerçek dünya izleme çözümlerinin örnekleri için bkz. Azure'da web uygulaması izleme ve Azure Kubernetes Service kümesi için Temel mimari.
İlgili bağlantılar
Topluluk bağlantıları
- Azure İzleyici Temel Uyarıları (AMBA), müşterilerin ve iş ortaklarının Azure İzleyici'yi benimseme yoluyla gözlemlenebilirlik deneyimlerini geliştirmek için kullanabilecekleri merkezi bir uyarı tanımları deposudur.
Güvenilirlik denetim listesi
Öneriler kümesinin tamamına bakın.