Aracılığıyla paylaş


Akışı değerlendirmek için toplu çalıştırma gönderme

Toplu çalıştırma, büyük bir veri kümesiyle bir istem akışı yürütür ve her veri satırı için çıkışlar oluşturur. İstem akışınızın büyük bir veri kümesiyle ne kadar iyi performans gösterebileceğini değerlendirmek için toplu çalıştırma gönderebilir ve performans puanlarını ve ölçümleri oluşturmak için değerlendirme yöntemlerini kullanabilirsiniz.

Toplu iş akışı tamamlandıktan sonra değerlendirme yöntemleri, puanları ve ölçümleri hesaplamak için otomatik olarak yürütülür. Akışınızın çıkışını performans ölçütlerinize ve hedeflerinize göre değerlendirmek için değerlendirme ölçümlerini kullanabilirsiniz.

Bu makalede, toplu çalıştırma gönderme ve akış çıkışınızın kalitesini ölçmek için bir değerlendirme yöntemi kullanma açıklanmaktadır. Değerlendirme sonucunu ve ölçümlerini görüntülemeyi ve farklı bir yöntem veya değişken alt kümesiyle yeni bir değerlendirme turu başlatmayı öğreneceksiniz.

Önkoşullar

Toplu iş akışını değerlendirme yöntemiyle çalıştırmak için aşağıdaki bileşenlere ihtiyacınız vardır:

  • Performansı test etmek istediğiniz çalışan bir Azure Machine Learning istem akışı.

  • Toplu çalıştırma için kullanılacak bir test veri kümesi.

    Test veri kümeniz CSV, TSV veya JSONL biçiminde olmalı ve akışınızın giriş adlarıyla eşleşen üst bilgiler içermelidir. Ancak, değerlendirme çalıştırması kurulum işlemi sırasında farklı veri kümesi sütunlarını giriş sütunlarıyla eşleyebilirsiniz.

Değerlendirme toplu işlemi çalıştırması oluşturma ve gönderme

Toplu çalıştırma göndermek için akışınızı test etmek için veri kümesini seçersiniz. Akış çıkışınızın ölçümlerini hesaplamak için bir değerlendirme yöntemi de seçebilirsiniz. Değerlendirme yöntemi kullanmak istemiyorsanız, değerlendirme adımlarını atlayabilir ve herhangi bir ölçüm hesaplamadan toplu çalıştırmayı çalıştırabilirsiniz. Daha sonra bir değerlendirme turu da çalıştırabilirsiniz.

  1. Değerlendirmeyle veya değerlendirme olmadan toplu iş çalıştırması başlatmak için, istem akışı sayfanızın üst kısmındaki Değerlendir'i seçin.

    Toplu çalıştırmanın vurgulandığı Web Sınıflandırması'nın ekran görüntüsü.

  2. Batch çalıştırma ve Değerlendirme sihirbazının Temel ayarlar sayfasında, isterseniz Çalıştır görünen adını özelleştirin ve isteğe bağlı olarak bir Çalıştırma açıklaması ve Etiketler sağlayın. İleri'yi seçin.

    Çalıştırma adını ve açıklamasını belirttiğiniz toplu çalıştırma ayarlarının ekran görüntüsü.

  3. Batch çalıştırma ayarları sayfasında, kullanılacak veri kümesini seçin ve giriş eşlemesini yapılandırın.

    İstem akışı, akış girişinizi veri kümenizdeki belirli bir veri sütununa eşlemeyi destekler. kullanarak ${data.<column>}belirli bir girişe veri kümesi sütunu atayabilirsiniz. Bir girişe sabit bir değer atamak istiyorsanız, bu değeri doğrudan girebilirsiniz.

    Test veri kümesini seçtiğiniz toplu çalıştırma ayarlarının ekran görüntüsü.

  4. Değerlendirme adımlarını atlamak ve toplu çalıştırmayı herhangi bir değerlendirme yöntemi kullanmadan çalıştırmak için bu noktada Gözden Geçir + gönder'i seçebilirsiniz. Toplu çalıştırma daha sonra veri kümenizdeki her öğe için ayrı çıkışlar oluşturur. Çıktıları el ile denetleyebilir veya daha fazla analiz için dışarı aktarabilirsiniz.

    Aksi takdirde, bu çalıştırmanın performansını doğrulamak için bir değerlendirme yöntemi kullanmak için İleri'yi seçin. Tamamlanmış bir toplu iş çalıştırmasına yeni bir değerlendirme turu da ekleyebilirsiniz.

  5. Değerlendirme seç sayfasında, çalıştırılacak bir veya daha fazla özelleştirilmiş veya yerleşik değerlendirmeyi seçin. Oluşturduğu ölçümler ve gerekli bağlantılar ve girişler gibi değerlendirme yöntemi hakkında daha fazla bilgi görmek için Ayrıntıları görüntüle düğmesini seçebilirsiniz.

    Yerleşik değerlendirme yöntemini seçebileceğiniz değerlendirme ayarlarının ekran görüntüsü.

  6. Ardından Değerlendirmeyi yapılandır ekranında değerlendirme için gerekli girişlerin kaynaklarını belirtin. Örneğin, temel gerçeklik sütunu bir veri kümesinden gelebilir. Varsayılan olarak değerlendirme, genel toplu iş çalıştırması ile aynı veri kümesini kullanır. Ancak, karşılık gelen etiketler veya hedef gerçek değerleri farklı bir veri kümesindeyse, bunu kullanabilirsiniz.

    Not

    Değerlendirme yönteminiz veri kümesinden veri gerekmiyorsa, veri kümesi seçimi değerlendirme sonuçlarını etkilemeyen isteğe bağlı bir yapılandırmadır. Veri kümesi seçmeniz veya giriş eşlemesi bölümündeki veri kümesi sütunlarına başvurmanız gerekmez.

  7. Değerlendirme giriş eşlemesi bölümünde, değerlendirme için gerekli girişlerin kaynaklarını belirtin.

    • Veriler test veri kümenizden geliyorsa kaynağı olarak ${data.[ColumnName]}ayarlayın.
    • Veriler çalıştırma çıkışınızdan geliyorsa kaynağı olarak ${run.outputs.[OutputName]}ayarlayın.

    Değerlendirme giriş eşlemesinin ekran görüntüsü.

  8. Bazı değerlendirme yöntemleri GPT-4 veya GPT-3 gibi Büyük Dil Modelleri (LLM) gerektirir veya kimlik bilgilerini veya anahtarları kullanmak için başka bağlantılara ihtiyaç duyar. Bu yöntemler için, değerlendirme akışını kullanabilmek için bu ekranın alt kısmındaki Bağlantı bölümüne bağlantı verilerini girmeniz gerekir. Daha fazla bilgi için bkz . Bağlantı kurma.

    Değerlendirme yöntemi için bağlantıyı yapılandırabileceğiniz bağlantının ekran görüntüsü.

  9. Ayarlarınızı gözden geçirmek için Gözden geçir + gönder'i ve ardından toplu işlemi değerlendirmeyle başlatmak için Gönder'i seçin.

Not

  • Bazı değerlendirme işlemleri birçok belirteç kullandığı için =16k belirteçleri destekleyebilecek >bir model kullanılması önerilir.
  • Toplu çalıştırmaların süresi en fazla 10 saattir. Toplu çalıştırma bu sınırı aşarsa sonlandırılır ve başarısız olarak gösterilir. Azaltmayı önlemek için LLM kapasitenizi izleyin. Gerekirse verilerinizin boyutunu küçültmeyi göz önünde bulundurun. Sorun yaşamaya devam ediyorsanız bir geri bildirim formu veya destek isteği gönderin.

Değerlendirme sonuçlarını ve ölçümlerini görüntüleme

Gönderilen toplu çalıştırmaların listesini Azure Machine Learning stüdyosu İstem akışı sayfasındaki Çalıştırmalar sekmesinde bulabilirsiniz.

  1. Toplu çalıştırmanın sonuçlarını denetlemek için çalıştırmayı seçin ve ardından Çıktıları görselleştir'i seçin.

    Toplu çalıştırmaları bulduğunuz istem akışı çalıştırma listesi sayfasının ekran görüntüsü.

    Çıktıları görselleştir ekranında, Çalıştırmalar ve ölçümler bölümünde toplu çalıştırma ve değerlendirme çalıştırmasının genel sonuçları gösterilir. Çıkışlar bölümü, satır kimliği, Çalıştırma, Durum ve Sistem ölçümlerini de içeren bir sonuç tablosundaki çalıştırma girişlerini satır satır gösterir.

    Toplu çalıştırma çıktılarını denetlediğiniz çıkışlar sekmesinde toplu çalıştırma sonuç sayfasının ekran görüntüsü.

  2. Çalıştırmalar ve ölçümler bölümünde değerlendirme çalıştırmasının yanındaki Görünüm simgesini etkinleştirirseniz, Çıkışlar tablosu her satırın değerlendirme puanını veya notunu da gösterir.

    Değerlendirme çıktısını eklemek için toplu çalıştırma çıktılarının ekran görüntüsü.

  3. Bu test çalışması için İzleme görünümünü ve Ayrıntıları gözlemlemek ve hatalarını ayıklamak için Çıkışlar tablosundaki her satırın yanındaki Ayrıntıları görüntüle simgesini seçin. İzleme görünümü, söz konusu durum için Belirteç sayısı ve süre gibi bilgileri gösterir. Bu adıma ilişkin Genel Bakış ve Girişler'i görmek için herhangi bir adımı genişletin ve seçin.

    Genişletilmiş adımları ve ayrıntıları içeren İzleme görünümünün ekran görüntüsü.

Ayrıca, test ettiğiniz istem akışından değerlendirme çalıştırması sonuçlarını görüntüleyebilirsiniz. Toplu çalıştırmaları görüntüle'nin altında Toplu iş çalıştırmalarını görüntüle'yi seçerek akışa yönelik toplu çalıştırmaların listesini görüntüleyin veya en son çalıştırmanın çıkışlarını görmek için En son toplu çalıştırma çıktılarını görüntüle'yi seçin.

Toplu çalıştırmaları görüntüle düğmesinin seçili olduğu Web Sınıflandırması'nın ekran görüntüsü.

Toplu çalıştırma listesinde bir toplu çalıştırma adı seçerek bu çalıştırmanın akış sayfasını açın.

Değerlendirme çalıştırması için akış sayfasında Çıkışları görüntüle'yi veya akışın ayrıntılarını görmek için Ayrıntılar'ı seçin. Yeni bir akış oluşturmak için akışı klonlayabilir veya çevrimiçi uç nokta olarak dağıtabilirsiniz .

Geçmişi gösteren toplu çalıştırma çalıştırmalarının ekran görüntüsü.

Ayrıntılar ekranında:

  • Genel Bakış sekmesinde çalıştırma özellikleri, giriş veri kümesi, çıkış veri kümesi, etiketler ve açıklama gibi çalıştırma hakkında kapsamlı bilgiler gösterilir.

  • Çıkışlar sekmesi, sayfanın üst kısmında sonuçların özetini ve ardından toplu çalıştırma sonuçları tablosunu gösterir. İlişkili sonuçları ekle'nin yanındaki değerlendirme çalıştırmasını seçerseniz, tabloda değerlendirme çalıştırması sonuçları da gösterilir.

    Değerlendirme akışı Ayrıntıları ekranının Çıkışlar sekmesinin ekran görüntüsü.

  • Günlükler sekmesi çalıştırma günlüklerini gösterir. Bu, yürütme hatalarının ayrıntılı hata ayıklaması için yararlı olabilir. Günlük dosyalarını indirebilirsiniz.

  • Ölçümler sekmesi çalıştırmanın ölçümlerine bir bağlantı sağlar.

  • İzleme sekmesi, her test çalışması için Belirteç sayısı ve süre gibi ayrıntılı bilgileri gösterir. Bu adıma ilişkin Genel Bakış ve Girişler'i görmek için herhangi bir adımı genişletin ve seçin.

  • Anlık Görüntü sekmesi çalıştırmadaki dosyaları ve kodu gösterir. flow.dag.yaml akış tanımını görebilir ve dosyalardan herhangi birini indirebilirsiniz.

    Toplu çalıştırma anlık görüntüsünün ekran görüntüsü.

Aynı çalıştırma için yeni bir değerlendirme turu başlatma

Akışı yeniden çalıştırmadan tamamlanmış bir toplu iş çalıştırmasının ölçümlerini hesaplamak için yeni bir değerlendirme turu çalıştırabilirsiniz. Bu işlem akışınızı yeniden çalıştırma maliyetinden tasarruf eder ve aşağıdaki senaryolarda yararlı olur:

  • Toplu çalıştırma gönderirken bir değerlendirme yöntemi seçmediyseniz ve şimdi çalıştırma performansını değerlendirmek istiyorsunuz.
  • Belirli bir ölçümü hesaplamak için bir değerlendirme yöntemi kullandınız ve şimdi farklı bir ölçümü hesaplamak istiyorsunuz.
  • Önceki değerlendirme çalıştırmanız başarısız oldu, ancak toplu çalıştırma başarıyla çıktılar oluşturdu ve değerlendirmeyi yeniden denemek istiyorsunuz.

Başka bir değerlendirme turu başlatmak için toplu çalıştırma akışı sayfasının üst kısmındaki Değerlendir'i seçin. Yeni değerlendirme sihirbazı Değerlendirme seç ekranında açılır. Kurulumu tamamlayın ve yeni değerlendirme çalıştırmasını gönderin.

Yeni çalıştırma, istem akışı Çalıştırma listesinde görünür ve listeden birden fazla satır seçebilir ve ardından çıkışları ve ölçümleri karşılaştırmak için Çıktıları görselleştir'i seçebilirsiniz.

Değerlendirme çalıştırma geçmişini ve ölçümlerini karşılaştırma

Akışınızı performansını geliştirmek için değiştirirseniz, farklı akış sürümlerinin performansını karşılaştırmak için birden çok toplu iş çalıştırması gönderebilirsiniz. Hangi yöntemin akışınız için daha uygun olduğunu görmek için farklı değerlendirme yöntemleriyle hesaplanan ölçümleri de karşılaştırabilirsiniz.

Akış toplu çalıştırma geçmişinizi denetlemek için akış sayfanızın üst kısmındaki Toplu çalıştırmaları görüntüle'yi seçin. Ayrıntıları denetlemek için her çalıştırmayı seçebilirsiniz. Ayrıca birden çok çalıştırma seçebilir ve bu çalıştırmaların ölçümlerini ve çıkışlarını karşılaştırmak için Çıktıları görselleştir'i seçebilirsiniz.

Birden çok toplu çalıştırmayı karşılaştıran ölçümlerin ekran görüntüsü.

Yerleşik değerlendirme ölçümlerini anlama

Azure Machine Learning istem akışı, akış çıkışınızın performansını ölçmenize yardımcı olmak için çeşitli yerleşik değerlendirme yöntemleri sağlar. Her değerlendirme yöntemi farklı ölçümleri hesaplar. Aşağıdaki tabloda, kullanılabilir yerleşik değerlendirme yöntemleri açıklanmaktadır.

Değerlendirme yöntemi Metrik Sistem Açıklama Bağlantı gerekli mi? Gerekli giriş Puan değerleri
Sınıflandırma Doğruluğu Değerlendirmesi Doğruluk Çıkışlarını temel gerçekle karşılaştırarak sınıflandırma sisteminin performansını ölçer Hayır tahmin, temel gerçek [0, 1] aralığında
Soru-Cevap Topraklama Değerlendirmesi Temellilik Modelin tahmin edilen yanıtlarının giriş kaynağında ne kadar temellendiğini ölçer. LLM yanıtları doğru olsa bile, kaynakta doğrulanmıyorsa bunlar ön planda olmaz. Yes soru, yanıt, bağlam (temel gerçek yok) 1 = en kötü ve 5 = en iyi ile 1 ile 5 arasında
Soru-Cevap GPT Benzerlik Değerlendirmesi GPT Benzerliği GpT modeli kullanarak kullanıcı tarafından sağlanan temel gerçek yanıtları ile modelin tahmin edilen yanıtı arasındaki benzerliği ölçer Yes soru, yanıt, temel gerçek (bağlam gerekli değil) 1 = en kötü ve 5 = en iyi ile 1 ile 5 arasında
Soru-Cevap İlgi Değerlendirmesi İlgi Modelin tahmin edilen yanıtlarının sorulan sorularla ne kadar ilgili olduğunu ölçer Yes soru, yanıt, bağlam (temel gerçek yok) 1 = en kötü ve 5 = en iyi ile 1 ile 5 arasında
Soru-Cevap Tutarlılığı Değerlendirmesi Yapışma Modelin tahmin edilen yanıtında tüm cümlelerin kalitesini ve bunların doğal olarak nasıl bir araya geldiklerini ölçer Yes soru, yanıt (temel gerçek veya bağlam yok) 1 = en kötü ve 5 = en iyi ile 1 ile 5 arasında
Soru-Cevap Akıcılık Değerlendirmesi Akıcılık Modelin tahmin edilen yanıtının dil bilgisi ve dilsel doğruluğunu ölçer Yes soru, yanıt (temel gerçek veya bağlam yok) 1 = en kötü ve 5 = en iyi ile 1 ile 5 arasında
Soru-Cevap F1 Puan Değerlendirmesi F1 puanı Model tahmini ile temel gerçek arasındaki paylaşılan sözcük sayısının oranını ölçer Hayır soru, yanıt, temel gerçek (bağlam gerekli değil) [0, 1] aralığında
Soru-Cevap Ada Benzerlik Değerlendirmesi Ada Benzerliği Hem temel gerçek hem de tahmin için Ada embeddings API'sini kullanarak tümce (belge) düzeyinde eklemeleri hesaplar, ardından bunlar arasındaki kosinüs benzerliğini hesaplar (bir kayan nokta sayısı) Yes soru, yanıt, temel gerçek (bağlam gerekli değil) [0, 1] aralığında

Akış performansını geliştirme

Çalıştırmanız başarısız olursa çıkış ve günlük verilerini denetleyin ve herhangi bir akış hatasının hatalarını ayıklayın. Akışı düzeltmek veya performansı geliştirmek için akış istemini, sistem iletisini, akış parametrelerini veya akış mantığını değiştirmeyi deneyin.

İstem mühendisliği

İstem oluşturma zor olabilir. İstem oluşturma kavramları hakkında bilgi edinmek için bkz . istemlere genel bakış. Hedeflerinize ulaşmanıza yardımcı olabilecek bir istem oluşturmayı öğrenmek için bkz . Komut istemi mühendislik teknikleri.

Sistem iletisi

Yapay zeka sisteminin davranışına yol göstermek ve sistem performansını geliştirmek için bazen metaprompt veya sistem istemi olarak da adlandırılan sistem iletisini kullanabilirsiniz. Sistem iletileriyle akış performansınızı nasıl geliştireceğinizi öğrenmek için bkz . Sistem iletileri adım adım yazma.

Altın veri kümeleri

LLM'leri kullanan bir yardımcı pilot oluşturmak için genellikle kaynak veri kümelerini kullanarak modelin gerçekliğe topraklanması gerekir. Altın renkli veri kümesi , LLM'lerin müşteri sorgularına en doğru ve yararlı yanıtları sağlamasına yardımcı olur.

Altın renkli veri kümesi, yardımcı pilotunuzun kullandığı LLM'ler için kalite güvencesi aracı görevi görecek gerçekçi müşteri sorularından ve uzmanca hazırlanmış yanıtlardan oluşan bir koleksiyondur. Altın veri kümeleri llm eğitmek veya bir LLM istemine bağlam eklemek için değil, LLM'nin oluşturduğu yanıtların kalitesini değerlendirmek için kullanılır.

Senaryonuzda bir yardımcı pilot varsa veya kendi yardımcı pilotunuzu oluşturuyorsanız ayrıntılı yönergeler ve en iyi yöntemler için bkz . Altın Veri Kümeleri Oluşturma.