Belge Düzeni becerisi
Not
Bu özellik şu anda genel önizlemededir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.
Belge Düzeni becerisi, belgenin Markdown biçimindeki bozulmamış bir gösterimini oluşturmak üzere bir belgeyi analiz ederek ilgi çekici bölgeleri ve bunların ilişkileri arasındaki ilişkileri ayıklar. Bu beceri, Azure AI Belge Zekası'nda sağlanan Belge Zekası düzen modelini kullanır.
Bu makale, Belge Düzeni becerisine yönelik başvuru belgeleridir. Kullanım bilgileri için bkz . Yapıya duyarlı öbekleme ve vektörleştirme.
Belge Düzeni becerisi, Belge Zekası Genel önizleme sürümü 2024-07-31-preview'i çağırır. Şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir:
- Doğu ABD
- Batı ABD 2
- West Europe
- Orta Kuzey ABD
Desteklenen dosya biçimleri şunlardır:
- . JPEG
- .JPG
- .PNG
- .BMP
- . TIFF
- .DOCX
- . XLSX
- .PPTX
- .HTML
Not
Bu beceri Azure AI hizmetlerine bağlıdır ve günlük dizin oluşturucu başına 20 belgeyi aşan işlemler için faturalanabilir bir kaynak gerektirir. Yerleşik becerilerin yürütülmesi, mevcut Azure AI hizmetlerinin kullandıkça öde fiyatından ücretlendirilir.
@odata.type
Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill
Veri sınırları
- PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
- Belgeleri analiz etmek için dosya boyutu Azure AI Document Intelligence ücretli (S0) katmanı için 500 MB ve Azure AI Document Intelligence ücretsiz (F0) katmanı için 4 MB olsa bile dizin oluşturma, arama hizmeti katmanınızın dizin oluşturucu sınırlarına tabidir.
- Görüntü boyutları 50 piksel x 50 piksel veya 10.000 piksel x 10.000 piksel arasında olmalıdır.
- PDF'leriniz parola kilitliyse, dizin oluşturucuyu çalıştırmadan önce kilidi kaldırın.
Desteklenen diller
Yazdırılan metin için desteklenen Azure AI Belge Zekası düzen modeli dillerine bakın.
Sınırlamalar
Genel önizleme sırasında bu beceri aşağıdaki kısıtlamalara sahiptir:
- Beceri, belgelere eklenmiş görüntüleri ayıklayamaz.
- Sayfa numaraları oluşturulan çıkışa dahil değildir.
- Bu beceri, yapay zeka belge zekası düzen modelinde 5 dakikadan fazla işleme gerektiren büyük belgeler için uygun değildir. Beceri zaman aşımına uğradı, ancak faturalama amacıyla beceri kümesine ekliyse yapay zeka hizmetleri çoklu hizmetler kaynağı için ücretler geçerli olmaya devam edecektir. Gereksiz maliyetleri önlemek için belgelerin işleme sınırları içinde kalacak şekilde iyileştirildiğinden emin olun.
Beceri parametreleri
Parametreler büyük/küçük harfe duyarlıdır.
Parametre adı | İzin Verilen Değerler | Açıklama |
---|---|---|
outputMode |
oneToMany |
Beceri tarafından üretilen çıkışın kardinalitesini denetler. |
markdownHeaderDepth |
h1 , h2 , h3 , , h4 , h5 , h6(default) |
Bu parametre, dikkate alınması gereken en derin iç içe yerleştirme düzeyini açıklar. Örneğin, markdownHeaderDepth "h3" olarak belirtilirse, h3'ten daha derin olan herhangi bir markdown bölümü (#### ve daha derin) üst öğesinin hangi düzeyde olursa olsun eklenmesi gereken "içerik" olarak kabul edilir. |
Beceri girişleri
Giriş adı | Açıklama |
---|---|
file_data |
İçeriğin ayıklanması gereken dosya. |
"file_data" girişi şu şekilde tanımlanan bir nesne olmalıdır:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternatif olarak, şu şekilde tanımlanabilir:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Dosya başvuru nesnesi aşağıdaki yollardan biriyle oluşturulabilir:
Dizin oluşturucu tanımınızdaki parametreyi
allowSkillsetToReadFileData
true olarak ayarlama. Bu ayar, blob veri kaynağınızdan indirilen özgün dosya verilerini temsil eden bir nesne olan bir yol/document/file_data
oluşturur. Bu parametre yalnızca Azure Blob depolamadaki dosyalar için geçerlidir.,
data
veyaurl
vesastoken
sağlayan$type
tanımlanmış bir JSON nesnesi döndüren özel bir beceriye sahip olma.$type
parametresi olarak ayarlanmalıdırfile
vedata
dosya içeriğinin 64 tabanlı kodlanmış bayt dizisi olmalıdır. parametresi,url
dosyayı bu konumda indirmek için erişime sahip geçerli bir URL olmalıdır.
Beceri çıkışları
Çıkış adı | Açıklama |
---|---|
markdown_document |
Markdown belgesindeki her bir bölümü temsil eden "sections" nesnelerinin koleksiyonu. |
Örnek tanım
{
"skills": [
{
"description": "Analyze a document",
"@odata.type": "#Microsoft.Skills.Util.DocumentLayoutAnalysisSkill",
"context": "/document",
"outputMode": "oneToMany",
"markdownHeaderDepth": "h3",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "markdown_document",
"targetName": "markdown_document"
}
]
}
]
}
Örnek çıktı
{
"markdown_document": [
{
"content": "Hi this is Jim \r\nHi this is Joe",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": ""
},
"ordinal_position": 0
},
{
"content": "Hi this is Lance",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": "Boo"
},
"ordinal_position": 1,
}
]
}
değerinin markdownHeaderDepth
değeri, "sections" sözlüğündeki anahtar sayısını denetler. Örnek beceri tanımında , "h3" olduğundan markdownHeaderDepth
, "sections" sözlüğünde üç anahtar vardır: h1, h2, h3.