Azure AI 검색에서 사용하는 콘텐츠 메타데이터 속성
Azure Blob Storage, Azure Data Lake Storage Gen2 및 SharePoint를 비롯한 여러 인덱서 지원 데이터 원본에는 독립 실행형 파일 또는 다양한 콘텐츠 형식의 포함된 개체가 포함되어 있습니다. 이러한 콘텐츠 유형의 대부분에는 인덱싱에 유용한 메타데이터 속성이 있습니다. metadata_storage_name
과 같은 표준 Blob 속성 관련 검색 필드를 생성할 수 있는 것과 마찬가지로 문서 형식에 대해 지정된 메타데이터 속성에 대해 검색 인덱스에서 필드를 만들 수 있습니다.
지원되는 문서 형식
Azure AI 검색은 다음 문서 형식에 대해 Blob 인덱싱과 SharePoint 문서 인덱싱을 지원합니다.
- CSV(CSV Blob 인덱싱 참조)
- EML
- EPUB
- GZ
- HTML
- JSON(JSON BLOB 인덱싱 참조)
- KML(지리적 표현을 위한 XML)
- Microsoft Office 형식: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG(Outlook 메일), XML(2003 및 2006 WORD XML 모두)
- 오픈 문서 형식: ODT, ODS, ODP
- 일반 텍스트 파일(일반 텍스트 인덱싱도 참조)
- RTF
- XML
- ZIP
문서 형식 속성
다음 표에서는 각 문서 형식에 대한 처리를 요약하고 Blob 인덱서 및 SharePoint Online 인덱서에서 추출한 메타데이터 속성에 관해 설명합니다.
문서 형식/콘텐츠 형식 | 추출한 메타데이터 | 처리 세부 정보 |
---|---|---|
CSV(text/csv) | metadata_content_type metadata_content_encoding |
텍스트 추출 참고: CSV Blob에서 여러 문서 필드를 추출해야 하는 경우 CSV Blob 인덱스를 참조 하세요. |
DOC(application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
포함된 문서를 비롯한 텍스트 추출 |
DOCM(application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
포함된 문서를 비롯한 텍스트 추출 |
DOCX(application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
포함된 문서를 비롯한 텍스트 추출 |
EML(메시지/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
첨부 파일을 비롯한 텍스트 추출 |
EPUB(application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
보관 파일의 모든 문서에서 텍스트 추출 |
GZ(application/gzip) | metadata_content_type |
보관 파일의 모든 문서에서 텍스트 추출 |
HTML(text/html 또는 application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
HTML 요소 제거 및 텍스트 추출 |
JSON (application/json) | metadata_content_type metadata_content_encoding |
텍스트 추출 참고: JSON Blob에서 여러 문서 필드를 추출해야 하는 경우 인덱스 JSON Blob을 참조 하세요. |
KML(application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
XML 요소 제거 및 텍스트 추출 |
MSG(application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
첨부 파일에서 추출한 텍스트를 포함해 텍스트를 추출합니다. metadata_message_to_email , metadata_message_cc_email 문자열 metadata_message_bcc_email 컬렉션입니다. 나머지 필드는 문자열입니다. |
ODP(application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
포함된 문서를 비롯한 텍스트 추출 |
ODS(application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
포함된 문서를 비롯한 텍스트 추출 |
ODT(application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
포함된 문서를 비롯한 텍스트 추출 |
PDF(application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
포함된 문서를 비롯한 텍스트 추출(이미지 제외) |
일반 텍스트(text/plain) | metadata_content_type metadata_content_encoding metadata_language |
텍스트 추출 |
PPT(application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
포함된 문서를 비롯한 텍스트 추출 |
PPTM(application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
포함된 문서를 비롯한 텍스트 추출 |
PPTX(application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
포함된 문서를 비롯한 텍스트 추출 |
RTF(application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
텍스트 추출 |
WORD 2003 XML(application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
XML 요소 제거 및 텍스트 추출 |
WORD XML(application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
XML 요소 제거 및 텍스트 추출 |
XLS(application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
포함된 문서를 비롯한 텍스트 추출 |
XLSM(application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
포함된 문서를 비롯한 텍스트 추출 |
XLSX(application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
포함된 문서를 비롯한 텍스트 추출 |
XML(application/xml) | metadata_content_type metadata_content_encoding metadata_language |
XML 요소 제거 및 텍스트 추출 |
ZIP(application/zip) | metadata_content_type |
보관 파일의 모든 문서에서 텍스트 추출 |