빠른 시작: Azure Portal에서 기술 세트 만들기

아티클
11/23/2024

이 빠른 시작에서는 Azure AI Search의 기술 세트가 OCR(광학 문자 인식), 이미지 분석, 언어 감지, 텍스트 번역 및 엔터티 인식을 추가하여 검색 인덱스에 텍스트 검색 가능한 콘텐츠를 생성하는 방법을 알아봅니다.

Azure Portal에서 데이터 가져오기 마법사를 실행하여 인덱싱 중에 텍스트 콘텐츠를 생성 및 변환하는 기술을 적용할 수 있습니다. 입력은 원시 데이터(일반적으로 Azure Storage의 Blob)입니다. 출력은 AI에서 생성된 이미지 텍스트, 캡션, 엔터티를 포함하는 검색 가능한 인덱스입니다. 생성된 콘텐츠는 검색 탐색기를 사용하여 Azure Portal에서 쿼리할 수 있습니다.

준비하려면 마법사를 실행하기 전에 몇 가지 리소스를 만들고 샘플 파일을 업로드합니다.

필수 조건

활성 구독이 있는 Azure 계정. 체험 계정을 만듭니다.
Azure AI Search 서비스를 만들거나 기존 서비스를 찾습니다. 이 빠른 시작에서는 체험 서비스를 사용할 수 있습니다.
Azure Blob Storage를 사용하는 Azure Storage 계정.

참고 항목

이 빠른 시작에서는 Azure AI 서비스를 사용하여 AI 변환을 수행합니다. 워크로드가 너무 작으므로 Azure AI 서비스는 최대 20개의 트랜잭션을 무료로 처리하기 위해 백그라운드에서 탭으로 처리됩니다. Azure AI 다중 서비스 리소스를 만들지 않고도 이 연습을 완료할 수 있습니다.

데이터를 설정합니다.

다음 단계에서는 다른 유형의 콘텐츠 파일을 저장할 Azure Storage의 blob 컨테이너를 설정합니다.

여러 종류의 작은 파일 집합으로 구성된 샘플 데이터를 다운로드하세요.
Azure 계정을 사용하여 Azure Portal 에 로그인합니다.
Azure Storage 계정을 만들거나 기존 계정을 찾습니다.
- 대역폭 요금이 부과되지 않도록 Azure AI 검색과 동일한 지역을 선택합니다.
- StorageV2(범용 V2)를 선택합니다.
Azure Portal에서 Azure Storage 페이지를 열고 컨테이너를 만듭니다. 기본 액세스 수준을 사용할 수 있습니다.
컨테이너에서 업로드를 선택하여 샘플 파일을 업로드합니다. 전체 텍스트를 해당 네이티브 형식으로 검색할 수 없는 이미지와 애플리케이션 파일을 포함하여 다양한 콘텐츠 형식이 있습니다.

이제 데이터 가져오기 마법사로 이동할 준비가 되었습니다.

데이터 가져오기 마법사 실행

Azure 계정을 사용하여 Azure Portal 에 로그인합니다.
검색 서비스 찾기. 개요 페이지에서 명령 모음에서 데이터 가져오기를 선택하여 4단계로 검색 가능한 콘텐츠를 만듭니다.

1단계: 데이터 소스 만들기

데이터에 연결에서 Azure Blob 스토리지를 선택합니다.
사용자가 만든 스토리지 계정에 대한 기존 연결을 선택하고 생성한 컨테이너를 선택합니다. 데이터 원본의 이름을 지정하고, 나머지는 기본값을 사용합니다.

다음 페이지를 계속합니다.

데이터 원본에서 인덱스 스키마를 검색하는 동안 오류가 발생하면 마법사를 구동하는 인덱서가 데이터 원본에 연결할 수 없습니다. 대부분의 경우 데이터 원본에는 보안 보호가 있습니다. 다음 솔루션을 시도한 다음, 마법사를 다시 실행합니다.

보안 기능	솔루션
리소스에 Azure 역할이 필요하거나 해당 액세스 키를 사용할 수 없습니다.	신뢰할 수 있는 서비스로 연결 또는 관리 ID를 사용하여 연결
리소스가 IP 방화벽 뒤에 있음	검색 및 Azure Portal에 대한 인바운드 규칙 만들기
리소스에는 프라이빗 엔드포인트 연결이 필요함	프라이빗 엔드포인트에 연결

2단계: 인식 기술 추가

다음으로, OCR, 이미지 분석 및 자연어 처리를 호출하도록 AI 보강을 구성합니다.

OCR 및 이미지 분석은 Azure Blob Storage 및 ADLS(Azure Data Lake Storage) Gen2의 Blob 및 OneLake의 이미지 콘텐츠에 사용할 수 있습니다. 이미지는 독립 실행형 파일이거나 PDF 또는 기타 파일에 포함된 이미지일 수 있습니다.

이 빠른 시작에서는 무료 Azure AI 서비스 리소스를 사용합니다. 샘플 데이터는 14개의 파일로 구성되므로 이 빠른 시작에서는 Azure AI 서비스에서 20개의 트랜잭션을 무료로 할당하는 것으로 충분합니다.
보강 추가를 확장하고 4개를 선택합니다.

마법사 페이지에 이미지 분석 기술을 추가하려면 OCR을 사용하도록 설정합니다.

엔터티 인식(사람, 조직 및 위치)과 이미지 분석 기술(태그, 캡션)을 선택합니다.

다음 페이지를 계속합니다.

3단계: 인덱스 구성

인덱스는 검색 가능한 콘텐츠를 포함하고 있으며, 데이터 가져오기 마법사는 일반적으로 데이터 원본을 샘플링하여 스키마를 만들 수 있습니다. 이 단계에서는 생성된 스키마를 검토하고, 잠재적으로 설정을 수정할 수 있습니다.

이 빠른 시작에서 마법사는 기본값을 적절하게 설정합니다.

기본 필드는 기존 Blob의 데이터 속성과 보강 출력을 포함하는 새 필드(예: people, organizations, locations)를 기반으로 합니다. 데이터 형식은 메타데이터 및 데이터 샘플링에서 유추됩니다.
기본 문서 키는 metadata_storage_path입니다(필드에 고유 값이 포함되어 있으므로 선택됨).
기본 특성은 조회 가능하고 검색 가능합니다. 검색 가능은 필드의 전체 텍스트 검색을 허용합니다. 조회 가능은 필드 값을 결과에 반환할 수 있다는 뜻입니다. 마법사는 사용자가 기술 세트를 통해 필드를 생성했기 때문에 이 필드를 조회 및 검색 가능하도록 하려고 한다고 가정합니다. 필터 식에서 필드를 사용하려면 필터링 가능을 선택합니다.

필드를 조회 가능으로 표시한다고 해서 필드가 검색 결과에 반드시 나타나야 하는 것은 아닙니다. select 쿼리 매개 변수로 포함할 필드를 지정하여 검색 결과의 구성을 제어할 수 있습니다.

다음 페이지를 계속합니다.

4단계: 인덱서 구성

인덱서는 인덱싱 프로세스를 구동합니다. 인덱서는 데이터 원본 이름, 대상 인덱스 및 실행 빈도를 지정합니다. 데이터 가져오기 마법사는 여러 개체를 만들고, 다시 설정하고 반복적으로 실행할 수 있는 인덱서를 포함합니다.

인덱서 페이지에서 기본 이름을 적용하고, 한 번을 선택합니다.
제출을 선택하여 인덱서를 만드는 동시에 실행합니다.

상태 모니터링

왼쪽 탐색 창에서 인덱서를 선택하여 상태를 모니터링한 다음, 인덱서를 선택합니다. 기술 기반 인덱싱은 텍스트 기반 인덱싱, 특히 OCR 및 이미지 분석보다 오래 걸립니다.

실행 상태에 대한 세부 정보를 확인하려면 성공(또는 실패)을 선택하여 실행 세부 정보를 봅니다.

이 데모에는 "하나 이상의 기술 입력이 잘못되었기 때문에 기술을 실행할 수 없습니다."라는 몇 가지 경고 가 있습니다. 데이터 원본의 PNG 파일이 엔터티 인식에 대한 텍스트 입력을 제공하지 않음을 알려줍니다. 이 경고는 업스트림 OCR 기술이 이미지의 텍스트를 인식하지 못하여 다운스트림 엔터티 인식 기술에 텍스트 입력을 제공할 수 없기 때문에 발생합니다.

경고는 기술 세트 실행에서 일반적입니다. 데이터가 반복되는 기술에 익숙해지면 패턴을 발견하고 무시해도 안전한 경고를 알아볼 수 있습니다.

Search 탐색기에서 쿼리

인덱스가 생성된 후에는 검색 탐색기를 사용하여 결과를 반환할 수 있습니다.

왼쪽에서 인덱스를 선택한 다음, 인덱스를 선택합니다. 검색 탐색기는 첫 번째 탭에 있습니다.
satya nadella처럼 인덱스를 쿼리하는 검색 문자열을 입력합니다. 검색 창에는 키워드, 따옴표로 묶인 구 및 연산자가 허용됩니다. "Satya Nadella" +"Bill Gates" +"Steve Ballmer"

결과는 자세한 JSON으로 반환되어 특히 대용량 문서에서 읽기 어려울 수 있습니다. 이 도구를 검색하는 몇 가지 팁은 다음과 같습니다.

결과를 형성하는 매개 변수를 지정하려면 JSON 보기로 전환합니다.
결과에서 필드를 제한하려면 select를 추가합니다.
일치 항목 수를 표시하려면 count를 추가합니다.
JSON 내에서 특정 속성 또는 용어를 검색하려면 CTRL-F를 사용합니다.

보기에 붙여넣을 수 있는 몇 가지 JSON은 다음과 같습니다.

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

팁

쿼리 문자열은 대/소문자를 구분하므로 "알 수 없는 필드" 메시지가 표시되면 필드 또는 인덱스 정의(JSON)를 검사하여 이름과 대/소문자를 확인합니다.

핵심 내용

이제 첫 번째 기술 세트를 만들고 기술 기반 인덱싱의 기본 단계를 알아보았습니다.

여러분이 기억했으면 하는 주요 개념 중 하나는 종속성입니다. 기술 세트는 인덱서에 바인딩되며, 인덱서는 Azure 및 원본 전용입니다. 이 빠른 시작에서는 Azure Blob Storage를 사용하지만 다른 Azure 데이터 원본도 가능합니다. 자세한 내용은 Azure AI 검색의 인덱서를 참조하세요.

또 다른 중요한 개념은 기술이 콘텐츠 형식에 대해 작동하며, 다른 형식의 콘텐츠를 사용하는 경우 일부 입력이 생략될 수 있다는 것입니다. 또한 많은 파일 또는 필드가 서비스 계층의 인덱서 한도를 초과할 수 있습니다. 이러한 이벤트가 발생할 때 경고가 표시되는 것이 일반적입니다.

출력은 검색 인덱스로 라우팅되고 인덱싱 중에 만들어진 이름-값 쌍과 인덱스의 개별 필드 간에 매핑됩니다. 내부적으로, 마법사는 보강 트리를 설정하고 기술 세트를 정의하여 작업 및 일반적인 흐름의 순서를 설정합니다. 이러한 단계는 마법사에서 숨겨지지만, 코드 작성을 시작할 때에는 해당 개념이 중요합니다.

마지막으로 인덱스 쿼리를 통해 콘텐츠를 확인할 수 있다는 것을 알게 되었습니다. 결국 Azure AI 검색은 검색 가능한 인덱스를 제공하며, 이 인덱스는 단순 또는 완전히 확장된 쿼리 구문을 사용하여 쿼리할 수 있습니다. 보강된 필드를 포함하는 인덱스는 다른 인덱스와 비슷합니다. 표준 또는 사용자 지정 분석기, 점수 매기기 프로필, 동의어, 패싯 탐색, 지역 검색 또는 기타 Azure AI Search 기능을 통합할 수 있습니다.

리소스 정리

본인 소유의 구독으로 이 모듈을 진행하고 있는 경우에는 프로젝트가 끝날 때 여기에서 만든 리소스가 계속 필요한지 확인하는 것이 좋습니다. 계속 실행되는 리소스에는 요금이 부과될 수 있습니다. 리소스를 개별적으로 삭제하거나 리소스 그룹을 삭제하여 전체 리소스 세트를 삭제할 수 있습니다.

왼쪽 탐색 창의 모든 리소스 또는 리소스 그룹 링크를 사용하여 Azure Portal에서 리소스를 찾고 관리할 수 있습니다.

무료 서비스를 사용한 경우 세 개의 인덱스, 인덱서 및 데이터 원본으로 제한됩니다. Azure Portal에서 개별 항목을 삭제하여 제한 이하로 유지할 수 있습니다.

다음 단계

Azure Portal, .NET SDK 또는 REST API를 사용하여 기술 세트를 만들 수 있습니다. 지식을 더 자세히 알아보려면 REST 클라이언트 및 더 많은 샘플 데이터를 사용하여 REST API를 사용해 보세요.

자습서: 기술 세트를 사용하여 Azure AI Search에서 검색 가능한 콘텐츠 생성

다음을 통해 공유