다음을 통해 공유


엔터티 구성 요소

대화 언어 이해에서 엔터티는 발화에서 추출된 관련 정보 부분입니다. 엔터티는 다른 메서드를 통해 추출할 수 있습니다. 컨텍스트를 통해 학습되거나, 목록에서 일치되거나, 미리 빌드된 인식된 엔터티에서 검색될 수 있습니다. 프로젝트의 모든 엔터티는 엔터티의 구성 요소로 정의되는 이러한 메서드 중 하나 이상으로 구성됩니다.

엔터티가 둘 이상의 구성 요소에서 정의되면 해당 예측이 겹칠 수 있습니다. 엔터티 옵션에서 고정된 옵션 세트를 사용하여 구성 요소가 겹칠 때 엔터티 예측의 동작을 결정할 수 있습니다.

구성 요소 유형

엔터티 구성 요소는 엔터티를 추출하는 방법을 결정합니다. 엔터티는 하나의 구성 요소를 포함할 수 있으며, 이는 엔터티를 추출하는 데 사용할 유일한 방법을 결정합니다. 엔터티는 엔터티를 정의하고 추출하는 방법을 확장하기 위해 여러 구성 요소를 포함할 수도 있습니다.

학습된 구성 요소

학습된 구성 요소는 발화에 레이블을 지정하는 엔터티 태그를 사용하여 기계 학습 모델을 학습시킵니다. 모델은 학습을 통해 발화 내 컨텍스트를 기준으로 엔터티 위치를 예측합니다. 레이블은 발화에서 주위에 있는 단어의 의미에 따라 레이블이 지정된 단어로 엔터티가 있어야 하는 위치에 대한 예를 제공합니다.

이 구성 요소는 엔터티에 대한 태그를 발화에 지정하여 레이블을 추가하는 경우에만 정의됩니다. 어떠한 발화에도 엔터티 태그를 지정하지 않으면 학습된 구성 요소가 없습니다.

엔터티에 대한 학습된 구성 요소의 예를 보여 주는 스크린샷.

목록 구성 요소

목록 구성 요소는 동의어와 함께 관련 단어의 고정된 폐쇄형 세트를 나타냅니다. 구성 요소는 동의어로 제공한 값 목록에 대해 정확한 텍스트 일치를 수행합니다. 각 동의어는 목록 구성 요소가 일치하는 경우 출력에 반환되는 동의어에 대한 정규화된 표준 값으로 사용할 수 있는 목록 키에 속합니다. 목록 키는 일치에 사용되지 않습니다.

다국어 프로젝트에서는 각 언어에 대해 다른 동의어 집합을 지정할 수 있습니다. 예측 API를 사용하면 입력 요청에서 언어를 지정할 수 있으며, 해당 언어와 연관된 동의어에만 일치합니다.

엔터티의 목록 구성 요소 예를 보여 주는 스크린샷.

미리 빌드된 구성 요소

미리 빌드된 구성 요소를 사용하면 숫자, 날짜/시간 및 이름과 같은 일반적인 유형의 라이브러리에서 선택할 수 있습니다. 추가되면 미리 빌드된 구성 요소가 자동으로 검색됩니다. 엔터티당 최대 5개의 미리 빌드된 구성 요소를 포함할 수 있습니다. 자세한 내용은 지원되는 미리 빌드된 구성 요소 목록을 참조하세요.

엔터티에 대한 미리 빌드된 구성 요소의 예를 보여 주는 스크린샷.

정규식 구성 요소

정규식 구성 요소는 정규식을 일치시켜 일관된 패턴을 캡처합니다. 추가하면 정규식과 일치하는 모든 텍스트가 추출됩니다. 동일한 엔터티 내에 여러 정규식이 있고 각각 다른 키 식별자가 있을 수 있습니다. 일치하는 식은 예측 응답의 일부로 키를 반환합니다.

다국어 프로젝트에서는 각 언어에 대해 다른 식을 지정할 수 있습니다. 예측 API를 사용하면 입력 요청에서 언어를 지정할 수 있으며, 해당 언어에 연결된 정규식과만 일치합니다.

엔터티에 대한 정규식 구성 요소의 예를 보여 주는 스크린샷.

엔터티 옵션

엔터티에 대해 여러 구성 요소가 정의된 경우 해당 예측이 겹칠 수 있습니다. 겹침이 발생하면 다음 옵션 중 하나에 따라 각 엔터티의 최종 예측이 결정됩니다.

구성 요소 결합

모든 구성 요소의 합집합을 구하여 겹치는 구성 요소를 하나의 엔터티로 결합합니다.

이 옵션을 사용하면 겹치는 모든 구성 요소를 결합할 수 있습니다. 구성 요소가 결합되면 구성 요소가 있을 때 목록 또는 미리 빌드된 구성 요소에 연결된 모든 추가 정보가 제공됩니다.

예시

"Proseware OS"를 항목으로 포함하는 목록 구성 요소가 있는 Software라는 엔터티가 있다고 가정해 보겠습니다. 발화 데이터에는 "Proseware OS 9"에 Software 태그가 지정된 "I want to buy Proseware OS 9"가 있습니다.

학습된 엔터티와 목록 엔터티가 겹치는 것을 보여 주는 스크린샷.

결합된 구성 요소를 사용하여 엔터티는 목록 구성 요소의 키와 함께 "Proseware OS 9"라는 전체 컨텍스트를 반환합니다.

결합된 구성 요소의 결과를 보여 주는 스크린샷.

동일한 발화가 있었지만 학습된 구성 요소에서 "OS 9"만 예측했다고 가정합니다.

학습된 구성 요소에 의해 예측된 OS 9의 발화를 보여 주는 스크린샷.

결합된 구성 요소를 사용하면 엔터티는 여전히 목록 구성 요소의 키와 함께 "Proseware OS 9"로 반환됩니다.

반환된 소프트웨어 엔터티를 보여 주는 스크린샷.

구성 요소를 결합하지 마세요

겹치는 각 구성 요소는 엔터티의 별도 인스턴스로 반환됩니다. 이 옵션을 사용하여 예측 후 고유한 논리를 적용합니다.

예시

"Proseware Desktop"을 항목으로 포함하는 목록 구성 요소가 있는 Software라는 엔터티가 있다고 가정해 보겠습니다. 발화 데이터에는 "Proseware Desktop Pro"에 Software 태그가 지정된 "I want to buy Proseware Desktop Pro"가 있습니다.

학습된 엔터티와 목록 엔터티가 겹치는 예를 보여 주는 스크린샷.

구성 요소를 결합하지 않으면 엔터티가 두 번 반환됩니다.

엔터티가 두 번 반환된 것을 보여 주는 스크린샷.

필수 구성 요소

엔터티는 여러 구성 요소로 정의할 수 있는 경우가 있지만 하나 이상의 구성 요소가 있어야 합니다. 모든 구성 요소를 필수로 설정할 수 있습니다. 즉, 해당 구성 요소가 없는 경우 엔터티가 반환되지 않습니다. 예를 들어, 목록 구성 요소와 필수 학습된 구성 요소가 있는 엔터티가 있는 경우 반환된 모든 엔터티에 학습된 구성 요소가 포함된다는 것이 보장됩니다. 그렇지 않은 경우 엔터티는 반환되지 않습니다.

필수 구성 요소는 학습된 구성 요소와 함께 가장 자주 사용됩니다. 다른 구성 요소 형식을 특정 컨텍스트로 제한할 수 있으므로 일반적으로 역할에 연결됩니다. 엔터티에 대한 모든 구성 요소가 있는지 확인하려면 모든 구성 요소가 필요할 수도 있습니다.

Language Studio에서 엔터티의 모든 구성 요소 옆에는 필요에 따라 설정할 수 있는 토글이 있습니다.

예시

"Book two tickets tomorrow to Cairo"와 같은 발화의 경우 항공편을 예약하려는 정확한 티켓 수를 추출하려고 하는 Ticket Quantity라는 엔터티가 있다고 가정해 보겠습니다.

일반적으로 Quantity.Number에 대해 모든 숫자를 추출하는 미리 빌드된 구성 요소를 추가합니다. 엔터티가 미리 빌드된 구성으로만 정의된 경우 "내일 오후 3시에 카이로행 티켓 2장 예약"과 같이 Ticket Quantity 엔터티의 일부로 다른 숫자도 추출합니다.

이 시나리오를 해결하려면 Ticket Quantity가 되는 모든 숫자에 대해 학습된 구성 요소에 레이블을 지정합니다. 이제 엔터티에는 두 가지 구성 요소가 있습니다. 모든 숫자를 알고 있는 미리 작성된 구성 요소와 문장에서 티켓 수량이 어디에 있는지 예측하는 학습된 구성 요소입니다. 학습된 구성 요소가 필요한 경우 학습된 구성 요소가 올바른 컨텍스트에서 티켓 수량을 예측하는 경우에만 Ticket Quantity가 반환되는지 확인합니다. 미리 빌드된 구성 요소도 필요한 경우 반환된 Ticket Quantity 엔터티가 숫자이고 올바른 위치에 있는지 확인할 수 있습니다.

구성 요소 및 옵션 사용

구성 요소를 사용하면 여러 가지 방법으로 엔터티를 유연하게 정의할 수 있습니다. 구성 요소를 결합할 때 각 구성 요소가 표시되는지 확인하고 예측에서 반환되는 엔터티 수를 줄입니다.

일반적인 방법은 미리 빌드된 구성 요소를 사전 빌드 기능이 지원하지 않을 수 있는 값 목록으로 확장하는 것입니다. 예를 들어 General.Organization 미리 빌드된 구성 요소가 추가된 General.Organization 엔터티가 있는 경우 엔터티는 도메인과 관련된 모든 조직을 예측하지 못할 수 있습니다. 목록 구성 요소를 사용하면 Organization 엔터티의 값을 확장하고 미리 빌드된 구성 요소를 사용자 고유의 조직으로 확장할 수 있습니다.

소매 프로젝트에서 Product와 같은 컨텍스트를 통해 엔터티를 추출하는 데 관심이 있는 경우도 있습니다. 제품의 학습된 구성 요소에 레이블을 지정하여 문장 내에서의 위치에 따라 제품의 위치를 알아냅니다. 또한 항상 추출하려는 제품 목록이 미리 있을 수도 있습니다. 두 구성 요소를 하나의 엔터티에 결합하면 엔터티에 대한 두 가지 옵션을 모두 가져올 수 있습니다.

구성 요소를 결합하지 않으면 모든 구성 요소가 독립적인 엔터티 추출기 역할을 하도록 허용합니다. 이 옵션을 사용하는 한 가지 방법은 목록에서 추출된 엔터티를 학습된 구성 요소 또는 미리 빌드된 구성 요소를 통해 추출된 엔터티와 구분하고 다르게 처리하는 것입니다.

참고 항목

이전에는 서비스의 공개 미리 보기 중에는 가장 긴 겹침, 정확한 겹침, 겹침 합집합모두 개별적으로 반환의 4가지 옵션을 사용할 수 있었습니다. 가장 긴 겹침정확한 겹침은 더 이상 사용되지 않으며 이전에 해당 옵션이 선택된 프로젝트에서만 지원됩니다. 겹침 합집합구성 요소 결합으로 이름이 바뀌었지만 모두 개별적으로 반환구성 요소 결합 안 함으로 이름이 바뀌었습니다.