다음을 통해 공유


Azure AI 모델 유추 서비스에 모델 추가 및 구성

리소스의 모델 유추 엔드포인트에서 유추에 사용할 수 있는 모델을 결정하고 구성할 수 있습니다. 지정된 모델이 구성된 경우 요청에 모델 이름 또는 배포 이름을 표시하여 해당 모델에서 예측을 생성할 수 있습니다. 코드를 사용하기 위해 코드에서 더 이상 변경할 필요가 없습니다.

이 문서에서는 Azure AI 서비스의 Azure AI 모델 유추 서비스에 새 모델을 추가하는 방법을 알아봅니다.

필수 조건

이 문서를 완료하려면 다음이 필요합니다.

  • Azure 구독 GitHub 모델을 사용하는 경우 환경을 업그레이드하고 프로세스에서 Azure 구독을 만들 수 있습니다. GitHub 모델에서 AI Services의 Azure AI 모델로 업그레이드하는 방법에 대해 자세히 알아봅니다.
  • Azure AI 서비스 리소스입니다. 자세한 내용은 Azure AI Services 리소스 만들기를 참조 하세요.

모델 추가

모든 모델이 이미 구성된 GitHub 모델과 반대로 Azure AI Services 리소스를 사용하면 엔드포인트에서 사용할 수 있는 모델과 구성을 제어할 수 있습니다.

GitHub용 Azure AI Foundry를 사용하여 엔드포인트에 필요한 모든 모델을 추가할 수 있습니다. 다음 예제에서는 서비스에 모델을 추가 Mistral-Large 합니다.

  1. GitHub용 Azure AI Foundry의 모델 카탈로그 섹션으로 이동합니다.

  2. 관심 있는 모델로 스크롤하여 선택합니다.

  3. 모델 카드에서 모델의 세부 정보를 검토할 수 있습니다.

  4. 배포를 선택합니다.

  5. 추가 계약 조건이 필요한 모델 공급자의 경우 해당 약관에 동의하라는 메시지가 표시됩니다. 예를 들어 Mistral 모델은 다른 조건에 동의하도록 요청합니다. 구독 및 배포선택하여 해당 사례에 대한 약관에 동의합니다.

    Mistral-Large 모델의 사용 약관에 동의하는 방법을 보여 주는 스크린샷.

  6. 현재 배포 설정을 구성할 수 있습니다. 기본적으로 배포는 배포하려는 모델의 이름을 받습니다. 배포 이름은 이 특정 모델 배포로 model 라우팅하기 위한 요청에 대한 매개 변수에 사용됩니다. 이 설정을 사용하면 특정 구성을 연결할 때 모델의 특정 이름을 구성할 수도 있습니다. 예를 들어 엄격한 o1-preview-safe 콘텐츠 안전 콘텐츠 필터가 있는 모델의 경우입니다.

각 모델은 다양한 배포 유형을 지원하여 서로 다른 데이터 상주 또는 처리량 보장을 제공할 수 있습니다. 자세한 내용은 배포 유형을 참조하세요.

  1. 콘텐츠 필터 또는 속도 제한(사용 가능한 경우)과 같은 설정을 변경해야 하는 경우 사용자 지정 옵션을 사용합니다.

필요한 경우 배포를 사용자 지정하는 방법을 보여 주는 스크린샷

  1. 배포를 선택합니다.

  2. 배포가 완료되면 새 모델이 페이지에 나열되고 사용할 준비가 됩니다.

모델 사용

Azure AI 서비스의 배포된 모델은 리소스에 대한 Azure AI 모델의 유추 엔드포인트 를 사용하여 사용할 수 있습니다.

이를 사용하려면:

  1. 배포 페이지 또는 개요 페이지에서 Azure AI 모델의 유추 엔드포인트 URL 및 키를 가져옵니다. Microsoft Entra ID 인증을 사용하는 경우 키가 필요하지 않습니다.

    배포와 연결된 URL 및 키를 가져오는 방법을 보여 주는 스크린샷

  2. 클라이언트를 생성할 때 모델 유추 엔드포인트 URL 및 이전의 키를 사용합니다. 다음 예제에서는 Azure AI 유추 패키지를 사용합니다.

    pip와 같은 패키지 관리 시스템을 사용하여 azure-ai-inference 패키지를 설치합니다.

    pip install azure-ai-inference>=1.0.0b5
    

    Warning

    Azure AI Services 리소스에는 Python 버전 azure-ai-inference>=1.0.0b5 이 필요합니다.

    그런 다음 패키지를 사용하여 모델을 이용할 수 있습니다. 다음 예에서는 채팅 완성을 이용하는 클라이언트를 만드는 방법을 보여 줍니다.

    import os
    from azure.ai.inference import ChatCompletionsClient
    from azure.core.credentials import AzureKeyCredential
    
    client = ChatCompletionsClient(
        endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
        credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
    )
    

    시작하려면 샘플을 살펴보고 API 참조 설명서를 참조하세요.

  3. 요청을 생성할 때 매개 변수 model 를 지정하고 만든 모델 배포 이름을 삽입합니다.

    from azure.ai.inference.models import SystemMessage, UserMessage
    
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
        ],
        model="mistral-large"
    )
    
    print(response.choices[0].message.content)
    

엔드포인트를 사용하는 경우 매개 변수를 리소스에서 model 사용 가능한 모든 모델 배포로 변경할 수 있습니다.

또한 리소스의 Azure OpenAI 서비스 엔드포인트사용하여 Azure OpenAI 모델을 사용할 수 있습니다. 이 엔드포인트는 각 모델 배포에만 사용할 수 있으며 자체 URL이 있습니다.

모델 배포 사용자 지정

모델 배포를 만들 때 콘텐츠 필터링 및 속도 제한을 포함하여 다른 설정을 구성할 수 있습니다. 추가 설정을 구성하려면 배포 마법사에서 사용자 지정 옵션을 선택합니다.

참고 항목

구성은 배포하는 모델에 따라 달라질 수 있습니다.

다음 단계