Conceitos do GPT-4 Turbo com Visão

Artigo
09/30/2024

O GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual. Esse guia fornece detalhes sobre as funcionalidades e limitações do GPT-4 Turbo com Visão.

Para experimentar o GPT-4 Turbo com Visão, confira o início rápido.

Chats com visão

O modelo GPT-4 Turbo com Visão responde a perguntas de caráter geral sobre o que está presente nas imagens ou vídeos que você carregar.

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

O GPT-4 Turbo com Visão soma as cobranças como os outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

Entrada: $0,01 por 1000 tokens
Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item	Detalhe	Custo
Entrada de prompt de texto	100 tokens de texto	US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem)	170 + 85 tokens de imagem	$0.00255
Recursos avançados de complemento para OCR	US$ 1,50/1.000 transações	US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto	US$ 1,50/1.000 transações	US$ 0,0015
Tokens de saída	100 tokens (presumido)	$ 0,003
Total		$0.00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, considere um vídeo de 3 minutos com uma inserção de prompt com 100 tokens. O vídeo tem uma transcrição com 100 tokens de comprimento e, quando processa o prompt, o serviço gera 100 tokens de resultado. O preço dessa transação seria:

Item	Detalhe	Custo
Tokens da inserção do GPT-4 Turbo com Visão	100 tokens de texto	US$ 0,001
Custo Adicional para identificar quadros	100 tokens da inserção + 700 tokens + 1 transação de Recuperação de Vídeo	$0,00825
Entradas de imagem e entrada de transcrição	20 imagens (85 tokens cada) + 100 tokens de transcrição	$ 0,018
Tokens de saída	100 tokens (presumido)	$ 0,003
Total		$0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice da Recuperação de Vídeo para esse segmento de vídeo de 3 minutos. Esse índice pode ser reutilizado em qualquer quantidade de chamadas a API com Recuperações de Vídeo e GPT-4 Turbo com Visão.

Limitações de entrada

Essa seção descreve as limitações do GPT-4 Turbo com Visão.

Suporte à imagem

Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
Restrição de chats de imagem: quando você carrega imagens no Estúdio do OpenAI do Azure ou na API, temos um limite de 10 imagens por chamada de chat.

Suporte a vídeo

Baixa resolução: os quadros de vídeo são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No Estúdio do OpenAI do Azure, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. No Estúdio do OpenAI do Azure, você pode limpar a sessão para experimentar outro vídeo ou outras imagens.
Seleção de quadro limitada: o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente por meio do vídeo ou focada por uma consulta de recuperação de vídeo específica, dependendo do prompt.
Suporte ao idioma: o serviço dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras em músicas.

Próximas etapas

Comece a usar o GPT-4 Turbo com Visão seguindo o início rápido.
Para obter uma visão mais aprofundada das APIs e usar prompts com vídeo no chat, siga o guia de instruções.
Confira a referência da API de preenchimentos e incorporações

Compartilhar via

Conceitos do GPT-4 Turbo com Visão

Chats com visão

Informações sobre preços especiais

Exemplo de cálculo de preço de imagem

Exemplo de cálculo de preço de vídeo

Limitações de entrada

Suporte à imagem

Suporte a vídeo

Próximas etapas

Comentários

Recursos adicionais