Entenda os recursos de geração de imagens da OpenAI
Os modelos de geração de imagem podem pegar um prompt, uma imagem base ou ambos, e criar algo novo. Esses modelos generativos de IA podem criar imagens realistas e artísticas, alterar o layout ou estilo de uma imagem e criar variações em uma imagem fornecida.
DALL-E
Além dos recursos de linguagem natural, os modelos de IA generativa podem editar e criar imagens. O modelo que trabalha com imagens chama-se DALL-E. Assim como os modelos GPT, as versões subsequentes do DALL-E são anexadas ao nome, como DALL-E 2. Os recursos de imagem geralmente se enquadram nas três categorias de criação de imagem, edição de uma imagem e criação de variações de uma imagem.
Geração de imagens
As imagens originais podem ser geradas fornecendo um prompt de texto do que você gostaria que a imagem fosse. Quanto mais detalhado o prompt, maior a probabilidade de o modelo fornecer um resultado desejado.
Com DALL-E, você pode até mesmo solicitar uma imagem em um estilo específico, como "um cão no estilo de Vincent van Gogh". Os estilos também podem ser usados para edições e variações.
Por exemplo, dado o aviso "um elefante em pé com um hambúrguer em cima, estilo arte digital", o modelo gera imagens de arte digital retratando exatamente o que é pedido.
Quando se pede algo mais genérico como "uma raposa rosa", as imagens geradas são mais variadas e simples, ao mesmo tempo que cumprem o que se pede.
No entanto, quando tornamos o prompt mais específico, como "uma raposa rosa correndo por um campo, no estilo de Monet", o modelo cria imagens detalhadas muito mais semelhantes.
Editar uma imagem
Quando uma imagem é fornecida, o DALL-E pode editá-la conforme solicitado, alterando seu estilo, adicionando ou removendo itens ou gerando novo conteúdo para adicionar. As edições são feitas carregando a imagem original e especificando uma máscara transparente que indica qual área da imagem deve ser editada. Junto com a imagem e a máscara, um prompt indicando o que deve ser editado instrui o modelo a gerar o conteúdo apropriado para preencher a área.
Quando recebe uma das imagens acima de uma raposa rosa, uma máscara cobrindo a raposa e o aviso de "gorila azul lendo um livro em um campo", o modelo cria edições da imagem com base na entrada fornecida.
Variações de imagem
As variações de imagem podem ser criadas fornecendo uma imagem e especificando quantas variações da imagem você gostaria. O conteúdo geral da imagem permanecerá o mesmo, mas aspetos serão ajustados, como onde os assuntos estão localizados ou olhando, cena de fundo e as cores podem mudar.
Por exemplo, se eu carregar uma das imagens do elefante usando um hambúrguer como chapéu, recebo variações do mesmo assunto.
Nota
Atualmente, o acesso ao DALL-E é concedido apenas por convite.