Entenda os recursos de geração de imagens da OpenAI

Concluído

Os modelos de geração de imagem podem pegar um prompt, uma imagem base ou ambos, e criar algo novo. Esses modelos generativos de IA podem criar imagens realistas e artísticas, alterar o layout ou estilo de uma imagem e criar variações em uma imagem fornecida.

DALL-E

Além dos recursos de linguagem natural, os modelos de IA generativa podem editar e criar imagens. O modelo que trabalha com imagens chama-se DALL-E. Assim como os modelos GPT, as versões subsequentes do DALL-E são anexadas ao nome, como DALL-E 2. Os recursos de imagem geralmente se enquadram nas três categorias de criação de imagem, edição de uma imagem e criação de variações de uma imagem.

Geração de imagens

As imagens originais podem ser geradas fornecendo um prompt de texto do que você gostaria que a imagem fosse. Quanto mais detalhado o prompt, maior a probabilidade de o modelo fornecer um resultado desejado.

Com DALL-E, você pode até mesmo solicitar uma imagem em um estilo específico, como "um cão no estilo de Vincent van Gogh". Os estilos também podem ser usados para edições e variações.

Por exemplo, dado o aviso "um elefante em pé com um hambúrguer em cima, estilo arte digital", o modelo gera imagens de arte digital retratando exatamente o que é pedido.

Four AI generated art depictions of an elephant with a burger on top of it.

Quando se pede algo mais genérico como "uma raposa rosa", as imagens geradas são mais variadas e simples, ao mesmo tempo que cumprem o que se pede.

Four AI generated art depictions of different pink foxes.

No entanto, quando tornamos o prompt mais específico, como "uma raposa rosa correndo por um campo, no estilo de Monet", o modelo cria imagens detalhadas muito mais semelhantes.

Four AI generated art depictions of a pink fox in the style of Monet.

Editar uma imagem

Quando uma imagem é fornecida, o DALL-E pode editá-la conforme solicitado, alterando seu estilo, adicionando ou removendo itens ou gerando novo conteúdo para adicionar. As edições são feitas carregando a imagem original e especificando uma máscara transparente que indica qual área da imagem deve ser editada. Junto com a imagem e a máscara, um prompt indicando o que deve ser editado instrui o modelo a gerar o conteúdo apropriado para preencher a área.

Quando recebe uma das imagens acima de uma raposa rosa, uma máscara cobrindo a raposa e o aviso de "gorila azul lendo um livro em um campo", o modelo cria edições da imagem com base na entrada fornecida.

Four AI generated art depictions of a blue gorilla in a field.

Variações de imagem

As variações de imagem podem ser criadas fornecendo uma imagem e especificando quantas variações da imagem você gostaria. O conteúdo geral da imagem permanecerá o mesmo, mas aspetos serão ajustados, como onde os assuntos estão localizados ou olhando, cena de fundo e as cores podem mudar.

Por exemplo, se eu carregar uma das imagens do elefante usando um hambúrguer como chapéu, recebo variações do mesmo assunto.

Four AI generated art variations of an elephant with a burger on its head.

Nota

Atualmente, o acesso ao DALL-E é concedido apenas por convite.