Formatos de dados aceitos
Se você estiver tentando importar seus dados para a classificação de texto personalizada, ele precisará seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.
Formato de arquivo de rótulos
O arquivo de rótulos deve estar no formato json
abaixo. Isso permitirá que você importe seus rótulos em um projeto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
multilíngue | true |
Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue. | true |
projectName | {PROJECT-NAME} |
Nome do projeto | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome do contêiner | mycontainer |
classes | [] | Matriz que contém todas as classes presentes no projeto. São as classes em que você deseja classificar seus documentos. | [] |
documentos | [] | Matriz que contém todos os documentos no projeto e as classes rotuladas para este documento. | [] |
local | {DOCUMENT-NAME} |
O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse valor deve ser o nome do documento. | doc1.txt |
dataset | {DATASET} |
O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Confira Como treinar um modelo para obter mais informações. Os valores possíveis para esse campo são Train e Test . |
Train |
Próximas etapas
- Você pode importar os dados rotulados diretamente no seu projeto. Confira Como criar um projeto para saber mais sobre a importação de projetos.
- Confira o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.