Suporte a idiomas para classificação de textos personalizada

Artigo
11/21/2024

Este artigo oferece informações sobre os idiomas atualmente compatíveis com o recurso de classificação de textos personalizada.

Opção multilíngue

Com a classificação de textos personalizada, você pode treinar um modelo em um idioma e usá-lo para classificar documentos em outro idioma. Esse recurso é útil porque ajuda a economizar tempo e esforço. Em vez de criar projetos separados para cada idioma, você lida com conjuntos de dados de vários idiomas em apenas um projeto. Seu conjunto de dados não precisa estar totalmente no mesmo idioma, mas você deve habilitar a opção multilíngue para o projeto durante a criação ou posteriormente nas configurações do projeto. Se o modelo estiver apresentando um baixo desempenho em determinados idiomas durante o processo de avaliação, considere adicionar mais dados nesses idiomas ao conjunto de treinamento.

Você pode treinar seu projeto inteiramente com documentos em inglês e consultá-lo em: francês, alemão, mandarim, japonês, coreano e outros. A classificação de textos personalizada facilita o escalonamento de seus projetos para vários idiomas usando a tecnologia multilíngue para treinar seus modelos.

Sempre que você identificar que um idioma específico não está sendo executado, bem como outros idiomas, você pode adicionar documentos para esse idioma em seu projeto. Na página rotulagem de dados no Language Studio, você pode selecionar o idioma do documento que você está adicionando. Quando você introduz mais documentos para esse idioma no modelo, ele recebe mais informações da sintaxe desse idioma e aprende a prever melhor.

Você não precisa adicionar a mesma quantidade de documentos para cada idioma. Você deve criar a maioria do seu projeto em um idioma e adicionar apenas alguns documentos em idiomas que observar não estão funcionando bem. Se você criar um projeto que esteja principalmente em inglês e começar a testá-lo em francês, alemão e espanhol, poderá observar que o alemão não é executado, bem como os outros dois idiomas. Nesse caso, considere adicionar 5% dos documentos originais em inglês em alemão, treinar um novo modelo e testar em alemão novamente. Você deverá ver resultados melhores para consultas em alemão. Quanto mais documentos rotulados você adicionar, maior será a probabilidade de aprimoramento dos resultados.

Quando você adiciona dados em outro idioma, não deve esperar que eles afetem negativamente outros idiomas.

Idiomas com suporte na classificação de texto personalizado

O NER personalizado dá suporte a arquivos .txt nos seguintes idiomas:

Linguagem	Código de idioma
Africâner	`af`
Amárico	`am`
Árabe	`ar`
Assamês	`as`
Azerbaidjano	`az`
Bielorrusso	`be`
Búlgaro	`bg`
Bengali	`bn`
Bretão	`br`
Bósnio	`bs`
Catalão	`ca`
Tcheco	`cs`
Galês	`cy`
Dinamarquês	`da`
Alemão	`de`
Grego	`el`
Inglês (EUA)	`en-us`
Esperanto	`eo`
Espanhol	`es`
Estoniano	`et`
Basco	`eu`
Persa	`fa`
Finlandês	`fi`
Francês	`fr`
Frísio ocidental	`fy`
Irlandês	`ga`
Gaélico escocês	`gd`
Galego	`gl`
Guzerate	`gu`
Hausa	`ha`
Hebraico	`he`
Híndi	`hi`
Croata	`hr`
Húngaro	`hu`
Armênia	`hy`
Indonésio	`id`
Italiano	`it`
Japonês	`ja`
Javanês	`jv`
Georgiano	`ka`
Cazaque	`kk`
Khmer	`km`
canarim	`kn`
Coreano	`ko`
Curdo (Kurmanji)	`ku`
Kyrgyz	`ky`
Latim	`la`
Lao	`lo`
Lituano	`lt`
Letão	`lv`
Malgaxe	`mg`
Macedônio	`mk`
Malaiala	`ml`
Mongol	`mn`
Marati	`mr`
Malaio	`ms`
Birmanês	`my`
Nepali	`ne`
Holandês	`nl`
Norueguês (Bokmal)	`nb`
Oriá	`or`
Panjabi	`pa`
Polonês	`pl`
Pashto	`ps`
Português (Brasil)	`pt-br`
Português (Portugal)	`pt-pt`
Romeno	`ro`
Russo	`ru`
Sânscrito	`sa`
Sindhi	`sd`
Sinhala	`si`
Eslovaco	`sk`
Esloveno	`sl`
Somali	`so`
Albanês	`sq`
Sérvio	`sr`
Sundanês	`su`
Sueco	`sv`
Swahili	`sw`
Tâmil	`ta`
Télugo	`te`
Tailandês	`th`
Filipino	`tl`
Turco	`tr`
Uyghur	`ug`
Ucraniano	`uk`
Urdu	`ur`
Uzbek	`uz`
Vietnamita	`vi`
Xhosa	`xh`
Iídiche	`yi`
Chinês (Simplificado)	`zh-hans`
Zulu	`zu`

Compartilhar via

Suporte a idiomas para classificação de textos personalizada

Opção multilíngue

Idiomas com suporte na classificação de texto personalizado

Próximas etapas

Comentários

Recursos adicionais