Abbinamento e allineamento di frasi in documenti paralleli
Dopo il caricamento dei documenti, le frasi presenti in documenti paralleli vengono abbinate o allineate. Custom Translator segnala il numero di frasi che è stato in grado di abbinare come frasi allineate in ogni set di dati.
Processo di abbinamento e allineamento
Custom Translator apprende le traduzioni delle frasi una frase alla volta. Legge una frase dal testo di origine e quindi la traduzione di tale frase dal testo di destinazione. Allinea quindi ogni parola e ogni espressione l'una all'altra in queste due frasi. Questo processo consente di creare un mapping tra le parole e le espressioni contenute in una frase e le parole ed espressioni equivalenti nella traduzione della frase stessa. L'allineamento cerca di assicurare che il training del sistema venga eseguito su frasi che sono traduzioni le une delle altre.
Documenti preallineati
Se si è certi di disporre di documenti paralleli, è possibile saltare il processo di allineamento delle frasi fornendo file di testo preallineati. È possibile estrarre tutte le frasi di entrambi i documenti in un file di testo, organizzato con una frase per riga, e caricarlo con l'estensione .align
. L'estensione .align
segnala a Custom Translator di saltare il processo di allineamento delle frasi.
Per ottenere risultati ottimali, verificare che i file di testo contengano una frase per riga. La presenza di caratteri di nuova riga in una frase causerà problemi di allineamento.
Numero minimo consigliato di frasi
La tabella seguente mostra il numero minimo di frasi necessarie in ogni tipo di documento affinché un training abbia esito positivo. Questa limitazione è una rete di sicurezza per garantire che le frasi parallele contengano un vocabolario univoco sufficiente per eseguire correttamente il training di un modello di traduzione. Le linee guida generali indicano che la presenza di più frasi parallele nel dominio della qualità della traduzione umana dovrebbero produrre modelli di qualità superiore.
Tipo di documento | Numero minimo consigliato di frasi | Numero massimo di frasi |
---|---|---|
Formazione | 10,000 | Nessun limite massimo |
Ottimizzazione | 500 | 2500 |
Test in corso | 500 | 2500 |
Dizionario | 0 | 250.000 |
Nota
- Il training non verrà avviato e avrà esito negativo se non viene raggiunto il numero minimo di 10.000 frasi per training.
- I documenti di ottimizzazione e test sono facoltativi. Se non vengono forniti, il sistema rimuoverà una percentuale appropriata dal training da usare per la convalida e il test.
- È possibile eseguire il training su un modello utilizzando solo i dati del dizionario. Vedere Che cos'è un dizionario.
- Se il dizionario contiene più di 250.000 frasi, la funzionalità Traduzione di documenti è una scelta migliore. Vedere Traduzione di documenti.
- Il training gratuito (F0) per le sottoscrizioni prevede un limite massimo di 2.000.000 caratteri.