Che cosa sono il training e la modellazione?
Un modello è il sistema, che fornisce una traduzione per una coppia di lingue specifiche. Il risultato di un training riuscito è un modello. Per eseguire il training di un modello, sono necessari tre tipi di documenti che si escludono a vicenda: training, ottimizzazione e test. È anche possibile specificare il tipo di documento dizionario. Per altre informazioni, vedere Allineamento delle frasi.
Se vengono specificati solo i dati di training durante l'accodamento di un training, Traduttore personalizzato assemblerà automaticamente i dati di test e di ottimizzazione. Usa un subset casuale di frasi presenti nei documenti di training ed esclude tali frasi dai dati di training stessi.
Set di dati di training per Traduttore personalizzato
I documenti inclusi nel set di training vengono utilizzati da Custom Translator come base per la compilazione del modello. Durante l'esecuzione del training, le frasi presenti in questi documenti vengono allineate (o abbinate). È possibile comporre liberamente i set di documenti di training. È possibile includere in un unico modello i documenti che si ritiene siano di rilevanza tangenziale. Anche in questo caso escluderli in un altro per visualizzare l'impatto in punteggio BLEU (Bilingual Evaluation Understudy). Purché si mantengono costanti il set di ottimizzazione e di test, è possibile sperimentare la composizione del set di training. Questo approccio è un modo efficace per modificare la qualità del sistema di traduzione.
È possibile eseguire più training all'interno di un progetto e confrontare i punteggi BLEU in tutte le esecuzioni di training. Quando si eseguono più training per il confronto, assicurarsi che siano specificati gli stessi set di dati di ottimizzazione / test ogni volta. Assicurarsi anche di ispezionare manualmente anche i risultati nella scheda "Test".
Tipo di documento di ottimizzazione per Traduttore personalizzato
I documenti paralleli inclusi in questo set sono utilizzati da Custom Traslator per regolare il sistema di traduzione per ottenere risultati ottimali.
I dati di ottimizzazione vengono usati durante il training per regolare tutti i parametri e i pesi del sistema di traduzione in base ai valori ottimali. Scegliere i dati di ottimizzazione con attenzione: i dati di ottimizzazione devono essere rappresentativi del contenuto dei documenti che si intende tradurre in futuro. I dati di ottimizzazione hanno un forte impatto sulla qualità delle traduzioni generate. L'ottimizzazione consente al sistema di traduzione di fornire traduzioni più vicine agli esempi forniti nei dati di ottimizzazione. Non sono necessarie più di 2.500 frasi nei dati di ottimizzazione. Per una qualità di traduzione ottimale, è consigliabile selezionare manualmente il set di ottimizzazione scegliendo la selezione di frasi più rappresentativa.
Durante la creazione del set di ottimizzazione, scegliere frasi che hanno una lunghezza significativa e rappresentativa delle frasi che si prevede di tradurre in futuro. Scegliere frasi che hanno parole ed espressioni che si intende tradurre nella distribuzione approssimativa prevista per le traduzioni future. In pratica, una lunghezza di frase da 7 a 10 parole produce i risultati migliori. Queste frasi contengono un contesto sufficiente per mostrare l'inflessione e offrono una lunghezza significativa, senza essere eccessivamente complesse.
Una buona descrizione del tipo di frasi da utilizzare nel set di ottimizzazione è la prosa: vere e proprie frasi scorrevoli. Non celle di tabella, poesie, liste di cose, non solo punteggiatura o numeri in una frase, ma linguaggio abituale.
Se si selezionano manualmente i dati di ottimizzazione, non dovrebbero avere le stesse frasi dei dati di training e di test. I dati di ottimizzazione hanno un impatto significativo sulla qualità delle traduzioni, quindi scegliere attentamente le frasi.
In caso di dubbi su cosa scegliere per i dati ottimizzazione, è sufficiente selezionare i dati di training e lasciare che Traduttore personalizzato selezioni automaticamente i dati di ottimizzazione. Se si delega a Traduttore personalizzato la scelta dei dati di ottimizzazione, viene utilizzato un subset casuale di frasi dai documenti di training bilingue e vengono escluse quelle stesse frasi dal materiale di training.
Set di dati di test per Custom Translator
I documenti paralleli inclusi nel set di test sono utilizzati per calcolare il punteggio BLEU (Bilingual Evaluation Understudy). Questo punteggio indica la qualità del sistema di traduzione. Questo punteggio indica in realtà quanto le traduzioni effettuate dal sistema di traduzione risultante da questo training corrispondono alle frasi di riferimento del set di dati del test.
Il punteggio BLEU è una misura del delta tra la traduzione automatica e la traduzione di riferimento. Il suo valore va da 0 a 100. Un punteggio pari a 0 indica che nemmeno una singola parola di riferimento viene visualizzata nella traduzione. Un punteggio pari a 100 indica che la traduzione automatica corrisponde esattamente al riferimento: la stessa parola si trova nella stessa esatta posizione. Il punteggio che viene visualizzato è la media del punteggio BLEU per tutte le frasi dei dati di test.
I dati di test devono includere documenti paralleli in cui le frasi della lingua di destinazione sono le traduzioni più opportune delle corrispondenti frasi nella lingua di origine nella coppia origine-destinazione. È possibile usare gli stessi criteri usati per comporre i dati di ottimizzazione. Tuttavia, i dati di test non influiscono sulla qualità del sistema di traduzione e vengono usati esclusivamente per generare automaticamente il punteggio BLEU.
Non sono necessarie più di 2.500 frasi, come per i dati di test. Se si consente al sistema di scegliere automaticamente il set di test, viene utilizzato un subset casuale di frasi dai documenti di training bilingue e vengono escluse quelle stesse frasi dal materiale di training.
È possibile visualizzare le traduzioni personalizzate del set di test e confrontarle con le traduzioni fornite nel set di test, passando alla scheda di test all'interno di un modello.