Condividi tramite


Domande frequenti sul riconoscimento entità denominata personalizzata

Questo articolo offre risposte alle domande frequenti sui concetti e gli scenari correlati al Riconoscimento entità denominata in Lingua di Azure AI.

Come si inizia a usare il servizio?

Vedere l’avvio rapido per creare rapidamente il primo progetto o visualizzare l’articolo su come creare progetti per informazioni più dettagliate.

Quali sono i limiti del servizio?

Per altre informazioni, vedere l'articolo sui limiti del servizio.

Quanti file con tag sono necessari?

In genere, dati con tag diversi e rappresentativi generano risultati migliori poiché l'assegnazione di tag viene eseguita in modo preciso, coerente e completo. Non esiste un numero specifico di istanze taggate che garantisca prestazioni ottimali per ogni modello. Le prestazioni dipendono in larga misura dallo schema e dall'ambiguità dello schema. I tipi di entità ambigui necessitano di più tag. Le prestazioni dipendono anche dalla qualità di assegnazione dei tag. Il numero consigliato di istanze con tag per entità è 50.

È previsto che il training richieda molto tempo?

Il processo di training potrebbe richiedere molto tempo. Come stima approssimativa, il tempo di training previsto per i file con una lunghezza combinata di 12.800.000 caratteri è di 6 ore.

Come si crea un modello personalizzato a livello di codice?

Nota

Attualmente è possibile creare un modello solo usando l'API REST o Language Studio.

È possibile usare le API REST per creare modelli personalizzati. Seguire questa guida introduttiva per iniziare a creare un progetto e un modello tramite le API; ad esempio, per eseguire la chiamata dell'API di creazione.

Quando si è pronti per iniziare a usare il modello per eseguire stime, è possibile usare l'API REST o la libreria client.

È possibile eseguire il training di più modelli sullo stesso set di dati all'interno dello stesso progetto. Dopo aver eseguito correttamente il training del modello, è possibile visualizzarne la prestazione. È possibile distribuire e testare il modello in Language Studio. È possibile aggiungere o rimuovere etichette ai/dai dati ed eseguire il training di un nuovo modello e anche testarlo. Visualizzare i limiti del servizio per informazioni sul numero massimo di modelli che possono essere sottoposti a training nell’ambito dello stesso progetto. Quando si esegue il training di un modello, è possibile determinare la modalità di suddivisione del set di dati in set di training e test. È anche possibile suddividere i dati in modo casuale in set di training e test. Pertanto, non esiste alcuna garanzia che la valutazione del modello riscontrata si trovi nello stesso set di test e che i risultati siano confrontabili. È consigliabile sviluppare un set di test personalizzato e usarlo per valutare entrambi i modelli in modo da poter misurare il miglioramento.

Un punteggio basso o alto del modello garantisce prestazioni negative o buone nell'ambiente di produzione?

La valutazione del modello potrebbe non essere sempre completa. Dipende da:

  • Se il set di test è troppo piccolo, i punteggi buoni/negativi non sono rappresentativi delle prestazioni effettive del modello. Inoltre, se tipo di entità specifica è mancante o sottorappresentata nel set di test, questo influirà sulle prestazioni del modello.
  • Diversità dei dati: se i dati si riferiscono solo ad alcuni scenari/esempi del testo previsti nell'ambiente di produzione, il modello non verrà esposto a tutti i possibili scenari e le sue prestazioni potrebbero risultare insoddisfacenti negli scenari su cui non è stato eseguito il training.
  • Rappresentazione dei dati: se il set di dati usato per eseguire il training del modello non è rappresentativo dei dati che verrebbero introdotti nel modello in produzione, ciò influirà significativamente sulle prestazioni del modello.

Per altre informazioni, vedere l'articolo sulla selezione dei dati e sulla progettazione dello schema.

Come si migliorano le prestazioni del modello?

  • Visualizzare il modello matrice di confusione. Se si nota che un determinato tipo di entità non viene spesso stimato correttamente, è consigliabile aggiungere altre istanze con tag per questa classe. Se si nota che due tipi di entità vengono frequentemente scambiati l'uno con l'altro, significa che lo schema è ambiguo e si dovrebbe considerare la possibilità di unirli in un unico tipo di entità per ottenere prestazioni migliori.

  • Esaminare le stime dei set di test. Se uno dei tipi di entità ha molte più istanze con tag rispetto alle altre, il modello potrebbe essere distorto verso questo tipo. Aggiungere altri dati agli altri tipi di entità o rimuovere esempi dal tipo dominante.

  • Altre informazioni sulla selezione dei dati e sulla progettazione dello schema.

  • Esaminare il set di test: per visualizzare le entità stimate e con tag affiancate in modo da avere un'idea migliore delle prestazioni del modello e decidere se è necessario apportare modifiche allo schema o ai tag.

Perché si ottengono risultati diversi quando si ripete il training del modello?

  • Quando si esegue il training del modello, è possibile determinare se si vuole suddividere i dati in modo casuale in set di training e test. In tal caso, non vi è alcuna garanzia che la valutazione del modello riflessa si trovi nello stesso set di test, quindi i risultati non sono confrontabili.

  • Se si ripete il training dello stesso modello, il set di test sarà lo stesso, ma si potrebbe notare una leggera modifica nelle stime effettuate dal modello. Ciò è dovuto al fatto che il modello sottoposto a training non è sufficientemente affidabile, che è un fattore del livello di rappresentatività e di distinzione dei dati e della qualità dei dati con tag.

Come si ottengono stime in lingue diverse?

Prima di tutto, è necessario abilitare l'opzione multilingue durante la creazione del progetto oppure abilitarla in un secondo momento dalla pagina delle impostazioni del progetto. Dopo aver eseguito il training e la distribuzione del modello, è possibile iniziare a eseguire query in più lingue. È possibile ottenere risultati diversi per lingue diverse. Per migliorare l'accuratezza di qualsiasi lingua, aggiungere altre istanze con tag al progetto in tale lingua per introdurre il modello sottoposto a training a una maggiore quantità di sintassi di tale lingua.

Ho eseguito il training del modello, ma non riesco a testarlo

È necessario distribuire il modello prima di poterlo testare.

Come si usa il modello sottoposto a training per le stime?

Dopo aver distribuito il modello, chiamare l’API di stima usando l’API REST o le librerie client.

Privacy e sicurezza dei dati

Il Riconoscimento entità denominata personalizzata è un responsabile del trattamento dei dati ai fini del Regolamento generale sulla protezione dei dati (GDPR). In conformità ai criteri GDPR, gli utenti del Riconoscimento entità denominata personalizzata hanno il controllo completo per visualizzare, esportare o eliminare qualsiasi contenuto utente tramite Language Studio o a livello di codice usando le API REST.

I dati vengono archiviati solo nell'account di Archiviazione di Microsoft Azure. Il Riconoscimento entità denominata personalizzato ha accesso solo in lettura durante il training.

Come si clona il progetto?

Per clonare il progetto, è necessario usare l'API di esportazione per esportare gli asset del progetto e quindi importarli in un nuovo progetto. Vedere le informazioni di riferimento sulle API REST per entrambe le operazioni.

Passaggi successivi