Obter resultados de reconhecimento de fala
Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speechConfig->RequestWordLevelTimestamps();
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacote (Go) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Documentação de referência | Pacote (PyPi) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Este snippet de código mostra como obter o deslocamento e a duração de um evento Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Deslocamento e duração reconhecidos
Depois que um enunciado for reconhecido, você poderá obter o deslocamento e a duração da fala reconhecida. Com o evento Recognized
, você também poderá obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade SpeechConfig
correspondente, conforme mostrado aqui:
speech_config.request_word_level_timestamps()
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).
Neste guia de instruções, você aprenderá sobre como usar resultados de reconhecimento de fala.
Sincronização de fala
Talvez você queira sincronizar transcrições com uma faixa de áudio, seja ela feita em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
- Deslocamento: o deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em tiques, começando pelo tique
0
(zero), associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração do enunciado que está sendo reconhecido. A duração em tiques não inclui silêncio à direita ou à esquerda.
O fim de um único enunciado é determinado pela escuta de silêncio no fim. Você não obterá o resultado final do reconhecimento até que um enunciado seja concluído. Reconhecer eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto transcrito final depois que o processamento de um enunciado for concluído.
Reconhecimento do deslocamento e duração
Talvez você queira sincronizar legendas com a faixa de áudio, seja ela feita em tempo real, seja com uma pré-gravação. Com o evento Recognizing
, você pode obter o deslocamento e a duração da fala que está sendo reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento está em andamento. Cada evento Recognizing
vem com uma estimativa textual da fala reconhecida até agora.
Por exemplo, execute o seguinte comando para obter o deslocamento e a duração da fala reconhecida:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Como o argumento @output.each.detailed
foi definido, a saída inclui os seguintes cabeçalhos de coluna:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
Na coluna result.json
, você encontra detalhes que incluem o deslocamento e a duração dos eventos Recognizing
e Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Para obter mais informações, confira a configuração do armazenamento de dados e as opções de saída da CLI de Fala.
Exemplo de deslocamento e duração
A tabela a seguir mostra o deslocamento e a duração possíveis em tiques quando um orador diz "Bem-vindo(a) ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não é alterado durante os eventos Recognizing
e Recognized
. No entanto, não tenha como certeza que o deslocamento permanecerá o mesmo entre os eventos e Recognizing
os Recognized
eventos, pois o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo(a) | 17000000 | 6400000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo(a) à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo(a) ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo(a) ao curso de matemática aplicada 201. | 17000000 | 34500000 |
A duração total do primeiro enunciado foi de 3,45 segundos. Isso foi reconhecido no deslocamento de 1,7 a 5,15 segundos desde o início do reconhecimento do fluxo de áudio (00:00:01.700 –> 00:00:05.150).
Se o orador continuar dizendo "Vamos começar", um novo deslocamento será calculado desde o início do reconhecimento do fluxo de áudio até o início do novo enunciado. A tabela a seguir mostra o deslocamento e a duração possíveis para um enunciado que foi iniciado dois segundos após o término do anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK, agora | 71500000 | 10300000 |
RECONHECENDO | OK, agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK, agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total do segundo enunciado foi de 2,06 segundos. Isso foi reconhecido no deslocamento de 7,15 a 9,21 segundos desde o início do reconhecimento do fluxo de áudio (00:00:07.150 –> 00:00:09.210).