CONFRONTO DOS SERVIÇOS DE TRANSCRIÇÃO COM IA: AWS VS. GOOGLE

Posted on: July 01, 2020 03:37 PM

Posted by: Renato

Categories: aws transcription google ibm nuance

serviços de transcrição AWS, Google, IBM, Nuance

Nos últimos 2 anos, produzimos 90% de todos os dados que nossa civilização possui. Nesse ritmo, e uma proporção de 9: 1 na transcrição de arquivos multimídia, a transcrição feita por humanos é simplesmente impossível de acompanhar. É muito lento, muito caro, muito propenso a erros e muito vulnerável a vazamentos de dados.

Assim como contratar um exército de trabalhadores para cavar uma vala perfeitamente reta de 1000 milhas não é a melhor opção, precisamos começar a pensar em como as máquinas podem ajudar.

Nesta publicação, gostaria de aprofundar um pouco mais e fazer uma melhor cobertura dos quatro principais serviços de transcrição: Amazon, Google, IBM e Nuance. Todos eles são bons jogadores, no entanto, apenas um pode responder totalmente a todas as suas necessidades específicas.

Para ajudar você a escolher o melhor provedor de serviços de transcrição, faça uma pequena comparação entre os quatro.

MINHA METODOLOGIA DE COMPARAÇÃO

Cobrirei os quatro fornecedores de vários ângulos diferentes, para que você possa entender melhor sua proposta de valor para suas necessidades específicas. Aqui estão os diferentes ângulos que abordarei:

Velocidade . A velocidade de uma plataforma de transcrição é um fator crucial. Com tempo suficiente, todos poderiam transcrever um conteúdo multimídia, mas o objetivo da existência de plataformas como essas é tornar esse tempo o mais curto possível. Mas, em alguns casos, a velocidade pode não ser o fator decisivo e definitivo. Algumas empresas ficarão melhor com uma solução mais lenta, porém mais precisa.
A precisão é fundamental para uma plataforma de transcrição. Muitas vezes, o valor da plataforma de transcrição é medido por sua precisão. Se a plataforma fornecer uma transcrição que precise de edições adicionais na pontuação e nos alto-falantes, essa plataforma, meu amigo, não fez grande parte do trabalho por você. Mas, novamente, em alguns casos, as empresas que possuem grandes quantidades de transcrições terão melhores condições com uma solução um pouco menos precisa, mas muito mais barata.
Preço . Não importa se você é uma empresa pequena ou um fornecedor bem estabelecido que está mudando o mercado, todos se preocupam com os custos . Quanto de um fator decisivo será esse depende do tamanho do seu orçamento e da importância das outras duas métricas.

Agora que introduzimos os pacotes de software e a metodologia de comparação dos 4 serviços de transcrição, vamos começar.

SERVIÇO DE TRANSCRIÇÃO DA AMAZON

Amazon Transcribe

Ao tentar acompanhar o ritmo da evolução do idioma, a plataforma Amazon Transcribe está aprendendo e melhorando continuamente. A plataforma AWS Transcribe foi projetada para fornecer transcrições automáticas rápidas e precisas para arquivos multimídia com qualidade variável.

Atualmente, o serviço de transcrição da Amazon é capaz de processar conteúdo multimídia:

Duração : máximo de 2 horas,
Vocabulário personalizado : tamanho máximo do arquivo de 50 KB
Taxa de amostragem : de 8KHz (áudio de telefonia) a 48Kh
Idiomas : inglês e espanhol
Formatos : In WAV, mp3, mp4, FLAC

Graças às proezas de processamento da AWS, o Amazon Transcribe está fazendo a transcrição a uma velocidade surpreendente.

A melhor coisa sobre o Amazon Transcribe é a precisão das transcrições . A AWS tem sido a plataforma em nuvem mais abrangente e amplamente adotada no mundo nos últimos 12 anos. Essa experiência pode ser vista na precisão que o Amazon Transcribe mostra em seus resultados.

Ou seja, diferentemente de outros serviços de transcrição, a plataforma de transcrição da Amazon produz textos prontos para uso, sem a necessidade de edição adicional. Para conseguir isso, o AWS Transcribe presta atenção especial a:

Pontuação . A plataforma Amazon Transcribe é capaz de adicionar pontuação apropriada ao texto conforme ele vai e formata o texto automaticamente. Desta forma, produzindo uma saída inteligível que pode ser usada sem edição adicional.
Pontuação de confiança . O AWS Transcribe garante um índice de confiança que mostre o grau de confiança da plataforma com a transcrição.
Isso significa que você sempre pode verificar a pontuação de confiança para ver se uma linha específica da transcrição precisa de alterações.
Alternativas possíveis . A plataforma também oferece a oportunidade de fazer algumas alterações nos casos em que você não está completamente satisfeito com os resultados.
Geração de carimbo de data e hora . Alimentado por tecnologias de aprendizado profundo, o AWS Transcribe gera automaticamente transcrições de texto com registro de data e hora.
Esse recurso fornece registros de data e hora para cada palavra, o que facilita a localização do áudio na gravação original, pesquisando o texto.
Vocabulário personalizado . O AWS Transcribe permite criar seu próprio vocabulário personalizado. Ao criar e gerenciar um vocabulário personalizado, você expande e personaliza o reconhecimento de fala do AWS Transcribe.
Basicamente, o vocabulário personalizado fornece à AWS Transcribe mais informações sobre como processar a fala no arquivo multimídia.
Esse recurso é muito importante para obter alta precisão nas transcrições de uso específico, como Engenharia, Medicina, Polícia, Jurídico, etc.
Alto-falantes múltiplos. A plataforma AWS Transcribe pode identificar diferentes alto-falantes em um arquivo multimídia. A plataforma pode reconhecer quando o orador muda e atribuir o texto transcrito de acordo. O reconhecimento de vários alto-falantes é útil ao transcrever conteúdo multimídia que envolve vários alto-falantes (como chamadas telefônicas, reuniões etc.).
A plataforma AWS Transcribe também permite especificar o número de alto-falantes que você deseja identificar no arquivo multimídia. A plataforma permite a identificação de até 10 alto-falantes.
O melhor desempenho pode ser alcançado quando o número de alto-falantes que você precisa ser identificado corresponde ao número de alto-falantes no conteúdo multimídia.

A melhor parte do Amazon Transcribe, diferente dos outros serviços de transcrição que discutimos, é que você paga conforme o uso, com base nos segundos de áudio transcrito por mês.

A API do Amazon Transcribe é cobrada mensalmente a uma taxa de US $ 0,00056 por segundo . O uso é cobrado em incrementos de um segundo, com uma cobrança mínima por solicitação de 15 segundos.

Graças a todos esses recursos, o serviço Amazon Transcribe pode ser considerado um serviço de transcrição altamente preciso. Com velocidade, precisão e preço, esse serviço de transcrição é um dos melhores, se não o melhor jogador do jogo.

FALA DO GOOGLE PARA TEXTO

Serviços de transcrição de voz para texto do Google

O Google Speech-to-Text está disponível para conteúdo multimídia de diferentes comprimentos e duração e os retorna imediatamente. Graças à tecnologia de aprendizado de máquina do Google, a plataforma também pode processar streaming em tempo real ou conteúdo de áudio pré-gravado, incluindo FLAC, AMR, PCMU e Linear-16.

A plataforma reconhece 120 idiomas, o que a torna muito mais avançada que a plataforma Amazon Transcribe.

No entanto, apesar disso, o Google ainda está aquém da precisão e do preço, comparado à plataforma Amazon Transcribe.

A precisão da fala para texto do Google melhora com o tempo, à medida que o Google aprimora a tecnologia interna de reconhecimento de fala usada pelos produtos do Google. Inclui:

Identificação automática da língua falada . O Google emprega esse recurso para identificar automaticamente o idioma falado no conteúdo multimídia (em 4 idiomas selecionados) sem alterações adicionais.
Reconhecimento automático de nomes próprios e formatação específica do contexto . A Fala para texto do Google funciona bem com a fala da vida real. Ele pode transcrever com precisão nomes próprios e formatar adequadamente o idioma (como datas, números de telefone).
Dicas de frase. Quase idêntico ao Vocabulário Personalizado da Amazon, o Google Speech-to-Text permite a personalização do contexto, fornecendo um conjunto de palavras e frases que provavelmente serão encontradas na transcrição.
Robustez do ruído. Esse recurso do Google Speech-to-Text permite a manipulação de multimídia barulhenta sem cancelamento de ruído adicional.
Filtragem inadequada de conteúdo . O Google Speech-to-Text é capaz de filtrar conteúdo inapropriado nos resultados de texto para alguns
Pontuação automática . Como o Amazon Transcribe, essa plataforma também usa pontuação nas transcrições.
Reconhecimento de alto-falante . Esse recurso é semelhante ao reconhecimento de vários alto-falantes da Amazon. Ele faz previsões automáticas sobre quais falantes da conversa falaram qual parte do texto.

O Conversão de texto do Google custa US $ 0,006 por 15 segundos, enquanto o modelo de vídeo custa o dobro, a US $ 0,012 por 15 segundos.

Considerando a velocidade, preço e precisão, o Google Speech-to-Text está definitivamente entre os melhores do setor. No entanto, seus recursos são baseados principalmente na linguagem, em vez de significado e inferência. O que, por enquanto, dá ao Amazon Transcribe vantagem no jogo.

Mas vamos seguir em frente e dar uma olhada nos outros dois serviços de transcrição.

FALA DO IBM WATSON

Software IBM Watson Speech para transcrição de texto

O IBM Watson Speech-to-Text pode transcrever formulários de fala em 7 idiomas diferentes. No entanto, o serviço não suporta todos os recursos para os 7 idiomas. Para a maioria dos idiomas, ele suporta 2 taxas de amostragem, modelos de banda larga ou banda estreita. Ele usa banda larga para áudio amostrado a uma taxa mínima de 16 kHz e banda estreita para áudio amostrado a uma taxa mínima de 8 kHz.

Além da transcrição básica, o IBM Watson Speech-to-Text inclui controle de voz de sistemas incorporados, transcrição de reuniões e teleconferências e ditado de e-mail e anotações em tempo real.

Quando se trata de precisão, o IBM Watson de fala para texto presta atenção especial a:

Detecção de palavras-chave . Esse recurso permite pesquisar por uma palavra-chave específica. Ele basicamente identifica frases faladas que correspondem a cadeias de palavras-chave específicas.
Reconhecimento de alto-falante. Esse recurso está disponível para conteúdo de áudio em inglês dos EUA, espanhol ou japonês.
Alternativas de palavras . Esse recurso permite solicitações de palavras alternativas semelhantes às palavras nas transcrições por acústica.
Palavra confiança . A fala para texto do IBM Watson fornece níveis de confiança para cada palavra de uma transcrição.
Carimbos de data e hora da palavra . O serviço também fornece registros de data e hora para o início e o fim de cada palavra de uma transcrição.
Filtragem de palavrões . Esse recurso censura palavrões das transcrições de inglês dos EUA.

O IBM Watson Speech-to-Text custa US $ 0,02 por minuto. Este preço se aplica ao uso dos modelos de banda larga e banda estreita.

O IBM Watson Speech-to-Text possui uma ampla variedade de possibilidades. Quando se trata de precisão, os recursos acima dizem tudo. O IBM Watson Speech-to-Text é um dos serviços de transcrição mais precisos.

No entanto, todos esses recursos não se aplicam a todos os idiomas e, o que é mais importante, alguns deles vêm apenas com a versão BETA. Isso torna o IBM Watson Speech-to-Text descrito como muito mais caro em comparação com os dois serviços de transcrição anteriores.

TRANSCRIÇÃO NUANCE DRAGON

O Nuance Transcription Engine pode transcrever facilmente mensagens e chamadas em conferência em 43 idiomas diferentes. O processo leva tempo de acordo com o comprimento e a duração da mensagem e o tráfego no servidor.

O serviço presta especial atenção à precisão e inclui os seguintes recursos:

Identificação de vários alto-falantes . O Nuance Transcription Engine pode reconhecer e transcrever até seis alto-falantes individuais.
Modelos de linguagem personalizáveis. Esse recurso é realmente muito semelhante ao vocabulário personalizado do Amazon Transcribe. Ele pode identificar vários nomes usando ferramentas especializadas de vocabulário.
Correção inteligente de erros . Este serviço de transcrição faz sugestões baseadas em probabilidade para palavras alternativas quando o discurso é muito claro para transcrição. Esse recurso é muito útil e aumenta significativamente a precisão.
Timestamps . O Nuance Transcription Engine fornece linhas totalmente codificadas por tempo e estampadas, o que aumenta a folga da transcrição. Possibilitando saber quem disse o que e quando em um caso específico.

O preço do Nuance Transcription Engine está começando em US $ 150 e é um negócio vitalício.

Embora este serviço de transcrição seja um dos melhores do mercado, no que diz respeito à precisão, no entanto, difere muito dos outros serviços de transcrição incluídos nesta comparação.

A principal diferença é que o Nuance Transcription Engine se concentra na transcrição de mensagens de voz e transcrições específicas do setor.

Para ser mais específico, o Nuance Transcription Engine é um dos melhores, se não o melhor software de transcrição médica do mundo. O que, infelizmente, significa que, se você não faz parte desse setor, a precisão das suas transcrições não será tão boa quanto a das transcrições médicas.

VAMOS ENCERRAR

Tabela de comparação de prestadores de serviços

Uma pesquisa mostra que o cérebro humano consegue lembrar apenas 10% do que lemos e 20% do que ouvimos. Isso é nada menos que uma ênfase na necessidade de derivar valor do conteúdo multimídia. E a IA provou ser o negócio real quando se trata de transcrever conteúdo multimídia.

Capturar e recuperar informações de conteúdo multimídia usando PNL e reconhecimento de fala tem sido o objetivo dos gigantes da Inteligência Artificial na última década. E eles se tornam mais sofisticados a cada ano.

Nesta comparação, decidi incluir apenas quatro serviços de transcrição que, segundo minha pesquisa, são os melhores. Incluí três fatores (velocidade, precisão e preço), segundo os quais liderava a comparação. E com base nesses fatores, descobri que:

Todos os quatro serviços de transcrição incluídos na comparação têm algumas qualidades distintas que lhes dão uma vantagem sobre as demais soluções no mercado,
Eles são todos rápidos no processamento e entrega de resultados,
Todos eles mostram alta precisão de transcrições,
Todos eles oferecem preços aceitáveis.

No entanto, nem todos eles podem responder igualmente às necessidades de todos. Dê uma boa olhada na comparação feita acima e decida qual atenderá melhor às suas necessidades.

Na Armedia, decidimos confiar na AWS e integrar o Amazon Transcribe como parte de nosso Módulo jurídico da Armedia para o ArkCase.

A escolha que você fará depende dos requisitos de sua organização.

#transcription #services #aws #google #ibm #nuance

Link: https://www.armedia.com/blog/transcription-services-aws-google-ibm-nuance/

Donate to Site

About Author

Renato

Developer

Add a Comment

Comments 0 Comments

No comments yet! Be the first to comment

Blog Search

New Articles

Os Mais vistos

Tweets by Renato Lucena

Artigos - Artigos e dicas feito com PHP + Laravel

Desenvolvedor completamente apaixonado por tecnologia.