Revisão do Watson Speech to Text: o melhor serviço de transcrição de alto volume? Reveja

7 de abril de 2020 Agora

Watson é o sistema de computadores da IBM para processamento de idiomas naturais. Ele alimenta o famoso supercomputador para responder perguntas e uma série de produtos empresariais baseados em IA, incluindo Watson Speech to Text. Em nossa análise do Watson Speech to Text, veremos uma das melhores aplicativos de fala para texto ideal para quem deseja converter áudio em texto em escala.

A plataforma de processamento de fala Watson está disponível no IBM Cloud. É uma ferramenta versátil e pode ser usada em muitos contextos, incluindo ditado e transcrição de teleconferência. Além disso, ao contrário da maioria dos outros aplicativos de fala para texto, ele está disponível como uma API, permitindo que os desenvolvedores o incorporem aos sistemas de controle de voz, entre outras coisas.

Watson Speech to Text: Planos e preços

Você pode usar o Watson Speech to Text para processar até 500 minutos de áudio gratuitamente por mês. Se você quiser converter mais do que isso, precisará pagar por cada minuto de áudio, e a taxa será alterada com base na duração do áudio processado. Os custos variam de US $ 0,01 a US $ 0,02 por minuto, e há uma taxa adicional de US $ 0,03 por minuto, se você precisar do Modelo de idioma personalizado da IBM. Os planos Watson exclusivos de cotação premium também estão disponíveis e concedem acesso a recursos aprimorados de privacidade de dados e garantias de tempo de atividade.

Revisão do Watson Speech to Text — O preço do serviço de fala para texto do Watson é calculado com base no volume de conteúdo que você precisa transcrever. (Crédito de imagem: IBM)

Você também pode acessar o sistema Watson Speech to Text através de uma assinatura IBM Cloud de uso geral. O processamento de linguagem natural é apenas um aplicativo em uma ampla variedade de serviços de IA que você pode obter através do IBM Cloud, portanto, é uma boa opção para qualquer organização que precise acessar transferências de dados em alta velocidade, chatbots ou ferramentas de conversão de texto em voz.

Watson Speech to Text: Recursos

Graças à integração flexível da API e outras ferramentas IBM pré-compiladas, o serviço de reconhecimento de fala Watson vai muito além da transcrição básica. Se você deseja usá-lo em um contexto de atendimento ao cliente, por exemplo, o Watson Assistant pode ser configurado para processar diretamente questões de linguagem natural ou responder a perguntas por telefone.

O Watson trabalha com áudio ao vivo em 11 idiomas e pode importar sons em uma variedade de formatos pré-gravados. Ao transmitir, o suporte ao diagnóstico em tempo real significa que o Watson pode solicitar que os usuários se aproximem do microfone ou mudem de ambiente. Também é impressionante o fato de o Watson poder distinguir entre diferentes alto-falantes em uma conversa compartilhada, graças à Diarização do alto-falante, um recurso ainda em teste beta.

Watson Speech to Text: Configuração

Para usar o Watson, a primeira coisa que você precisa fazer é criar uma conta do IBM Bluemix. O registro é gratuito e indolor, exigindo apenas um endereço de e-mail e senha. Depois de fazer o login, você precisa adicionar uma provisão em sua conta ao serviço Fala em texto. Você receberá algumas credenciais nesse estágio que deverá salvar em seus próprios registros.

Depois de fazer isso, as coisas ficam significativamente mais complexas. Para acessar o Watson, você precisará adicionar essas credenciais a um lote de código localizador de recursos uniforme do cliente (cURL) e executá-lo em sua máquina. Para descobrir exatamente qual comando chamar, consulte este guia prático. Como alternativa, se você quiser apenas ver como o sistema Watson funciona sem ter que passar por todos esses obstáculos, você pode experimentá-lo no site de demonstração da IBM.

Watson Speech to Text: Interface

Diferentemente dos aplicativos de voz para texto voltados para o consumidor, os serviços do Watson são projetados para serem acessados por meio de APIs e códigos incorporados em outros sistemas. Por esse motivo, não há uma “interface” real do Watson. Em vez disso, o Watson pode ser acessado através de três protocolos diferentes da Internet. Estes são WebSockets, API REST e Watson Developer Cloud.

Para controlar o Watson, você precisará usar uma ferramenta de linha de comando que se conecte à nuvem da IBM por meio de uma dessas três rotas. A interface que o usuário final interagindo com o Watson vê precisará ser criada por alguém da sua equipe de desenvolvimento separadamente.

Watson Speech to Text: Desempenho

No geral, ficamos impressionados com o modo como essa plataforma de processamento de linguagem natural lidava com fala real. Usamos o Watson para transcrever clipes que gravamos em uma variedade de ambientes desafiadores, além de sons de discursos famosos dados em vários dos 11 idiomas suportados pelo Watson.

Embora os erros tenham se tornado mais frequentes para clipes com muito ruído de fundo, em geral, o Watson produziu resultados incrivelmente precisos. Nós estimamos a partir de nossos testes que erros inesperados ocorreram apenas uma vez a cada 150 palavras, em média. No entanto, ficou claro por que o recurso de Diarização de alto-falante do Watson permanece nos testes BETA, pois, várias vezes durante nossa avaliação, uma voz foi rotulada incorretamente como alto-falantes separados.

Watson Speech to Text: Suporte

O centro de recursos da IBM oferece muita documentação para entender melhor como aplicar o Watson ao seu caso de uso específico. Também vale a pena usar as integrações de API e SDKs criados pela comunidade de desenvolvedores do Watson e postados no GitHub.

Se você não encontrar a solução para o seu problema, poderá entrar em contato diretamente com a IBM abrindo um ticket de suporte ou entrando em contato por telefone. Desde que você tenha optado por um dos pacotes Watson premium, seu uso do Watson será protegido por um contrato de Service Level Uptime.

Watson Speech to Text: Veredicto final

Se sua organização possui o know-how e os recursos para integrar adequadamente a plataforma IBM Watson Speech to Text em seu sistema, você se beneficiará de funções avançadas, como diagnóstico de ambiente sonoro em tempo real e resultados provisórios de transcrição. No entanto, pequenas empresas e organizações enfrentarão o desafio técnico de configurar o Watson adequadamente.

A competição

O serviço IBM Watson Speech to Text é um concorrente direto dos serviços de transcrição em massa Google Cloud Speech-to-Text e Amazon Transcribe. Ambos são significativamente mais baratos que o Watson, com a transcrição do Google Cloud, por exemplo, a partir de US $ 0,006 por minuto. Todos os três serviços compartilham funções semelhantes, como vocabulário personalizado, mas um recurso que falta muito no IBM Watson, mas disponível para os dois concorrentes, é o reconhecimento automático de pontuação.

Procurando outra solução spoeech-to-text? Confira nossa Melhor software de fala para texto guia.

Source link

Facebook X Reddit Pinterest