Início » Vida » Ciência » A leitura labial dos softwares de reconhecimento de voz
Tecnologia

A leitura labial dos softwares de reconhecimento de voz

Pesquisador tenta ensinar leitura labial a um software de computador

A leitura labial dos softwares de reconhecimento de voz
Nos últimos anos, o pesquisador tem tentado detectar o formato visual de palavras inteiras de uma só vez (Reprodução/Internet)

Independente da qualidade de um software de reconhecimento de voz, ele sempre será afetado pelo ambiente sonoro ao seu redor. Peça ao seu assistente digital inteligente para discar um número em um escritório silencioso e você ouvirá os números certos. Tente de novo perto de uma estrada movimentada ou em uma festa barulhenta e é bem possível que se desaponte. Simplesmente, o PDA não consegue ler seus lábios.

Ahmad Hassanat, um pesquisador de inteligência artificial da Universidade de Mu’tah, na Jordânia, está tentando ensinar a leitura labial a um software de computador. As tentativas anteriores focaram, como previsível, na forma e nos movimentos dos lábios quando falavam fonemas (segmentos sonoros como “b”, “ng” ou “th”). Esses correspondentes visuais de um fonema receberam a denominação de visemas.  Mas o fato de existirem apenas uma dúzia de visemas para quarenta a cinquenta fonemas em inglês, dificulta a leitura; “pan” e “banned”, por exemplo, são palavras muito parecidas para um software de leitura labial. Por esse motivo, é difícil reconstruir palavras a partir só de visemas. Ahmad Hassanat, então, tem tentado nos últimos anos a detectar o formato visual de palavras inteiras de uma só vez, com o uso da língua, dentes e lábios.

Seu método obteve algum sucesso. Em um artigo publicado no final do ano passado, Hassanat treinou seu sistema com a filmagem de dez mulheres e 15 homens de diferentes grupos étnicos lendo trechos de um texto. O computador comparou a gravação dessa leitura com um texto que conhecia e, em seguida, tentou adivinhar o que estavam dizendo em um segundo vídeo. Quando o computador usou o mesmo discurso de treinamento de uma pessoa, a precisão dos resultados foi de cerca de 75% para todos os assuntos e de  97% para a voz. Porém quando o vídeo de treinamento foi excluído da análise por analogia de PDAs sem treinamento, a precisão caiu em média para 33% e, em alguns casos, para 15% (os bigodes e barbas prejudicam a identificação do som).

Fontes:
The Economist-Watch what you say

1 Opinião

  1. Amanda disse:

    Preciso urgente de um leitor labial. Seria possível indicar ? ou me direcionar a alguma atualização desta matéria ? pra saber se já existe este leitor ?

Sua Opinião

O seu endereço de email não será publicado. Campos obrigatórios são marcados *