O reconhecimento de fala acarreta tantos ou mais desafios técnicos quanto mais ricas forem as línguas de trabalho em termos linguísticos, sobretudo, no que diz respeito à articulação dos sons e à variedade de palavras para significar uma mesma realidade. O Português é, tipicamente, uma língua de grande variedade de produção vocálica; o Espanhol possui cerca de metade e assim também o Inglês, a título de exemplo. Contudo, há fenômenos envolvidos na produção da fala transversais e universais a todas as línguas do mundo, independentemente, do seu corpo vocálico ou consonântico, do seu léxico, do seu sistema de escrita, ou até da direção da escrita, mas nesta transversalidade há decisões técnicas diferentes e particularizadas para cada língua.
Desafios no reconhecimento
Dentre os desafios que aqui se apontam para o Português, Espanhol e Inglês, importa referir que há fenômenos de língua mais objetivos, mais exatos até; outros que o não são tanto, porque respeitam mais ao falante e se relacionam mais com matizes semânticos.
O falante é um economizador. Quando falamos, atalhamos, encurtamos. Nem sempre pela pressa consciente de passar a mensagem. A junção articulatória das palavras prega-nos peças. É um ato irrefletido, do instinto, fazer fluir as frases, juntando palavras. Não falamos silabando nem pausando a cada palavra dita. Se assim fosse, não seria um discurso fluente, mas de interrupções de raciocínio. Se muitas vezes somos interpelados por quem nos ouve para repetir o que acabáramos de dizer, no reconhecimento automático de fala não há essa oportunidade. Apenas uma. A elipse de palavras é o recurso por excelência da economia do discurso. Entre falantes, pode não ter consequências na comunicação, mas para um reconhecedor treinado com periferias de contexto pode comportar um problema. Podemos fazer supressão com diferentes estratégias. Dentro das palavras também eliminamos partes, através da construção de abreviaturas ou do apagamento de sílabas em início ou fim de palavra, seja colando por articulação as palavras, sobretudo, quando determinadas sílabas se encontram (com licença vs. colicença); seja simplesmente por não articulação, o que cria problemas no reconhecimento, como confusões entre palavras (to date vs. today) ou no plural (minister vs. ministers) e possessivo (premier’s vs. premiers; its vs. it’s), para o Inglês.
A proximidade articulatória de sons cria alguns mal-entendidos, sendo também um problema na escrita. Quando os sons são articulados na mesma zona do trato vocal, com periferias articulatórias muito semelhantes, é comum haver erros. Vejam-se alguns casos para o Espanhol: y cuál em vez de igual, la pega em vez de Las Vegas – c (que se produz como k) e g; p e v (que se produz como b), respectivamente. Estamos perante sons que produzimos na mesma zona da nossa boca e que envolvem a utilização dos mesmos órgãos. Algo semelhante se passa com encostado, reconhecido como enroscado (a segunda sílaba é produzida na mesma zona, apenas com uma posição ligeiramente diferente na parte de trás da língua), para o Português, e com end vs. and; there vs. their; we’ll vs. will, para o Inglês.
A pontuação é um sistema de regras mais ou menos convencional e, por isso, se há regras obrigatórias em alguns momentos do discurso, há momentos em que optar por um sinal de pontuação ou por outro é uma escolha de quem escreve. Afinal, quando falamos, também pontuamos. E fazemo-lo com código expressivo, usando ritmo, pausas, entoação. Se a colocação de vírgula, ponto final ou até de ponto de interrogação obedece a regras mais fechadas e padronizadas, sendo, por isso, mais fácil treinar um modelo capaz de reconhecer que naquele momento do discurso e por contexto há uma pausa marcada por um destes pontos, o mesmo não acontece, por exemplo, com o ponto de exclamação, que marcamos através da nossa entoação, algo que não é fisicamente reconhecível pela máquina, bem como as reticências.
Novo vocabulário, mais frequentemente o uso de nomes de pessoas, locais ou organizações ou de palavras comuns criadas no momento para nomear novas realidades, como é o caso atual de pós-covid ou descovidar, para o Português, ou das tão famosas hashtags no meio do discurso, incluídas como palavras comuns.
Um discurso premeditado é sempre mais fluente do que um discurso espontâneo, que muitas vezes também é emotivo. Por este fato, o reconhecimento automático de fala de um programa jornalístico é mais bem-sucedido do que uma entrevista de rua, ou uma conversa via vídeo. Quando lemos, somos mais fluentes do que quando falamos. Na fala, somos imprevisíveis, avançamos e retrocedemos no discurso sem muitas vezes terminar a ideia, cometemos muitas falhas de concordância entre palavras.
Não podemos polir a língua; seria forjá-la, falsificá-la. Mas podemos polir as nossas técnicas, os nossos modelos a tal ponto de a receber na sua mais completa realidade, mesmo que seja uma língua intencionalmente inventada, com palavras novas, tal como é produzida.