Índice
Sistema foi treinado para compreender o contexto das consultas dos usuários.
As ferramentas de buscas funcionam, primordialmente, por palavras-chave. O usuário escreve o que deseja procurar, o algoritmo vasculha a rede atrás do conjunto de termos digitados e retorna o resultado. Mas em muitos casos, as respostas ficam fora de contexto, pois apenas encontrar sites com as palavras buscadas não é suficiente, é preciso compreender o significado das palavras, umas em relação às outras. Para isso, o Google lançou o Bert, sigla para a tecnologia Bidirectional Encoder Representations from Transformers .
Pandu Nayak, vice-presidente de Buscas do Google, conta que 15% de todas as pesquisas feitas diariamente pela ferramenta são inéditas, ou seja, não possuem informações sobre cliques dos usuários para avaliar os resultados. Por isso, compreender corretamente o que as pessoas querem buscar é essencial para melhorar a experiência.
Nós começamos com palavras, perguntas e documentos, e precisamos chegar ao significado — explicou Nayak, em teleconferência com jornalistas da América Latina. — E o que nós temos é uma nova forma de entender o significado das palavras, que realmente leva em consideração a relação entre elas.
O Bert é uma nova técnica de treinamento de redes neurais para o processamento de linguagem natural. Ou seja, um novo método de “ensino” das inteligências artificiais usadas para compreender o que é dito, seja por voz ou texto. E a técnica é realmente parecida com as usadas em sala de aula por alunos e professores.
Principal melhoria dos últimos 5 anos
O primeiro passo foi alimentar o sistema com toneladas de textos, de fontes como a Wikipédia, da mesma forma que enriquecemos o vocabulário de crianças em conversas e leituras. E para treiná-lo, os pesquisadores usaram exercícios de preenchimento de espaços em branco em frases, como nos trabalhos escolares. Aleatoriamente palavras eram retiradas de textos, para que o sistema, por meio da análise do significado como um todo, indicasse quais termos seriam os mais adequados para preencherem os espaços vazios.
Dependendo da língua em particular, entre 10% e 20% das consultas foram significativamente impactadas com essa mudança — contou Nayak. Em português, uma em cada oito buscas são afetadas pelo novo algoritmo — Esta é uma das maiores melhorias em buscas dos últimos cinco anos e uma das principais desde o início.
A técnica é particularmente útil para casos de palavras com múltiplos significados. Nayak citou como exemplo a palavra “change”, mudar em inglês. Dependendo do contexto, ela pode significar ajustar, converter, instalar, modificar, substituir, entre outros. Para compreender exatamente o que esse termo quer dizer, é preciso analisar cada oração como um todo.
Dessa forma, até termos que podem ser considerados dispensáveis, como conjunções e preposições, passam a ter peso na busca pelas melhores respostas. Sem o Bert, os mecanismos de buscas davam mais ênfase às palavras-chave, e os resultados, às vezes, eram fora do contexto esperado pelos usuários.
A mudança é particularmente importante para a era de interface por voz. Ao escrever, o usuário tende a pensar nas palavras-chave que irá usar para uma determinada busca. Isso tende a não acontecer por voz, pois o usuário simplesmente fala, de maneira natural, com os dispositivos.