Microsoft quer lutar contra fake news usando Bing, algoritmos e Reddit

Mark Hachman, PC World (EUA)
20 de dezembro de 2017 - 09h00
Motor de buscas da Microsoft contará com recurso para 'fatos alternativos', que visa apresentar dois lados de uma história e não apenas uma lista de resultados

A Microsoft informou que o seu motor de buscas Bing contará com um recurso de "fatos alternativos", e que ele será considerado o equivalente ao Washington Post. 

Claro, essa é apenas a minha opinião. Mas é também a nova abordagem que a companhia está lançando nesta semana para superar os simples fatos em um novo mundo em que as opiniões também são importantes. Eventualmente, o Bing responderá a certas questões com respostas que representam ambos os lados de um problema, e não apenas uma lista de resultados de pesquisa. Uma dessas novas vozes será o Reddit, uma popular comunidade online com milhões de contribuidores.

Você pode imaginar um cenário onde duas opiniões - uma a favor e outra contra - seria útil: O novo filme do Star Wars é bom? O que é melhor: Android ou iOS? E questões talvez um pouco mais factuais, como qual colesterol é bom para você, pode reservar argumentos dos dois lados. Mas indo além disso, as coisas podem ficar mais obscuras e delicadas e o motor de buscas da Microsoft quer tratar isso com cuidado. 

Seria Obama muçulmano? Bing: vamos ouvir os dois lados. 

Kristina Behr, gerente de planejamento e designer para a divisão de inteligência artificial da Microsoft, escolheu talvez a consulta de pesquisa mais inócua possível ao demonstrar a nova abordagem do Bing: "Repolho é bom para você?". "Então eu não tenho que viver em uma bolha onde tudo sobre repolho é incrível", é como ela explicou sua escolha. 

Infelizmente, ela não explicou como o Bing poderia lidar com questões um pouco mais profundas como: “Deus é real?” (Nos resultados de busca do Bing, Deus é). Neste caso, a Microsoft provavelmente precisaria relativizar: ateus negam a existência de Deus, cristãos são certos de que Deus existe. Ninguém de verdade sabe. Dessa forma, a Microsoft se livraria ao oferecer duas visões. 

Mas posicionar a existência do Todo-Poderoso é algo até simples quando comparado com a guerra sagrada que põe a ciência contra a religião. Alguém acredita que o mundo foi criado em sete dias? Que a mudança climática não é real ou feita pelo homem? Sim, milhões de cristãos fundamentalistas acreditam, mas isso não muda o fato de que eles estão errados. Indiscutivelmente errados. Mas não nos olhos de um mecanismo de pesquisa que fornece ambos os "pontos de vista".

Jordi Ribas, vice-presidente corporativo que lidera a organização de produtos em IA (incluindo o Bing e Cortana) dentro da Microsoft, reconhece que o problema é uma “questão fundamental que eu penso que motores de busca terão”.

Algumas vezes os dados são muito claros: se você quiser saber quando George Washington nasceu, há uma resposta simples, disse Ribas em uma entrevista.

“Mas há todas essas outras questões onde há diferentes perspectivas”, pondera. “E há algumas questões onde as perspectivas deveriam ter mais peso que outras”. 

“É uma mudança”, acrescentou Ribas. “Eu penso que onde nós e os motores de busca concorrentes começaram, foi encontrar a resposta mais relevante. E eu penso que não é a abordagem certa em muitos casos. E o que nós tentamos fazer é, pelo menos, trazer a superfície perspectivas diferentes, e também revelá-las quando tudo isso for confiável”. 

Uma questão de autoridade, especialmente no Reddit

“Autoridade é uma palavra chave, e não é exatamente um sinal fácil de encontrar”, disse Ribas.

A Microsoft estabeleceu determinados critérios para determinar o valor da autoridade. Se um site estiver cheio de anúncios pop-up, por exemplo, algoritmos de pesquisa da Microsoft irá interpretar isso como um site de spam, e classificá-lo com um valor mais baixo. Mas os sites referenciados por outros sites com autoridade se elevarão nos rankings e terão uma melhor chance de serem listados como uma voz para um lado ou para o outro.

"Nós vamos usar uma parte dessa tecnologia no Reddit, bem como a moderação da própria comunidade", disse Ribas.

Isso parece um plano, mas dada a realidade do Reddit, é difícil ver como isso funcionaria. A Reddit, que se descreve como a "primeira página da Internet", conta com 330 milhões de usuários ativos, que coletivamente fazem 10,7 milhões de novos posts por mês, com mais 2,8 milhões de comentários adicionais diariamente, de acordo com o cofundador Alexis Ohanian. Todos esses comentários serão compilados pelo algoritmo do Bing da Microsoft, que efetivamente elevará os comentários mais populares ao topo da página de pesquisa do usuário do Bing. Da mesma forma, os usuários do motor de  busca cujas consultas forem melhor atendidas com as conversas mais relevantes do Reddit verão essas conversas no topo da página.

Para cada publicação e comentário do Reddit, os usuários recebem "upvotes" ou "downvotes", aumentando ou diminuindo a importância relativa do comentário ou publicação. Mas os usuários podem aumentar ou diminuir seus votos por qualquer motivo - a resposta pode ser verdadeiramente perspicaz, mas pode ser também fora do tópico, porém engraçado, ou dar sequência a um dos vários memes e piadas do site. As respostas do autor original do post também tendem a receber upvotes, independentemente se o conteúdo for relevante. E quase nenhum usuário do Reddit publica informações sob seu nome verdadeiro, tornando a determinação de quem é uma autoridade em um assunto muito mais difícil.

Os chamados subreddits também são moderados de forma independente, de acordo com seus próprios padrões. O subreddit chamado “r/science”, por exemplo, exige citações em cada link e um comentário sobre o assunto. O subreddit “r/eyebleach subreddit” simplesmente exclui arquivos categorizados como “imagens não seguras para abrir no trabalho” promovendo apenas as imagens que são “fofas, felizes e elegantemente sexies”. 

Em outras palavras, não há rima ou razão para o que tornará um post ou comentário bem-sucedidos, e dessa forma quais serão os comentários que irão ter o seu caminho ao Bing. 

Ribas da Microsoft admitiu que os upvotes serão uma das principais formas de determinar a autoridade - provavelmente porque não há uma forma fácil de dizer quando um usuário está informando de fato ou está simplesmente tirando uma onda com leitores. Colocando de outra forma, parece que a estratégia da Microsoft é unir a popularidade com a precisão - sem nenhuma maneira de determinar realmente se o Bing está fornecendo um fato ou opinião.

Ainda assim, Ohanian da Reddit acredita que o fato de que as pessoas reais estão revirando e circulando comentários e notícias separa o site do Facebook, que usa um algoritmo (e, em alguns casos, promoção paga) para disseminar publicações. "A forma como as notícias se espalham no Reddit requer muito mais pessoas para dizer, sim, isso está bem", disse Ohanian.

Mesmo que um usuário publique informações incorretas - e que, eventualmente, sejam promovidas de forma errada pela comunidade", na grande escala do conteúdo do Reddit, ela não será amplamente vista", disse Ohanian. Ohanian também disse que o Reddit tem uma equipe lutando ativamente contra subordinados notórios como “r/the_donald” que promove histórias como a descendência muçulmana do presidente Obama. Finalmente, há um tipo de processo editorial que ajuda a filtrar perguntas através do subreddit correto, disseram Ohanian e Allie Mack, porta-voz do Reddit. Por exemplo, as buscas como "qual equipe da NFL tem os melhores fãs" não são filtradas através do subredit dedicado aos Seattle Seahawks.

"Estamos pensando muito sobre o algoritmo de calor, que afeta todo o ranking dentro de uma comunidade, mas também o algoritmo para comentários", disse Ohanian. "Nós pensamos que estamos em um bom lugar porque a qualidade das conversas dentro de um tópico Reddit, em comparação com qualquer outro lugar na Internet, é a número um, mas definitivamente pode ser sempre melhor".

tay-ai-625

Quando os algoritmos comandam, usuários podem perder 

Do lado da Microsoft, no entanto, não existe um controle editorial. "Tudo é conduzido algoritmicamente, porque de outra forma não teria escala", disse Ribas sobre a metodologia do Bing.

A Microsoft aplicará filtros, no entanto, se um usuário ativar um filtro "adulto" para exibir conteúdo avaliado pelo Reddit, a Bing aplicará esses filtros aos resultados, acrescentou Ribas.

Mesmo se a Microsoft e o Reddit conseguirem policiar o conteúdo deles, isso não impediria o processo automatizado de ser enganado. 

Em 2016, por exemplo, o chatbot Tay da Microsoft sofreu, essencialmente, uma lavagem cerebral para se tornar uma ferramenta radical de direita. Seus sucessores, Zo e Xiaolce, conseguiram até então evitar essas armadilhas. 

O Reddit tem também lutado para baixar as armadilhas de bots e outros usuários que tentaram elevar os posts do The_Donald e outros sites de ultra direita de sua página inicial, onde eles seriam vistos por muito mais pessoas. 

E o que é ainda mais preocupante é a história de vários usuários subreddits que tentam enganar deliberadamente motores de buscas. Posts como “vamos votar positivamente nessa imagem para que estrangeiros vejam uma foto de um leão nas ruas urbanas quando eles pesquisarem África do Sul no Google”, pode parecer inofensivo à primeira vista, mas outros, como essa tentativa de relacionar uma foto de Hillary Clinton com o termo de busca “mentirosa”, poderiam ajudar a influenciar uma eleição. 

Dado que as fake news no Facebook já são culpabilizadas pelo resultado das eleições presidenciais de 2016, é possível que os mesmos mecanismos poderiam ser aplicados ao Bing durante as próximas eleições. 

No entanto, Ribas disse que ele está inclinado a confiar nos próprios algoritmos da Microsoft para evitar os mesmos erros do passado.

“Você quer respeitar a liberdade de expressão, você quer respeitar opiniões diversas, mas também você quer dar mais valor a fontes confiáveis e com autoridade”, ele disse. “E eu penso que é um desafio fundamental: como nós determinaremos isso?”.

Sim. Como determinaremos isso? Quando a Microsoft e o Bing lançarem a nova experiência de busca, talvez a Microsoft consiga nos dar esta resposta. Mas em um mundo onde as fake news já estão embaralhando o fato com a opinião, nós iremos querer realmente um motor de busca que reúna as duas coisas?