Circuito Deluca

Análise de sentimento nas redes sociais pode virar o jogo

Publicada em 04/06/2014 15:56

Felipão não gostou do jogo treino do Brasil contra o Panamá. Torcedores que comentaram a partida no Twitter também não. A avalição da seleção foi negativa, de acordo com a análise de sentimento, em tempo real, realizada pela IBM. Nem os quatro gols do Brasil foram capazes de reverter a má impressão deixada pelos 20 minutos iniciais da partida.

Neymar, incensado pela mídia após o jogo, não agradou aos torcedores tuiteiros. Teve picos de avaliação positivo no momento do gol de falta e no passe de calcanhar para o gol de Hulk. Na comparação direta com Ramires, o meia Paulinho, poupado por Felipão, saiu ganhando. Mesmo ausente, ele e  David Luiz (que não jogou os 90 minutos) foram os únicos jogadores brasileiros avaliados positivamente.

Até o fim do jogo foram analisados 340 mil tweets identificados pela ferramenta da IBM como referentes à partida. Os algoritmos criados pelo laboratório de pesquisas da IBM identificam, filtram e analisam apenas comentários em português, direcionados às duas seleções antes, durante e após as partidas – gerando análises em tempo real que podem direcionar as decisões do técnico durante os jogos. Entre as opiniões que puderam ser identificadas, por meio de palavras-chave selecionadas, independente de hashtags, estavam a performance do time, de cada jogador e do técnico (em vermelho, pontos negativos).


A ferramenta da IBM é uma prova de conceito de que a chamada computação cognitiva tem muito a agregar à análise do Big Data, especialmente quando considerado o grande volume de dados não estruturados coletados nas redes sociais.

Por que futebol? Pelo grande volume de tweets produzidos durante os jogos de qualquer campeonato. “De certa forma é um ambiente simples para gente olhar. Se conseguirmos a qualidade desejada nesse universo, fica mais simples escalar para outras situações e questões mais complexas”, explica Cláudio Pinhanez, gerente do Laboratório de Pesquisas com foco em Sistemas de Serviços da IBM Brasil, líder do projeto.

“Reunimos Twitter e futebol, paixões que fazem parte da vida dos brasileiros, para mostrar como a explosão de dados pode ser valiosa para ajudar líderes a tomarem as melhores decisões. Conseguiremos analisar um grande volume de informações sobre a seleção com eficiência, assertividade e, praticamente, em tempo real”, explica Pinhanez.

O nome interno da ferramenta de análise de sentimento em rede social é FAMA, inspirado na deusa grega responsável pela propagação de mensagens. A própria palavra fama vem do grego e significa o que é exposto, revelado, divulgado através da palavra. A voz pública  que pode revelar bem mais do que imaginamos.

Antes de qualquer coisa, é preciso ensinar o sistema a identificar exclusivamente os tweets sobre o assunto pesquisado, com base em uma amostra. “O que é bastante complexo. As pessoas escrevem de uma maneira complicada, nem tudo é o que parece ser, e se você fizer uma análise muito simples, as chances de erro são grandes”, afirma  Pinhanez. Mano, por exemplo, é uma palavra chave para jogos do Corinthians, hoje. Mas, em São Paulo, mano é uma forma de expressão. Como separar o joio do trigo? Analisando o contexto.

“Os tweets são fala na forma de texto”, explica o pesquisador. “As pessoas usam expressões típicas da fala. Então, se a gente tenta usar algoritmos de análise de texto, muito gramática, não funciona bem. O jeito é tratar os tweets com algoritmos de fala e, entre eles, os melhores são os que trabalham probabilisticamente”.

O segundo passo, seguindo o mesmo princípio,  é ensinar ao sistema o que são tweets positivos, negativos ou neutros. “Para isso, separamos cada tweert em pedacinhos. Isso está longe de ser simples. Eu separo o Cristiano do Ronaldo ou não? O Thiago Silva do Thiago, de Portugal?”, comenta Pinhanez. O objetivo, nessa etapa, é classificar as palavras para normalizar o processo. O resultado são conjuntos de palavras (derivados de uma amostra de tweets rotulados manualmente por um grupo de cerca de 30 pessoas) que quando consultados pelos algoritmos do sistema de análise de sentimento o ajudam a aprender.


Futebol tem uma cultura comum, tem um contexto comum e volume, requisitos necessários para que os profissionais que trabalham na classificação dos tweets da amostra consigam definir claramente o contexto para que a análise automática dos tweest tenha um grau de assertividade maior. O sistem precisa aprender que fazer um pênalti bobo  e perder um pênalti são situações negativas  e sofrer um pênalti ou defender um pênalti positivas para quem sofre e para quem defende.

Próximos passos
A explosão de dados nas redes sociais tem se tornado uma verdadeira mina de ouro para as empresas. Consumidores se tornaram influentes formadores de opinião, compartilhando publicamente, entre centenas de amigos e milhares de usuários, seus pensamentos com relação a eventos, produtos e serviços. Para explorar estes dados valiosos, empresas têm usado a análise de sentimentos para compreender a preferência de seus clientes, tendências e reconhecimento da sua marca perante o mercado.

Uns dos objetivo da IBM é aplicar a FAMA em alguns segmentos de mercado, como o financeiro. Não por acaso, o vice-presidente Sênior para o IBM Watson Group, Mike Rhodin, falará sobre a Nova Era da Computação Cognitiva (“The New Era of Cognitive Computing”) durante o CIAB Febraban 2014.

“Nós temos ouvido muito dos bancos o desejo de entender melhor o cliente, saber o que está acontecendo com eles. Então fizemos um exercício para saber se conseguiríamos capturar eventos de vida que interessem potencialmente ao banco. Uma doença, um casamento, uma gravidez, o nascimento de um filho… Assumindo que esses eventos possam gerar uma oferta do banco”, explica Pinhanez. Segundo ele, os bancos estão muito interessados nessa ideia de ter um detector de eventos que possam gerar oportunidades de negócios e ajustes no relacionamento de cada cliente com o banco. “Para isso é preciso cruzar os registros da análise de sentimento com o CRM do banco”, diz o pesquisador.

Assustado? Pois logo logo teremos que lidar com questões como autorizar ou não o banco a monitorar o que fazemos nas redes sociais. Do lado da IBM, as pesquisas caminham no sentido de saber se é possível treinar o sistema para identificar eventos relevantes para o cliente. Como diz a Deloitte, tudo vai depender da equação: Custo Serviço Recebido >= Custo da Perda de Privacidade + Custo de Mudanças Sociais.

Em um exercício interno da IBM, para um universo de 9 milhões de mensagens públicas em redes sociais, incluindo o Facebok, o primeiro filtro, bem simples, usando tecnologias tradicionais por palavras-chave, identificou 3,7% postagens relacionadas a casamento. O sistema cognitivo trabalhou com esses 350 mil posts e descobriu que apenas 42 mil eram de fato eventos de vida (0,5% do toral). A análise posterior desses 42 mil tweets revelou que a ferramenta da IBM teve 65% de acerto. Um número considerado bastante positivo pelos pesquisadores, dado o ineditismo deste tipo de aplicação da feramenta.

As chances de alguns dos autores desses tweets serem clientes do banco X ou Y são proporcionais ao tamanho da base de clientes do banco.

Tudo isso exige  alta capacidade de processamento e excepcional capacidade analítica. Razão pela qual a IBM já ensa em vender a solução como um serviço, no primeiro momento, e não como uma ferramenta apenas, dado o alto grau de customização exigida.  Pelo menos até que um número considerável de clientes passem a ter equipes internas de Big Data.

A empresa pretende fornecer também APIs para a geração de aplicativos que usem os dados gerados pela Fama. Na Copa das confederações, por exemplo, o resultado da análise foi divulgado através de um aplicativo chamado Ei!, desenvolvido pela IBM especialmente para esse projeto.Foram gerados estatísticas e gráficos que ilustraram os comentários sobre os temas mais discutidos no Twitter, como performance individual dos jogadores, desempenho da equipe, da comissão técnica e do árbitro antes, durante e após os jogos.

Durante a Copa das Confederações, a IBM se preparou para analisar até 5 milhões de tweets por jogo. Não chegou a esse pico em nenhuma partida.  O jogo final entre Brasil e Espanha bateu recorde de participações, com 1,56 bilhão de tweets capturados e média de 6,38 tweet por minutos entre as 17h29 e 21h34 do domingo  no qual o jogo foi realizado.  “Nossa estimativa para a Copa do  Mundo é que, com o Brasil na final, a gente venha a ter 30 milhões de tweets  para analisar. Nós estamos nos preparando para 50 milhões”, afirma Pinhanez.

A conferir!