Nova TPU do Google chega para acelerar treinamento de IA

Da Redação
17 de maio de 2017 - 16h42
TPU é a base para o processamento dos recursos de Machine Learning dos apps como Google Fotos e também das APIs disponibilizadas aos clientes da Cloud Platform

Como esperado, a Google I/O começa trazendo novidades na área de Inteligência Artificial. Já durante o keynote da conferência anual para desenvolvedores, na tarde desta quarta-feira, 17/5, o Google apresentou a Cloud TPU, desenvolvida especialmente para acelerar o processamento dos dois dos maiores desafios enfrentados pelos desenvolvedores de Machine learning hoje: o treinamento dos programas para ensiná-los a fazer uma atividades específica e a inferência, ou seja, a capacidade deles de inferir insights a partir dos dados processados com a nova tarefa aprendida.

Na opinião dos especialistas, a chegada dessa segunda geração da TPU significa uma passo a mais dado pelo  Google em direção ao domínio do hardware de Machine Learning.

Usando a segunda geração de TPUs, o time de engenheiros do Google conseguiu reduzir o tempo de treinamento dos modelos de tradução, que “turbinam” aplicativos como o Google Tradutor, um dia (com 32 GPUs para uma tarde, usando apenas 1/8 do Cloud TPU.

CloudTPU

Cada uma Cada um dessas novas TPUs oferece até 180 teraflops de desempenho de ponto flutuante. E por mais poderosos que sejam indivildualmente, porém, os projetistas do Google trabalharam para que funcionem ainda melhor em conjunto. Cada TPU inclui uma rede personalizada de alta velocidade que permite construir supercomputadores chamamos de "TPU pods". Um pod TPU contém 64 TPUs de segunda geração e fornece até 11,5 petaflops para acelerar o treinamento de uma solução de Machine Learning.

 

TPUspod

 

As empresas poderão usar os novos chips através da plataforma de nuvem do Google, como parte de sua oferta de infraestrutura como serviço Compute Engine, por enquanto disponível apenas para a região Estados Unidos. O que siignifica que empresas brasileiras interessadas em se familiarizarem com o protudo, terão que fazê-lo usando o serviço de nuvem a partir dos Estados Unidos.

Quando a região Brasil for uma relaidade, o que deve acontecer ainda este ano, talvez o serviço esteja disponível também a partir do Brasil. Mas a própria Google só conta com esta possibilidade para 218.

A aprendizagem de máquina tornou-se cada vez mais importante para alimentar a próxima geração de aplicações. Acelerar a criação de novos modelos significa que será mais fácil para empresas experimentar diferentes abordagens para encontrar os melhores para aplicações específicas. E onovo hardware da Google também pode servir para atrair novos clientes para sua plataforma de nuvem, numa época em que a empresa está competindo contra a Microsoft, a Amazon e outros titãs de tecnologia.

Especificações
Com as novas TPUs na Google Compute Engine, como TPUs na nuvem, será possível conectá-las a máquinas virtuais de todas as formas e tamanhos, misturá-ls e combiná-las com outros tipos de hardware, incluindo Skylake CPUs e GPUs Nvidia.

Você pode programar TPUs com TensorFlow, o framework de aprendizagem de máquinas open-source do Google, disponível no GitHub, e através de APIs de alto nível que facilitarão o treinamento de soluções de Machine Learning em CPUs, GPUs ou Cloud TPUs com apenas alterações mínimas de código.

O TensorFlow 1.2 inclui novas APIs de alto nível que tornam mais fácil levar sistemas construídos para serem executados em CPUs e GPUs e também executá-los em TPUs. Fabricantes de outras estruturas de aprendizagem de máquinas como a Caffe podem fazer com que suas ferramentas funcionem com TPUs, projetando-as para chamar as APIs de TensorFlow, de acordo com o Google Senior Fellow Jeff Dean.

Além disso, com as Cloud TPUs, os desenvolvedores têm a oportunidade de integrar aceleradores ML de última geração diretamente na sua infraestrutura de produção e se beneficiar de serviços de poder de computação sem qualquer desembolso inicial, segundo o Google. Uma vez que os aceleradores ML rápidos colocam exigências extraordinárias em sistemas e redes de armazenamento, O Google está otimizando toda a sua infraestrutura de nuvem para ajudar a garantir que os desenvolvedores possam usar ML rapidamente usando dados reais de produção.

TensorFlow Research Cloud
Inicialmente, o Cloud TPU estará disponível por meio do Google Compute Engine. Mas também serão oferecidos 1 mil Cloud TPUs gratuitos para serem usados por pesquisadores do TensorFlow Research Cloud, democratizando o acesso à tecnologia de ponta em inteligência artificial.

Grande parte dos progressos recentes em Machine Learning tem sido impulsionada por colaboração entre pesquisadores de todo o mundo, tanto na indústria como na academia. No entanto, muitos pesquisadores top não têm acesso a todo poder computacional do qual precisam. Ajudar o maior número de pesquisadores a acelerar ainda mais o ritmo das pesquisas em Machine Learning é um dos motivos pelos quais as 1 mil Cloud TPUs estejam disponíveis através do TensorFlow Research Cloud.

Aqueles profissionais e pesquisadores interessados em acelerar o treinamento de modelos de aprendizagem de máquina, processamento de conjuntos de Big Data, ou processamento de solicitações ao vivo em produção, usando modelos ML mais potentes, podem inscrever-se hoje para saber mais sobre o programa Cloud TPU Alpha. Já os pesquisadores que  estiverem dispostos a compartilhar suas descobertas com o mundo, também vale conhecer melhor o programa TensorFlow Research Cloud.