Quase dois anos atrás, comecei a incluir uma seção de Hardware memoria ddr4 em minhas apresentações de Deep Learning. Foi dedicado a uma revisão do estado atual e a um conjunto de tendências para os próximos 1-5 anos como por memoria ram 16gb.

Aqui está uma versão de abril de 2016 e aqui está uma atualização de outubro de 2017. No ano passado vimos muitos anúncios interessantes, fiz algumas palestras com slides atualizados e agora estou atualizando para fevereiro / março de 2018. Vou publicar logo será uma apresentação separada, e este (s) texto (s) será (ão) uma postagem complementar aos slides com o objetivo de torná-los mais legíveis e úteis como referência.

Aqui está a versão “final de 2019”:

Comecei a escrevê-lo como um único post, mas logo ficou muito grande, então decidi dividi-lo em uma série de posts pequenos sobre memoria ddr3.

Vou atualizar constantemente os textos para corrigir erros e incluir notícias e anúncios recentes. Veja as notas de lançamento no final da postagem atual. Sinta-se à vontade para comentar as postagens e / ou mandar um e-mail para gs@inten.to.

Existem dois modos de trabalho distintos para as Redes Neurais usadas atualmente (NN, também conhecido como Deep Learning, DL): Treinamento (aprender um conjunto de pesos para um NN projetado para resolver uma tarefa específica) e Inferência (usando um NN treinado). O treinamento é um processo muito mais intensivo de computação do que a inferência.

Muitos aplicativos separam esses dois modos de memoria rgb, mas algumas tarefas (como Deep Reinforcement Learning) podem exigir uma integração estreita de ambos. Existe, em princípio, outro modo de Meta-Aprendizado (encontrar a arquitetura certa, parâmetros e assim por diante), mas vamos deixá-lo de lado por enquanto.

O Deep Learning segue o mesmo caminho que o Bitcoin passou. ̶M̶i̶n̶i̶n̶g̶ O treinamento começou em CPUs (Unidades de Processamento Cental, processadores comuns da Intel / AMD como Core i7, Ryzen e assim por diante), então mudou para GPUs (Unidades de Processamento Gráfico da NVIDIA / AMD como NVIDIA GTX 1080 Ti), então mudando para FPGAs ( Field-Programmable Gate Arrays, um circuito integrado projetado para ser programado por um cliente) e ASICs (Circuitos Integrados de aplicativos específicos, produzidos para serem personalizados para cálculos especiais em vez de computação de uso geral).

No momento, a maior parte do treinamento é feita em GPUs, e são GPUs NVIDIA. A AMD quase perdeu a batalha, porque suas GPUs têm um suporte muito pobre em frameworks DL (embora tenham um desempenho muito bom). FPGAs e ASICs estão em ascensão (entre os exemplos recentes está o TPU do Google, Unidade de Processamento de Tensor).

Um dos próximos grandes sucessos do Hardware DL são os processadores móveis adequados para DL, e quase todas as empresas estão adicionando alguns recursos de ML / DL na forma de instruções especiais, DSPs otimizados e NPUs (unidades de processamento neural) dedicadas. É principalmente sobre inferência, não treinamento.

Processadores móveis rápidos (e energeticamente eficientes) permitirão o uso de modelos [já treinados] para processar dados instantaneamente sem a necessidade de enviá-los para a nuvem, reduzindo a latência e aumentando a privacidade / segurança, e isso provavelmente levará a outra explosão cambriana de IA formulários.

Ter maior capacidade de computação no limite (dispositivos móveis, vestíveis, dispositivos domésticos, IoT, etc.) pode avançar os modos de treinamento distribuído. Este tópico requer mais pesquisas e experimentos.

Existe um campo interessante chamado computação neuromórfica, e algumas coisas interessantes estão acontecendo, ou seja, a IBM já tem seu chip TrueNorth, a Intel anuncia seu chip Loihi. Duas vantagens principais das arquiteturas neuromórficas são que 1) elas são mais adequadas para as computações semelhantes ao cérebro; 2) eles são potencialmente muito mais eficientes em termos de energia (ou seja, TrueNorth consome apenas 70mW de energia, compare isso com 250W para as melhores GPUs NVIDIA).

Memristores estão sendo pesquisados ​​e podem fazer a computação neuromórfica avançar ainda mais. Eles fornecem um circuito completamente diferente em comparação com os processadores neuromórficos mencionados anteriormente, ainda baseados em transistores. No momento, é difícil esperar algo útil na produção.

Computadores quânticos (QC) estão em alta. No ano passad com memoria ram 8gb , vimos muitas conquistas de todas as grandes empresas, incluindo Google, IBM, Microsoft, Intel e assim por diante. A computação quântica pode avançar o campo do ML de diferentes maneiras, começando com o aumento da velocidade de muitos algoritmos clássicos até os completamente novos e o desenvolvimento do campo do aprendizado de máquina quântico. Mas ainda existem muitos obstáculos a serem superados e ainda há um longo caminho até que possamos usar CQs para grandes conjuntos de dados da vida real.

Conteúdo
Parte 1: Introdução e resumo executivo (esta postagem)
Parte 2: CPU
Parte 3: GPU
Parte 4: ASIC
Parte 5: FPGA
Parte 6: IA móvel
Parte 7: computação neuromórfica
Parte 8: computação quântica