De volta ao âmago da inteligência … para realmente se mudar para o futuro

De volta ao âmago da inteligência … para realmente se mudar para o futuro

 

Postagem de convidado de José Hernández-Orallo, professor da Universidade Técnica de Valencia

De volta ao âmago da inteligência … para realmente se mudar para o futuro
 

Duas décadas atrás, comecei a trabalhar em métricas de inteligência de máquinas. Naquela época, durante os dias glaciais do segundo inverno da IA, poucos estavam realmente interessados ​​em medir algo que a IA não tinha completamente. E muito poucos, como David L. Dowe e eu, estávamos interessados ​​em métricas de inteligência ligadas a teoria da informação algorítmicaonde os modelos de interação entre um agente e o mundo eram sequências de bits, e a inteligência foi formulada usando SOLOMONOFF e Wallace’s teorias da inferência indutiva.

Enquanto isso, aparentemente dezenas de variantes do teste de Turing foram propostas todos os anos, os captchas foram introduzidos e David mostrou como é fácil Resolva alguns testes de QI usando um programa muito simples baseado em uma abordagem de grande troca. E, hoje, chegou uma nova primavera de IA, desencadeada por um campo de aprendizado de máquina florescente, trazendo uma abordagem mais experimental à IA com um número crescente de Referências e competições de IA (veja uma entrada anterior neste blog para um enquete).

Considerando essa perspectiva de 20 anos, o ano passado foi especial de várias maneiras. O primeiro em um Série de workshops sobre a avaliação da IA ​​de uso geral decolou, ecoando o crescente interesse na avaliação de sistemas de inteligência geral artificial (AGI), capazes de encontrar diversas soluções para uma variedade de tarefas. A avaliação desses sistemas é diferente e mais desafiadora do que a avaliação tradicional orientada a tarefas de sistemas específicos, como um limpador robótico, um modelo de pontuação de crédito, um tradutor de máquina ou um carro autônomo. O idéia de avaliar sistemas de IA de uso geral usando videogames tinha pego. O Ambiente de aprendizagem de arcade (os Atari 2600 Games) ou o mais flexível Linguagem de definição de videogame e competição associada tornou -se cada vez mais popular para a avaliação da AGI e seu recente Avanços.

No ano passado também testemunhou a introdução de um tipo diferente de Plataformas de avaliação de IAcomo a Microsoft’s MalmöGoodai’s EscolaOpenai’s Academia e UniversoDeepMind’s LaboratórioFacebook Torchcraft e Commai-env. Com base em uma configuração de aprendizado de reforço (RL), essas plataformas possibilitam criar muitas tarefas diferentes e conectar agentes RL através de uma interface padrão. Muitas dessas plataformas são adequadas para os novos paradigmas da IA, como aprendizado de reforço profundo e algumas bibliotecas de aprendizado de máquina de código aberto. Após milhares de episódios ou milhões de etapas contra uma nova tarefa, esses sistemas são capazes de se destacar, geralmente melhor que o desempenho humano.

Apesar das inúmeras aplicações e avanços que foram derivados desse paradigma, parece haver um consenso no campo de que o principal problema aberto está na maneira como um agente de IA pode reutilizar as representações e habilidades de uma tarefa para novos, tornando possível aprender uma nova tarefa muito mais rápida, com alguns exemplos, como os humanos fazem. Isso pode ser visto como um problema de mapeamento (geralmente sob o aprendizado de transferência a termo) ou pode ser visto como um problema seqüencial (geralmente nos termos gradual, cumulativo, incremental, contínuo ou de aprendizado curricular).

Uma das principais noções associadas a essa capacidade de um sistema de construção de novos conceitos e habilidades em relação aos anteriores é geralmente chamado de “composicionalidade”, que é bem documentada em humanos de Primeira infância. Os sistemas são capazes de combinar as representações, conceitos ou habilidades que foram aprendidas anteriormente para resolver um novo problema. Por exemplo, um agente pode combinar a capacidade de subir uma escada com seu uso como uma possível saída de uma sala, ou um agente pode aprender a multiplicação após aprender a adição.

Na minha opinião, duas das plataformas anteriores são mais adequadas para a composicionalidade: Malmö e Commai-ENV. Malmö Tem todos os ingredientes de um jogo em 3D, e os pesquisadores de IA podem experimentar e avaliar agentes com visão e navegação 3D, que é o que muitos trabalhos de pesquisa que usam Malmö fizeram até agora, pois esse é um tópico quente na IA no momento. No entanto, para mim, a característica mais interessante de Malmö é construir e criar, onde os agentes devem necessariamente combinar conceitos e habilidades anteriores para criar coisas mais complexas.

Commai-env é claramente um outlier neste conjunto de plataformas. Não é um videogame em 2D ou 3D. Vídeo ou áudio não têm nenhum papel lá. A interação é apenas produzida através de um fluxo de bits e recompensas de entrada/saída, que são apenas +1, 0 ou -1. Basicamente, ações e observações são binárias. A lógica por trás do Commai-ENV é dar destaque às habilidades de comunicação, mas ainda permite interação, padrões e tarefas ricos, enquanto “mantendo todas as complexidades adicionais no mínimo”.

Exemplos de interação dentro do Commai-mini ambiente.

Quando eu estava ciente de que o Desafio geral da IA estava usando o Commai-ENV para sua rodada de aquecimento, eu estava em êxtase. Os participantes podem se concentrar em agentes de RL sem as complexidades da visão e da navegação. Obviamente, a visão e a navegação são muito importantes para os aplicativos de IA, mas eles criam muitas complicações extras se quisermos entender (e avaliar) o aprendizado gradual. Por exemplo, duas tarefas iguais para as quais a textura das paredes muda podem ser vistas como exigindo um esforço de transferência mais alto do que duas tarefas ligeiramente diferentes com a mesma textura. Em outras palavras, isso seria fatores de confusão extra que tornariam a análise da transferência de tarefas e das dependências de tarefas muito mais difíceis. É então uma escolha sábia excluir isso da rodada de aquecimento. Haverá ocasiões durante outras rodadas do desafio para incluir visão, navegação e outros tipos de modalidade complexa. Começando com uma interface mínima para avaliar se os agentes são capazes de aprender gradualmente não é apenas um problema aberto, mas um problema aberto importante para a IA geral.

Além disso, a rodada de aquecimento modificou o Commai-ENV de forma que os bits sejam embalados em caracteres de 8 bits (1 byte). Isso torna a definição de tarefas mais intuitiva e torna a codificação ASCII transparente para os agentes. Basicamente, o conjunto de ações e observações é estendido para 256. Mas, curiosamente, o conjunto de observações e ações é o mesmo, o que permite muitas possibilidades incomuns no aprendizado de reforço, onde esses subconjuntos são diferentes. Por exemplo, um agente com primitivas como “Entrada de cópia para saída” e outros operadores de transformação de sequência pode compõe -os para resolver a tarefa. Variáveis ​​e outros tipos de abstrações desempenham um papel fundamental.

Isso pode dar a impressão de que estamos de volta a máquinas de Turing e IA simbólica. De certa forma, esse é o caso, e muito alinhado à visão de Turing em Seu artigo de 1950: “É possível ensinar uma máquina por punições e recompensas para obedecer às ordens dadas em algum idioma, por exemplo, uma linguagem simbólica”. Mas em 2017, temos uma variedade de técnicas que não estavam disponíveis apenas alguns anos atrás. Por exemplo, as máquinas de Turing Neural e outras redes neurais com memória simbólica podem ser muito adequadas para esse problema.

De maneira alguma isso indica que a Legião dos Entusiastas da Aprendizagem de Reforço Profundo não pode trazer seu aparelho para esta rodada de aquecimento. Na verdade, eles não ficarão desapontados com esse desafio se realmente trabalharem duro para adaptar o aprendizado profundo desse problema. Eles provavelmente não precisarão de uma rede convolucional ajustada para o reconhecimento de padrões visuais, mas existem muitas possibilidades e desafios em como fazer com que o aprendizado profundo funcione em um ambiente como esse, especialmente porque quanto menos exemplos, melhor e o aprendizado profundo geralmente requer muitos exemplos.

Como uma vantagem, o simples, simbólico A interface seqüencial abre o desafio para muitas outras áreas da IA, não apenas redes neurais recorrentes, mas técnicas de processamento de linguagem natural, computação evolutiva, algoritmos inspirados em compressão ou mesmo áreas como programação indutiva, com poderosos primitivos de manuseio de cordas e sua adequação para problemas com muito poucos exemplos.

Eu acho que tudo o que é acima faz com que esse aquecimento em volta de uma competição única. Obviamente, como não tivemos nada semelhante no passado, podemos ter algumas surpresas. Pode acontecer que uma técnica inesperada (ou mesmo ingênua) possa se comportar muito melhor que outros (e humanos) ou talvez descobrimos que nenhuma técnica é capaz de fazer algo significativo neste momento.

Estou ansioso para ver como essa rodada se desenvolve e o que os participantes são capazes de integrar e inventar para resolver a sequência de micro e mini-tarefas. Tenho certeza de que aprenderemos muito com isso. Espero que as máquinas também. E todos nós avançaremos para a próxima rodada!

José Hernández-Orallo é professor da Universidade Técnica de Valencia e autor de “A medida de todas as mentes, avaliando a inteligência natural e artificial”, Cambridge University Press, 2017.


De volta ao âmago da inteligência … para realmente se mudar para o futuro foi publicado originalmente em Blog do Instituto de Roteiro da AI No meio, onde as pessoas continuam a conversa destacando e respondendo a essa história. Solana Token Creator

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *