Comparação de roteiro em Goodai. Postagem de convidado de Martin Stránský, pesquisa… | pelo Instituto Roteiro da AI | Blog do Instituto de Roteiro da AI

Comparação de roteiro em Goodai. Postagem de convidado de Martin Stránský, pesquisa… | pelo Instituto Roteiro da AI | Blog do Instituto de Roteiro da AI

 

 

RO progresso da ECENT na inteligência artificial, especialmente na área de aprendizado profundo, tem sido de tirar o fôlego. Isso é muito encorajador para qualquer pessoa interessada no campo, mas o verdadeiro progresso em direção à inteligência artificial em nível humano é muito mais difícil de avaliar.

A avaliação da inteligência artificial é um problema muito difícil por várias razões. Por exemplo, a falta de consenso sobre os desideratos básicos necessários para máquinas inteligentes é uma das principais barreiras ao desenvolvimento de abordagens unificadas para comparar diferentes agentes. Apesar de vários pesquisadores se concentrar especificamente nesse tópico (por exemplo, José Hernández-Orallo ou Kristinn R. Thórisson Para citar alguns), a área se beneficiaria de mais atenção da comunidade de IA.

Os métodos para avaliar a IA são ferramentas importantes que ajudam a avaliar o progresso de agentes já construídos. A comparação e avaliação de roteiros e abordagens para a construção desses agentes é, no entanto, menos explorada. Essa comparação é potencialmente ainda mais difícil, devido à imprecisão e definições formais limitadas dentro de tais planos prospectivos.

No entanto, acreditamos que, a fim de dirigir para áreas promissoras de pesquisa e identificar possíveis bens sem saída, precisamos ser capazes de comparar significativamente os roteiros existentes. Essa comparação requer a criação de uma estrutura que define processos sobre como adquirir informações importantes e comparáveis ​​de documentos existentes, descrevendo seus respectivos roteiros. Sem uma estrutura tão unificada, cada roteiro pode não apenas diferir em seu alvo (por exemplo, IA geral, IA no nível humano, IA conversacional, etc.), mas também em suas abordagens para alcançar esse objetivo que pode ser impossível comparar e contrastar.

Este post oferece um vislumbre de como nós, na Goodai, estamos começando a olhar para esse problema internamente (comparando o progresso de nossas três equipes de arquitetura) e como isso pode escalar para comparações em toda a comunidade em geral. Isso ainda é um trabalho em andamento, mas acreditamos que pode ser benéfico compartilhar esses pensamentos iniciais com a comunidade, iniciar a discussão sobre o que acreditamos, é um tópico importante.

Na primeira parte deste artigo, é discutida uma comparação de três roteiros de desenvolvimento de arquitetura da Goodai e é discutida uma técnica para compará -los. O principal objetivo é estimar o potencial e a integridade dos planos para que toda arquitetura seja capaz de direcionar nosso esforço para o mais promissor.

Para gerenciar os roteiros adicionais de outras equipes, desenvolvemos um plano geral de desenvolvimento de IA em nível humano chamado meta-roadmap. Este meta-roadMap consiste em 10 etapas que devem ser aprovadas para atingir uma meta ‘final’. Esperamos que a maioria dos planos potencialmente díspares resolva um ou mais problemas identificados no meta-roadmap.

Em seguida, tentamos comparar nossas abordagens com as de Mikolov et. para Ao atribuir os documentos atuais e abrir tarefas a problemas no meta-roadmap. Descobrimos isso útil, pois nos mostrou o que é comparável e que diferentes técnicas de comparação são necessárias para todos os problemas.

Três equipes da Goodai trabalham em suas arquiteturas há alguns meses. Agora, precisamos de um método para medir o potencial das arquiteturas para poder, por exemplo, direcionar nosso esforço com mais eficiência, alocando mais recursos para a equipe com o maior potencial. Sabemos que determinar de que maneira é a mais promissora com base no estado atual ainda não é possível, por isso pedimos às equipes que trabalham em arquiteturas inacabadas para criar planos para o desenvolvimento futuro, ou seja, para criar seus roteiros.

Com base nas respostas fornecidas, temos requisitos iterativamente unificados para esses planos. Após inúmeras discussões, criamos a seguinte estrutura:

  • Uma unidade de um plano é chamada de marco e descreve algum trabalho em uma parte da arquitetura (por exemplo, um novo módulo, uma estrutura diferente, uma melhoria de um módulo adicionando funcionalidade, parâmetros de ajuste etc.)
  • Cada marco contém – Estimativa de tempoou seja, o tempo esperado gasto em marco assumindo o tamanho atual da equipeAssim, Característica de trabalho ou novos recursos e Teste de novos recursos.
  • Um plano pode ser interrompido por pontos de verificação que servem como testes comuns para duas ou mais arquiteturas.

Agora temos um conjunto de ferramentas básicas para monitorar o progresso:

  • Veremos se uma equipe em particular alcançará seus testes auto-projetados e, assim, pode atender às suas expectativas originais dentro do cronograma.
  • Devido a pontos de verificação, é possível Compare arquiteturas no meio do desenvolvimento.
  • Podemos ver até que ponto uma equipe vê. Idealmente depois de terminar o último marco, a arquitetura deve ser preparado para passar por um currículo (que será desenvolvido nesse meio tempo) e um teste final depois.
  • Total estimativas de tempo. Podemos compará -los também.
  • Ainda estamos trabalhando em um conjunto unificado (entre as arquiteturas da Goodai) de recursos que exigiremos de uma arquitetura (Desiderata para uma arquitetura).

Os planos específicos foram colocados lado a lado (cf Figura 1) e alguns pontos de verificação foram (atualmente vagamente) definidos. Como podemos ver, as equipes têm planos difíceis de seu trabalho por mais de um ano antes, ainda assim os planos não estão completos, no sentido de que as arquiteturas não estarão prontas para nenhum currículo. Duas arquiteturas usam uma abordagem conectivista e são fáceis de comparar. O terceiro, Omann, manipula símbolos, assim desde o início, pode executar tarefas difíceis para as outras duas arquiteturas e vice -versa. Isso significa que nenhum ponto de verificação para Omann foi definido ainda. Vemos a falta de testes comuns como um problema sério com o plano e estamos procurando alterações para tornar a arquitetura mais comparável aos outros, embora isso possa causar alguns atrasos no desenvolvimento.

Houve um esforço para incluir outra arquitetura na comparação, mas não conseguimos encontrar um documento descrevendo trabalhos futuros com tantos detalhes, com exceção de Weston et al. papel. Após uma análise mais aprofundada, determinamos que o artigo estava focado em um problema ligeiramente diferente do desenvolvimento de uma arquitetura. Abordaremos isso mais tarde no post.

Gostaríamos de dar uma olhada no problema da perspectiva das etapas inevitáveis ​​necessárias para desenvolver um agente inteligente. Primeiro, devemos fazer algumas suposições sobre todo o processo. Percebemos que esses são um pouco vagos – queremos torná -los aceitáveis ​​para outros pesquisadores de IA.

  1. Um alvo é produzir um software (referido como um arquitetura), que pode fazer parte de algum agente em algum mundo.
  2. No mundo, haverá tarefas que o agente deve resolver, ou uma recompensa com base nos estados mundiais que o agente deve buscar.
  3. Um agente inteligente pode se adaptar a um ambiente desconhecido/em mudança e resolver tarefas anteriormente invisíveis.
  4. Para verificar se o objetivo final foi atingido (não importa quão definido), toda abordagem precisa de alguns bem definidos Teste finalque mostra o quão inteligente é o agente (de preferência comparado aos seres humanos).

Antes que o agente seja capaz de passar no teste final, deve haver uma fase de aprendizado para ensinar ao agente todas as habilidades ou habilidades necessárias. Se houver a possibilidade de o agente passar no teste final sem aprender nada, o teste final é insuficiente em relação ao ponto 3. Descrição da fase de aprendizado (que pode incluir também uma descrição do mundo) é chamada de currículo.

Usando as suposições acima (e algumas mais óbvias que não enumeremos aqui), derivamos a Figura 2 descrevendo a lista das etapas necessárias e sua ordem. Chamamos esse diagrama de A Meta-roadmap. Solana Token Creator

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *