Instituto Laude Lança Primeira Turma de Bolsas de AI Slingshots

Pontos principais
- Instituto Laude lança primeira turma de bolsas de AI Slingshots.
- Quinze projetos recebem financiamento, poder de processamento e suporte de engenharia.
- Bolsas se concentram em avançar benchmarks de avaliação de IA.
- Projetos incluídos: Terminal Bench, ARC-AGI, Formula Code, BizBench.
- John Boda Yang lidera CodeClash, uma avaliação de código baseada em competição.
- Recipientes devem entregar resultados tangíveis, como startups ou ferramentas de código aberto.
- Instituto alerta contra benchmarks se tornarem específicos de empresas.
O Instituto Laude anunciou seu programa inaugural de bolsas Slingshots, fornecendo financiamento, poder de processamento e suporte de produto a 15 projetos de pesquisa de IA focados em avaliação. A turma inclui iniciativas como o Terminal Bench, um benchmark de codificação de linha de comando, um projeto ARC-AGI atualizado, Formula Code da Caltech e UT Austin, e BizBench da Columbia. O co-fundador da SWE-Bench, John Boda Yang, lidera o novo framework de competição CodeClash. Os recipientes devem entregar resultados tangíveis, como startups ou repositórios de código aberto, enquanto o instituto alerta contra benchmarks se tornarem muito específicos de empresas.
Visão Geral do Programa
O Instituto Laude revelou sua primeira turma de bolsas Slingshots, um novo acelerador projetado para avançar a ciência e a prática da inteligência artificial. O programa fornece recursos frequentemente indisponíveis em ambientes acadêmicos típicos, incluindo financiamento, poder de processamento e suporte de produto e engenharia. Em troca, os recipientes das bolsas se comprometem a produzir um trabalho concreto, como uma startup, um repositório de código aberto ou outro tipo de artefato.
Composição e Foco da Turma
A turma inaugural é composta por 15 projetos, com ênfase particular na avaliação de IA. Projetos notáveis incluem Terminal Bench, um benchmark de codificação de linha de comando, e a última versão do projeto ARC-AGI de longa data. Formula Code, uma colaboração entre pesquisadores da Caltech e da Universidade do Texas em Austin, visa avaliar a capacidade de agentes de IA de otimizar código existente. Da Universidade Columbia, BizBench propõe um benchmark abrangente para "agentes de IA de colarinho branco". Bolsas adicionais exploram novas estruturas para aprendizado por reforço e compressão de modelos.
CodeClash e Preocupações da Indústria
O co-fundador da SWE-Bench, John Boda Yang, faz parte da turma, liderando o novo projeto CodeClash. CodeClash avalia código por meio de um framework dinâmico baseado em competição, buscando impulsionar o progresso mantendo benchmarks relevantes e desafiadores. Yang expressou preocupação de que os benchmarks possam se tornar muito específicos de empresas individuais, enfatizando a necessidade de padrões de avaliação abertos mais amplos.