O STTS é um módulo leve que otimiza modelos de visão-linguagem para vídeo ao podar 50% dos tokens visuais tanto no ViT quanto no LLM, sem necessidade de condicionamento textual. A técnica alcança 62% de melhoria em eficiência computacional com apenas 0,7% de queda no desempenho em 13 tarefas de perguntas e respostas sobre vídeos.
Análise Estratégica Completa
Tópicos Relacionados
Nvidia unveils AI infrastructure spanning chips to space computing
92We can now generate and edit 30s 1080p videos in real-time
92Meta 'Estrela do Norte' da OpenAI: Pesquisador de IA Totalmente Automatizado até 2026 e Laboratório Multi-Agente até 2028
91"Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science" - paper by Emmanuel Dupoux, Yann LeCun, Jitendra Malik
91Alertas no Telegram assim que o robô detecta score 85+. 13 fontes globais monitoradas de hora em hora.
Criar conta grátis — 30 dias Premium →