Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

O STTS é um módulo leve que otimiza modelos de visão-linguagem para vídeo ao podar 50% dos tokens visuais tanto no ViT quanto no LLM, sem necessidade de condicionamento textual. A técnica alcança 62% de melhoria em eficiência computacional com apenas 0,7% de queda no desempenho em 13 tarefas de perguntas e respostas sobre vídeos.

#token pruning #vision language models #video understanding #spatio-temporal #computational efficiency

Ver fonte original

Histórico do Score

Análise Estratégica Completa

Desbloqueie a análise completa

✓ Dossiê estratégico com plano de negócio
✓ Domínios .com e .com.br disponíveis
✓ Sugestão de marca para INPI
✓ Simulação multi-agente IA

Criar conta grátis → Já tenho conta — entrar

Tópicos Relacionados

Nvidia unveils AI infrastructure spanning chips to space computing

We can now generate and edit 30s 1080p videos in real-time

Meta 'Estrela do Norte' da OpenAI: Pesquisador de IA Totalmente Automatizado até 2026 e Laboratório Multi-Agente até 2028

"Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science" - paper by Emmanuel Dupoux, Yann LeCun, Jitendra Malik

Receba o próximo tópico Alpha antes de todo mundo

Alertas no Telegram assim que o robô detecta score 85+. 13 fontes globais monitoradas de hora em hora.

Criar conta grátis — 30 dias Premium →