Vision Token的信息瓶颈：一个Token到底能装多少信息？

1. 背景：Vision Token是怎么来的？

在VLM（视觉语言模型）里，一张图片先被切成若干个patch，每个patch再被映射成一个vision token。这个token就是模型"看"图像的窗口。

但你有没有想过：一个token到底能装多少信息？如果你的图像分辨率越来越高、任务越来越复杂，你需要多少个token才够用？之前没有人定量回答过这个问题。

和树鑫（Shuxin Zhuang）合作，我们发现vision token的信息量遵循一个scaling law——它和图像分辨率、patch大小、以及任务复杂度之间存在定量的幂律关系。

具体来说：

这个scaling law对VLM的设计有直接的指导意义。比如你想让模型识别图像中的小物体——我们的公式可以告诉你，在给定的patch size下，需要多少分辨率才能让每个token装下足够的判别信息。不用瞎试了。

标题: How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs
作者: Shuxin Zhuang, Zi Liang, Runsheng Yu, Hongzong Li, Rong Feng, Shiqin Tang, Youzhi Zhang
状态: Preprint 2026