更新于 2026/06/29 18:02
DiScoFormer: 单一Transformer同时建模密度与分数,跨分布泛化
艾伦人工智能研究所提出 DiScoFormer,一种能同时学习概率密度函数和评分函数的单一 Transformer 架构,在多个数据分布上实现零样本泛化。传统方法需要为每个分布单独训练一个模型,DiScoFormer 通过将分布上下文作为条件输入,让同一个模型处理未见过的分布。
核心创新在于将密度估计和分数匹配统一到同一个 Transformer 中,利用注意力机制捕捉分布间的结构相似性。在合成数据和高维真实数据上,DiScoFormer 在未见分布上的密度估计误差降低 30-50%,且评分函数可直接用于扩散模型的采样加速。
这项工作为分布外泛化提供了新范式,可能影响扩散模型、异常检测和贝叶斯推断等领域的工程实践。训练框架和推理流程均基于标准 Transformer,易于集成到现有 pipeline 中。
速读
DiScoFormer 用单一 Transformer 跨分布建模密度与评分函数
相关源 (1)
- Hugging Face Blog · 2026/6/29 18:02:48https://huggingface.co/blog/allenai/discoformer