资讯

在理论上,从学习生成路径上特定的解拓展到学习全局生成路径的解的流形;在实践上,通过DDE的前向有限差分替代JVP,原生兼容 FSDP/FlashAttention、训练更快更可扩展;同时用时间重参化+核函数的损失加权优先短间隔,降低梯度方差、提升稳定性。