从 Flow-GRPO 到生成式智能体:视觉生成强化学习正在走向闭环交互 6 minute read Published: June 12, 2026 从 Flow Matching、Flow-GRPO 与 DiffusionNFT 出发,讨论视觉生成强化学习如何从优化单次采样轨迹走向多轮环境交互。