宝博体育- 宝博体育官网- APP下载 BaoBoSportsUV-CoT：无监督视觉推理新突破偏好优化重塑图像级思维链

363050.com

栏目：宝博体育发布时间：2025-08-04

　　宝博体育,宝博,宝博体育官网,宝博app下载,宝博体育网址,宝博体育官方网站,宝博体育注册,宝博体育靠谱吗,宝博体育登录,宝博体育入口,宝博体育注册,宝博官方网站,宝博APP,宝博注册,宝博网址　　随着文本领域中思维链（Chain-of-Thought，CoT）推理机制的成功应用，研究者开始将该方法引入视觉理解任务，以提升模型的推

　　宝博体育,宝博,宝博体育官网,宝博app下载,宝博体育网址,宝博体育官方网站,宝博体育注册,宝博体育靠谱吗,宝博体育登录,宝博体育入口,宝博体育注册,宝博官方网站,宝博APP,宝博注册,宝博网址

宝博体育- 宝博体育官网- 宝博体育APP下载 BaoBoSportsUV-CoT：无监督视觉推理新突破偏好优化重塑图像级思维链

　　随着文本领域中思维链（Chain-of-Thought，CoT）推理机制的成功应用，研究者开始将该方法引入视觉理解任务，以提升模型的推理能力和可解释性。

　　然而，现有模型局限于文本级别的思维链推理，且处理图像的粒度固定，难以根据语义线索动态关注图像中的关键区域。针对上述问题，本文提出UV-CoT（Unsupervised Visual Chain-of-Thought），一种无监督视觉思维链推理新框架

　　该方法以「关键区域→推理过程」的人类视觉理解方式为参考（如下图所示），设计了无监督的数据生成与偏好优化机制，动态聚焦关键区域，实现细粒度推理，显著提升了模型的空间感知与图文推理能力。

　　现有方法采用有监督微调（Supervised Fine-Tuning, SFT）策略训练模型，使用大量有标签的思维链推理数据，由人工标注关键区域及其推理过程。这类方法面临以下挑战：

　　人工标注成本高，扩展性差：标注关键图像区域和推理路径需要耗费大量人力和时间，尤其在复杂视觉语义理解任务中，难以适应多任务或大规模场景。

　　训练信号单一，泛化能力有限： SFT 仅利用人工标注的「正样本」（正确区域及回答），忽略其他潜在合理或不合理的区域与推理路径，导致模型在未知场景下的泛化能力不足。

　　UV-CoT设计了一套自动化的偏好数据生成与评估流程，结合改进的偏好优化算法 Score-DPO（sDPO），在不依赖人工标注的前提下，通过偏好评分排序引导模型实现无监督图像级思维链学习（如下图所示）。

　　通过动态生成偏好数据，UV-CoT 减少了对高质量标注数据的依赖，能够在无监督数据条件下实现图像级思维链推理。

　　UV-CoT 使用改进的直接偏好优化（DPO）算法 sDPO，通过引入偏好分数差异优化图像级思维链推理，并采用迭代学习策略动态适应模型输出分布。

　　显著性能提升（表 1）：在六大基准上，优于有监督的思维链模型 Visual-CoT-7B，远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。

　　泛化能力强，易于拓展（表 2）：在零样本设置下，UV-CoT 平均提升 2.5%，添加额外无标注数据后，平均提升达 5.1%。

　　UV-CoT 提出了一种创新的无监督视觉思维链推理框架，通过自动化的数据生成与对比评估机制，成功摆脱了对人工标注的依赖，实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路，为未来无监督视觉理解研究奠定了坚实基础。

上一篇：足协杯爆发大规模冲突！业余球队武汉宏兴围攻江苏苏宁宝博体育- 宝博体育官网- APP下载 BaoBoSports

下一篇：宝博体育- 宝博体育官网- APP下载 BaoBoSports南通队3∶0胜镇江队七战七捷积21分稳居“苏超”积分榜榜首

联系我们

宝博体育

电话：363050.com
传真：363050.com
邮箱：363050.com
QQ：363050.com
地址：宝博体育永久网址【363050.com】

姓名

邮箱

电话

内容

提交

友情链接:

TOP