> 数据图表

请问一下When Thinking Fails 论文

2025-5-2
请问一下When Thinking Fails 论文
限制)和复合逻辑约束(如嵌套条件)任务中的表现普遍下降,部分模型准确率降幅甚至超过 16 个百分点。