以后AI智能体来做科研,然后雇一群人类写代码……
人类更适应更复杂、更长时间的科研,AI更适应大量并行短任务。
现有的评估往往侧重于短期、狭窄的任务,并且缺乏与人类专家的直接比较。
一旦7项任务公开,如何防止基准测试数据污染问题?