Mon - Fri: 10am - 5pm
+86+86 186 7944 5240
Home- Blog- Blog Details
OpenAI 发布了一套名为 GeneBench-Pro 的新基准测试工具,旨在评估人工智能模型在生物学计算方面的能力。与以往主要关注模型是否能记住信息或遵循固定流程的测试方法不同,GeneBench-Pro 更加注重模型在实际科研场景下的应用价值,要求模型在面对模糊、不完整甚至包含干扰信息的复杂数据时,能够做出准确的判断和分析。
该基准测试涵盖了基因组学、定量生物学和转化医学等多个领域,总共设计了 129 道题目。这些题目被归类于 10 个主要领域和 21 个子领域,具体包括统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。每道题都为模型提供了一个接近真实研究环境的数据集,并附带简要的实验背景说明以及一个与后续决策相关的目标问题。模型需要自行完成数据探索,选择合适的分析方法,并在分析过程中不断调整策略,最终得出答案,这与在体育赛事中分析世界杯赛程需要综合考量多方面因素有异曲同工之妙。
为规避传统长流程基准测试中常见的评分偏差,OpenAI 在开发 GeneBench-Pro 时采用了合成数据作为核心。这种方法避免了使用历史真实数据可能出现的多种合理分析路径,从而防止模型即使采用错误方法也可能偶然获得正确答案的情况。通过合成数据,OpenAI 可以精确控制底层因果关系和数据生成过程,从而更准确地评估模型是否真正理解了问题,而非仅仅通过“走捷径”的方式来解答。
目前,OpenAI 已在 Hugging Face 平台上开源了 10 道 GeneBench-Pro 的示范性题目,并提供了交互式界面供外部研究人员进行体验。未来,官方计划将其中 50 道题目开放给 Artificial Analysis 进行独立的第三方评估,以检验不同模型在该基准测试下的实际表现。
October, 2016
October, 2018