港中深团队打造新型AI评测集,或可成为数学大模型检验的重要基准
近日,港中来自香港中文大学(深圳)的深团数学一支科研团队通过求解器的引入,把大模型回答的队打大模南宁市某某通信设备服务中心数学模型交给求解器解决,进而通过比对求解器的造新重基准答案,得以成功判断数学模型的型A型检正确性。
这相当于为参加考试的测集成考生准备了高级计算器,只需输入方程就能得出准确答案。港中这样一来,深团数学就可以判断学生所写的队打大模方程是否正确。
基于这个理念,造新重基准该团队构建了一款名为 Mamo 的型A型检评测集,能够结合不同的测集成求解器评测大模型相应的建模能力。
未来,港中南宁市某某通信设备服务中心这一评测集可能会成为数学大模型检验的深团数学重要基准,从而能够用于测试新训练大模型的队打大模建模能力。
同时,本次评测集的出现,也让评测中间过程成为可能,有望带动运筹大模型的发展。
谈及本次课题的初衷,研究人员表示在讨论 AI for math、特别是讨论大模型 for math 的时候,他们重点讨论了使用大模型做定理证明的任务。
借此发现采用现有的形式化定理证明工具,可以自动地验证证明过程的正确性,从而确定大模型的证明是否正确。否则,用自动化的方式判断一段数学证明的正确性是比较困难的。
以此为启发:他们想知道在其他任务中,是否存在和形式化定理证明工具一样的东西?如果有的话,能否让他们以简单的方式判断大模型的答案是否正确?
于是他们想到了求解器。当给定目标之后,求解器可以帮助运行出对应问题/对应方程的解。
通过对不同解答的比对,就可以判断中间过程、也就是判断数学模型的正确性。
此外,一直以来,人们对于大模型的数学能力的比较,一直是在最终结果(即一道题的最终答案)上,但却缺乏对于中间过程的关注。
打个比方,就是像数学考试解答题的判卷中,只考虑最后的答案正不正确,而忽略了中间的解题过程。但是,中间的解题过程和答案一样重要。
因此,课题组希望把这个评价体系拆开,不再只是关注最终答案,而是关注中间的解题过程。于是,便开展了本次研究并发表了相关论文。
图 | 论文作者黄旭函(来源:黄旭函)
日前,相关论文以《Mamo: 一个带有求解器的数学建模基准》(Mamo: a Mathematical Modeling Benchmark with 求解器 s)为题发在arXiv[1]。
图 | 相关论文(来源:arXiv)
下一步,他们将扩充数据,同时探索能够适配 Mamo 的不同求解器种类,以及构建相应的评测集。
参考资料:
1.https://arxiv.org/pdf/2405.13144
(责任编辑:时尚)
-
高考,真正考的是名次,不是分数,通过考试的分数,决定了你在本省考生中的名次,高考录取主要是依据名次位次,一分一段表)录取的。 目录:一、20253高考分数600+可以报考哪些不错的大学? 二、2025 ...[详细]
-
房姐,我是想咨询买房,我们的房子今年上半年就已经出手,资金已经全部到位,这几个月看着价格还在下降,所以一直迟迟没敢出手,可是也挺矛盾的,毕竟我们是刚需,既担心价格还会降,又担心价格涨起来会踩空,我们到 ...[详细]
-
天际悬明月,万家团圆时。当空军战机、海军潜艇与月亮同框,是家国的安宁,是万家团圆的守护……一起来欣赏,硬核又浪漫!中秋节,有人民子弟兵守护,请安心团圆。致敬每一份坚守!央广网·军事频道 作者:尚洁岩 ...[详细]
-
此前8月份成都车展大家也看到了不少花活,但好像并没有对市场激起什么大水花,但都不要紧,因为近日工信部又公布了一批新车申报图,适逢传统的“金九银十”要来了,或许是个好机会。那事不宜迟,马上跟老司机来一睹 ...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月5日报道7月的北京,热浪滚滚。但在朝阳区的颐堤港,有一处“甜而不腻、凉而有趣”的奇妙展览,悄悄俘获了无数都市潮人和亲子家庭的心。它不是迪士 ...[详细]
-
9月18日,北京市规自委挂牌1宗预申请宅地:丰台区东铁营棚户区改造和环境整治项目FT00-0512-0010、0015地块。时隔一天,规自委挂出另一宗宅地:通州区土桥中路西侧棚户区改造项目FZX-02 ...[详细]
-
扎堆抢客!5盘齐发,单价1.4万/㎡起,绿城奥体四代爆款加推!
这周西安楼市供应也是非常给力,前天下午住建局一次性推出了5个楼盘的备案价,给了近期买房人更多新选项。房源主要集中于城南、高新和港务区域,价格方面也是不等,有1.4万/㎡起步的低价小户型,也有大面积低密 ...[详细]
-
9月20日,是仰望U8参数丨图片)豪华版上市一周年。是不是感觉:才一周年吗?这台车不是已经在网络上、朋友圈和各种短视频中牛很久了吗?哪怕你抓个小孩哥,跟他聊两句,他也能细数仰望U8的各种名场面:浮水、 ...[详细]
-
...[详细]
-
摘要:这又是一个“量升价跌”的国庆。中秋节当天是国庆火车票开售的首日。当天,一些热门线路火车票很快售罄。根据各大互联网旅游平台OTA平台)给出的预测数据,今年国庆节旅游市场将迎来下半年最高峰。从民航市 ...[详细]