10道数学题讯飞星火V35升级版和商汤商量50的得分亮了

产品中心

当前位置: 首页 > 产品中心

10道数学题讯飞星火V35升级版和商汤商量50的得分亮了

2024-05-13 产品中心
  • 产品概述

  ChatGPT的发布掀起了新一代AI发展浪潮,将人类科技文明推向了通用AI时代,AIGC基础层的通用大模型成为国内外厂商纷纷布局的领域。

  4 月23,国内大模型厂商商汤推出日日新大模型体系5.0版,以此为基础,旗下包括商量、秒画、如影、琼宇、格物等在内的五大模型性能也水涨船高,达到新高。

  稍后,国内另一家AI企业科大讯飞也发布了星火大模型V3.5春季升级版,在文本生成、语言理解、知识问答、逻辑推理,数学能力、多模态和代码七大核心能持续提升的同时,业内首发长文本、长图文、长语音、多情感超拟人合成和一句话声音复刻等功能。

  通过此次升级,讯飞星火V3.5大模型不仅仅可以迅速吸收来自不同信息源的大量文本、图形材料和会议记录,还能在各种行业场景下提供专业且确切的解答,从而将大型模型的使用从“偶尔”提升到“常态化”,极大地提高每个人在工作和学习中的效率,助力人们更高效地获取知识,更精准地解决问题。

  正是基于两大模型的最新版本,这里我们将通过10道小、初、高应用题,对两大模型的数学能力来测试,每题10分,看看两大模型能考几分?

  大数学的数学能力,实际考验了大模型的语言理解能力和逻辑推理能力,能从侧面很好地反映出大模型的智能水平。

  试题1:一家三口人,三人年龄之和是72岁,妈妈和爸爸同岁,妈妈的年龄是孩子的4倍三人各是多少岁?

  试题2:联欢会上,要把10个水果装在6个袋子里,要求每个袋子中装的水果都是双数,而这些水果和袋子都不剩。该如何装?

  这是一首小学奥数题,与其说是数学题,不如说是脑筋急转弯,但不管怎么说,讯飞星火答对了,而商汤商量则陷在10不可能被6整除的死循环里。

  试题3:将一批数据输入电脑,甲独做需要50分钟完成,乙独做需要30分钟完成,现在甲独做30分钟,剩下的部分由甲、乙合做,问甲、乙两人合做的时间是多少?

  两大模型都给出了正确答案,各得10分。值得一提的是,商汤商量在给出答案的同时还给出了详细解题思路,值得点赞。

  试题4:某轮船的静水速度为v千米/时,水流速度为m千米/时,则这艘轮船在两码头间往返一次顺流与逆流的时间比是多少?

  试题5:一队少先队员乘船过河,如果每船坐 15人,还剩 9人,如果每船坐 18 人,则剩余 1 只船,求有多少只船?

  试题6:一个有机物的质量每5小时减少15%,开始时有200g,经过多少小时后质量会减少到100g以下?

  试题7:用100文购买了100只鸡,公鸡一只5文钱,母鸡一只3文钱,小鸡则是一文钱三只。问:公鸡、母鸡、小鸡各有多少只 ?

  此题是著名的“百钱买百鸡问题”,正确答案有三种:①公鸡买4只,母鸡买18只,小鸡买78只;②公鸡买8只,母鸡买11只,小鸡买81只;③公鸡买12只,母鸡买4只,小鸡买84只。讯飞星火答对1种,得10分。商汤商量列了一大篇,最后没得出结果,0分。

  试题8:韩信领军,想知道军队的人数,只知道士兵若三人一组余两人;五人一组则余三人;七人一组则余四人。问:这队士兵至少有多少人?

  这个问题是中国古代著名的数学问题,称为“韩信点兵”或“中国剩余定理”的应用,正确答案是至少有53人。讯飞星火和商汤商量显然都了解这一个问题,但尽管如此,商汤商量还是答错了,不得分。讯飞星火得10分。

  试题10:某班准备购置一些乒乓球和乒乓球拍,班主任李老师安排小明和小强分别到甲、乙两家商店咨询了同样品牌的乒乓球和乒乓球拍的价格,下面是小明、小强和李老师的对话.

  小明:甲商店乒乓球拍每副定价30元,乒乓球每盒定价5元,每买一副乒乓球拍可以赠送一盒乒乓球。

  小强:乙商店乒乓球和乒乓球拍的定价与甲商店一样,但乙商店可以全部按定价的九折优惠。

  (2)若需要购置30盒乒乓球,你认为到哪家商店购买更合算?(要求有计算过程)

  这道题的正确答案是:①当购买乒乓球20盒时,甲、乙两家商店所需费用一样多。②当购买30盒乒乓球时,去甲店购买要5×30+125=275(元),去乙店购买要4.5×30+135=270(元),所以去乙店购买合算。

  讯飞星火答对了第二题,却答错了第一题,扣5分。商汤商量全部答对,得10分。

  从得分能够准确的看出,讯飞星火大模型在数学能力方面存在一定优势,不过,数学优势不等于综合性能优势。为了让大家能真正感受到两款大模型的魅力,后期我们将陆续推出有关两款大模型的性能对比,比如语言理解、逻辑推理、代码能力和多模态能力等。

乒出快乐,乒出精彩,爱乒才会赢一乒到底!