根据成绩分布反向推测排名,对比了多款大模型的能力_Qwen_错误_图片
最近中考的质检结束,很多家长关心自己孩子的成绩位次。公开的数据有不同分数段的成绩分布,假设有几个孩子成绩是613、594、555,那么在排名中具体能到第几名呢?于是马上拿着这个图片,分布询问了deepseek、豆包、通义等几个大模型,结果还是挺出乎意料的。
结果如下
1、deepseek开始推算时,花了较长时间经过多种分析,甚至出现了最后一步的公式错误,后面纠正了错误,使用线性插值法,计算了成绩排名。
2、豆包直接采用线性插值法,较短时间推测了成绩排名。
3、通义在识别图片时,混淆了分数段人数和累积人数的意义,累加人数时数据带入错误,最终导致预测错误。
豆包比较聪明的地方,是降低计算难度,采用最简单的做法(线性拟合)。deepseek则尝试函数拟合曲线,不成功后也采用了线性拟合。而通义则出现图片内容识别偏差和公式错误。
结论:
AI目前在简单的事项上,可以帮助做很多事。但是AI局限性也很大,在计算过程中,会出现很多幻觉。使用时需要谨慎分辨。对于非专业人员使用AI,很容易被忽悠。
展开剩余60%质检成绩分布表
提示词如下:
你是数据分析专家,图片是所有学生的成绩分布数据,请根据所有学生成绩的总体分布规律,拟合出相应的函数曲线。并根据曲线分布,分别推算613分、594分、555分成绩在全市的具体排名。首先把图片输入给deepseek,看看deepseek的推测结果:
deepseek推理结果
接下来输入给豆包,看看豆包的表现
豆包推理结果
接下来输入给通义Qwen3,看看通义的表现
通义Qwen的推算
胡智海专栏:研究AI在各行业的落地,重点关注通信运营商(移动、电信、联通)的政企行业借助AI实现营销效能提升。 发布于:福建省