近日,科大讯飞发布星火深度推理大模型X1升级版,同时首发星火医疗大模型X1,拓展人工智能在医疗领域的应用,并推出包括星火一体机在内的系列新品。
科大讯飞官方表示,星火X1在完全采用国产算力训练的前提下,以70B参数量,实现了在数学能力上全面对标DeepSeek R1(参数量671B)和OpenAI o1,中文数学能力全面领先。
依托星火X1的升级,讯飞晓医、星火教师助手及AI学习机等产品同步迭代,宣告全国产大模型在效能优化与垂直应用领域取得突破,并将加速深度推理大模型技术在医疗、教育等行业的落地。
为了检验星火X1真实的数学能力,我们在第一时间试用了该模型,并将其数学能力和当前正火的DeepSeek R1做了简单对比。本着测试就要硬碰硬的原则,此次选用的测试题均为难度较高的高考试题。
试题1:
别看本题是一个填空题,在概率统计模块中难度堪称压轴,因为和一些概率统计模块中的硬骨头相比,它需要更多的枚举次数,很容易把人搞晕。面对这样的“刁题”,星火X1和DeepSeek R1的表现如何呢?请看答案!
星火X1
DeepSeek R1
星火X1轻松解决了该题,给出符合考试逻辑的解题步骤,同时DeepSeek R1的解答过程很明晰,只是这一过程是错误,因而注定其给出的答案也是错误的。
试题2:
这是一道典型的数列题,主要解题技巧是错位相减。泡一杯茶,看星火X1同学和DeepSeek R1同学怎么解。
星火X1
DeepSeek R1
不错,两大模型都顺利完成了作业,而且无论是解题过程和答案都堪称完美,数学能力之强悍可见一斑。
试题3:
星火X1
DeepSeek R1
再次集体做对,回家后可“加鸡腿”慰劳。
试题4:
星火X1
DeepSeek R1
这道题,DeepSeek R1做的有点瑕疵,第二小题没有给出等号成立的条件,这要是真正的高考,是要扣分的。相比之下,星火X1的解题过程和答案都更严谨,堪称“横平竖直”的标准答案。
试题5:
星火X1
DeepSeek R1
两款大模型再次并翼双飞,基于有条有理、逻辑清晰的类人思考,给出了正确答案。
小结:
通过上面测试,我们不难发现,两款深度推理大模型在数学能力方面,都有着令人惊艳的本领。尤其是星火X1升级版,5道高考题居然一题不错,这要是参加高考,还不把数学状元桂冠摘走。
讯飞星火深度推理大模型X1升级之所以有如此表现,或许与其采用了两大创新技术有关。
这两大技术一是通过高效的领域数据自动化挖掘和多类型数据合成算法,构建了海量的数学领域预训练数据,从而显著提升了基座模型的数学专业能力;
二是基于评语模型与强化学习算法,实现了大模型长思维链的激发,同时评语模型还促使大模型在推理过程中进行反思验证,进一步提升了模型在推理阶段的准确性。
不过,尽管如此,也同时谈一谈这两款大模型尚需改进的地方。
先说星火X1,支持识图解题,并且文字识别率很高。
利用它的这一特性,我们可以轻松将纸质试卷或作业中的难题,通过手机拍照,发送给大模型识别并解答,但星火X1在使用过程中,屡次出现Word文档中的图片复制后,不能直接粘贴到其对话框中的情形,需要用截图软件重新截取图片并复制后,才能重新粘贴,DeepSeek则无此现象。
DeepSeek的问题则仍然是广为用户诟病的服务器时常罢工,问题无法被解答。上传问题时,DeepSeek经常会出现“服务器繁忙”或“服务器暂时不能使用”的提示。
有时为了上传一个问题,往往需要重复发送十几甚至上百次,浪费了时间不说,有时把头发都熬白了,DeepSeek在用户体验方面还有许多改进之处。
责任编辑:kj005