首页 > 科技资讯 > 正文

国产大模型横评报告出炉,讯飞星火“最聪明”

        【每日科技网】

  都知道今年大模型火爆,今天我还跟朋友聊ChatGPT为啥国内不能用,结果看到《麻省理工科技评论》的一份最新横评报告,原来咱们中国已经有了“最聪明”的大模型。根据,《寻找最聪明的大模型:国内主流大模型能力深度评测》的结论,第一名正是刚发布2.0版本的讯飞星火认知大模型。说实话,当看完报告以后,其他大模型瞬间不香了。

  由于《麻省理工科技评论》在业界的权威性较高,使其影响力远超普通媒体。它们分别对讯飞星火、商汤商量、文心一言、通义千问四款国产大模型进行横评,设置了语言、数学、理综、文综、逻辑、编程、综合、安全性八大“考点”,结果讯飞星火竟以“八局六胜”遥遥领先,只有文心一言勉强跟上节奏(总分高于均值),商汤商量和通义千问分别在文科综合与在安全性上占据优势。

  当看完这份横评报告,我的内心五味杂陈,既喜又惊。开心的是这次大模型革命,咱们中国的企业终于没落下。惊讶的是星火真有这么强?就差两局就全胜,绝对是《三体》中的“降维打击”了,虽然ChatGPT没上阵,但我感觉星火气势已然不输。为了打消疑惑,我登陆星火官网试用了一番,你猜我发现了什么?

  我在读书那会儿,老妈给我报了奥数班,这学科需要天赋,我硬着头皮很吃力。尤其是上面这道数学题我至今难忘,当时请教老师花了九牛二虎之力才解出来,还错了。我把这题用星火数学思考者助手一算,人家瞬间给出了精炼的正确答案,不禁让我感慨小时候有大模型就好咯。我又搜了几个奥数问题让星火做题,每个都对了,而且答题速度快得离谱。

  我不是码农,对代码一窍不通,但我想复现《麻省理工科技评论》的那道题,就是【用python 生成以下代码:def assertBbs(num : int, pow:int):"""实现一个函数,快速幂计算"""】。结果星火成功复现了正确代码,并且给出了代码解析。实际上,这恰恰让我这种不懂编程的人,也可以通过大模型临时设计一些小应用。

  回到横评报告上,虽然星火八局六胜,但在安全性测试上,通义千问的优势特别大,这让我心生好奇。测试题是一道经典的“电车难题”,看似考验逻辑推理,实际考验伦理道德。结果《麻省理工科技评论》给出了通义千问“稍显保守”的评语,但“保守”反而是最好的评价。这让我想起《流浪地球》中莫斯说的那句话——想让人类保持理智是一种奢望。而这,恰恰是人类与AI最大的区别,人类是情感动物,会受到伦理道德的约束,而AI倘若没有约束,那对人类迟早也是一柄双刃剑。

  还好国家的响应非常及时,在8月15日正式实施的《生成式人工智能服务管理暂行办法》对AIGC服务进行了强制约束,明确鼓励AI大模型发展,但仍关注事前规范,对一些风险低的产品和应用可以适度放松,风险高的要严加监管,避免技术失控。而面向特定行业的私有化大模型,就属于严控严管的方向,因为使用方很多都可能是央企、国企及金融机构等对安全要求极高的企业或行业,不容许半点隐患出现。

  都知道数据背后依靠算力,通义千问背靠的是阿里云,而讯飞也与华为达成了合作,共同打造了建立在自主可控国产算力平台上的大模型训推一体化方案,并联合发布了私有化大模型一体机。随着双方合作的深入,讯飞星火站在华为的肩膀上,相信很快就会在安全性上扳回一局。

  如今,我已经将ChatGPT抛之脑后,开始用国产大模型来辅助日常工作效率提升与创意的施展。我也终于发现,只有中国自己的大模型才最懂中国人,很多场景回答与内容生成都更符合中国人的习惯。对了,听说讯飞星火在10月24日还将迎来一次迭代,届时将明确对标ChatGPT,到时候我一定会搬好小板凳围观。

免责声明:本文仅代表作者个人观点,与每日科技网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.