• 网站首页
  • 国内
  • 国际
  • 原创
  • 社会
  • 财经
  • 体育
  • 法治
  • 科技
  • 资讯
  • AI参加河南高考 能上什么学校?|豫观察宝宝半

    发布时间: 2024-06-25 15:51首页:主页 > 国内 > 阅读()

    大象新闻记者 米方杰

    6月24日,高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示,GPT-4o 以562分排名文科总分第一,字节跳动旗下的豆包成绩是542.5分,排名国产AI首位,其后依次是百度文心一言4.0的537.5分,以及百川智能“百小应”的521分。

    本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取分数线,文科本科一批录取分数线为521分,GPT-4o超出41分,豆包等三款国产AI也成功冲上一本线。

    而根据最新河南高考分数段统计数据,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。在过去一年多时间里,国产AI技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。

    文科已达优秀水平,字节豆包排名国产第一

    语文作为文科的重要组成部分,是大模型与人类考生展开激烈竞争的舞台。国产大模型凭借对中文语言的独特理解和处理能力,表现可圈可点。百小应、字节豆包和腾讯元宝占据了前三的位置。豆包更是以平均分52分的成绩,拿下作文写作最高分。

    负责本次阅卷的是北京市级骨干教师、怀柔区语文学科带头人夏老师,她曾多次参加全国高考语文阅卷。夏老师指出,Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅,但“其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力”,这成为了大模型在语文科目中进一步提升的关键所在。

    英语考试中,大模型在阅读和语言运用等客观题上展现出了较高的水平,GPT-4o、百小应、通义千问等甚至获得了 80 分的满分,豆包和文心4.0 也接近满分。但在 40 分的写作考试中,最高分仅为 29 分,由 GPT-4o 和百小应获得。大模型的英语写作主要在表达的丰富度和细节处理上有所欠缺,若能在这些方面有所突破,未来冲击高考英语写作满分并非遥不可及。

    在由历史、地理、政治组成的文综考试中,大模型们的表现各有千秋。GPT-4o 以 237 分的总成绩展现出了较强的综合能力,平均得分达到 79 分,超越了多数人类考生。国产大模型中,字节豆包拔得头筹,取得了 224.5 分的优异成绩。尤其是在历史科目中,豆包拿到了 82.5 分,在所有参与评测的 9 款大模型中位居第一。

    不过,在政治考试中,GPT-4o 凭借 88 分的高分令人意外地夺魁。而地理考卷由于存在大量图片问题,给众多大模型带来了不小的挑战,最终图像理解能力较强的 GPT-4o 获得了最高分,但也仅有 68 分,在一定程度上影响了各家大模型的文综总成绩。

    理科成绩不尽人意

    相比文科,大模型的理科成绩则不尽如人意与人类顶尖考生差距十分显著。

    在数学考试中,9 款大模型产品中仅有 GPT-4o、文心一言 4.0 和豆包获得 60 分以上的成绩(满分 150 分)。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但在面对较为复杂的推导和证明问题时,往往难以得分。

    在化学和物理考试中,情况更为严峻,平均分数分别只有 34 分和 39 分。化学单项最高分 49.5 分由豆包获得,而 GPT-4o 仅有 42 分。在物理考试中,一道基于常识“时间不会倒流”就能轻易排除错误选项的送分题,大模型却几乎全军覆没,凸显了大模型在应对考试灵活性方面的不足。

    综合来看,此次大模型的高考评测结果表明,在过去一年多的时间里,国产 AI 技术在某些领域取得了显著进步,已经逐渐接近国际顶尖大模型的水平。但在数理学科方面,大模型仍面临着巨大的挑战,需要在算法优化、数据训练等方面持续发力,不断提升自身的能力,以更好地适应复杂多变的知识考查和应用场景。

    特别声明:文章内容仅供参考,不造成任何投资建议。投资者据此操作,风险自担。
    广告
    广告

    网站首页 - 国内 - 国际 - 原创 - 社会 - 财经 - 体育 - 法治 - 科技 - 资讯

    本站不良内容举报联系客服QQ:413458777 官方微信: 服务热线:

    未经本站书面特别授权,请勿转载或建立镜像

    新闻起源和新闻来源 新闻的起源与发展 新闻的起源和本源 新闻的起源和定义 新闻的起源与历史 新闻的起源和本质 新闻活动的起源 简述新闻起源 最早的新闻起源 新闻的起源两种观点