未来讲堂|如何评估大语言模型的智能程度?
发布日期:2024-01-03浏览次数:
12月27日,人工智能与未来媒体大讲堂第28期在京师大厦多功能B厅举办。本期大讲堂有幸邀请到了香港城市大学媒体与传播学讲座教授、数据科学学院讲座教授、传播研究中心主任、国际传播学会(ICA)会士祝建华老师,为我们带来以“如何评估大语言模型的智能程度”为主题的精彩分享。本期讲堂由北京师范大学新闻传播学院院长张洪忠主持。
What-Why-How
祝建华老师在本期讲堂中以“What—Why—How”为线索,将评估大语言模型(LLMs)智能程度的相关思路和独特见解向大家娓娓道来。
首先,讲堂以“什么是‘人类智能’”这一问题引入,祝老师认为其应拥有获取和应用如抽象、逻辑、理解、自觉...等知识和技术的能力,人工智能如要通过图灵测试,就需要具备这些能力。
其次,祝老师解释了为何需要评估大语言模型智能的原因。他以最新公布的“首批国家大模型标准符合性测试结果”为例,其中明确了大模型评测框架与指标体系,包含的维度有通用性、智能性、安全性等,其中“智能性”便是评估大模型能力的最核心的指标。
接着祝老师展开讲述了本次讲堂的主题,同时也是行业内的一个崭新的问题——如何评估大语言模型的智能程度。他向大家介绍了三种常见的评估方法:机器学习方法、自然语言方法和认知科学方法。祝老师结合各种大模型的应用经验通俗易懂地将三种方法分享给大家,例如他提到的“AI Detection”(用于鉴别文本是否由AI生成的工具),便是使用“自然语言方法”的一个例子。同时,祝老师列举了国际文献中五个最新评估案例,分别涉及大语言模型的泛化演绎、逆向推理、非实学习、计划和涌现能力,结果显示目前最领先的大语言模型还缺乏人类普遍具备的这些核心智能。
在讲座的最后,祝老师总结了当今对大语言模型褒贬争论,以“LLMs是精品、毒品还是塑胶品”作结。基于科学评估的证据,祝老师将LLMs比喻成“粗俗的塑胶品”,有着“多快俗省、适当利用、另辟蹊径”等特点。因此,在这个智能传播的时代,如何更高效地、更具批判性和创新性的使用大语言模型和其他人工智能,才是关键所在。
互动环节
在精彩的分享之后,祝老师与同学们进行了积极的互动,多名现从事于各个岗位的北师大新闻传播学院毕业生、北师大新传在读以及来自其他高校的同学向祝老师提出问题,祝老师分别解答,分享了自己的体验见解。