EN 怀念旧版
首页» 新闻动态» 新闻中心» 人工智能与未来媒体大讲堂第22期:大规模语言模型——技术趋势及必应问答中的应用

人工智能与未来媒体大讲堂第22期:大规模语言模型——技术趋势及必应问答中的应用

发布日期:2021-10-08浏览次数:

  9月29日,由北京师范大学新闻传播学院、微软、封面新闻合作主办,人工智能与未来媒体实验室、新闻出版大数据用户行为跟踪与分析实验室承办的“人工智能与未来媒体大讲堂”第二十二讲在京师大厦9308开讲。本次讲堂由微软全球合伙人、微软亚洲互联网工程院副院长、首席科学家姜大昕,为我们分析“大规模语言模型——技术趋势及必应问答中的应用”,北京师范大学新闻传播学院方增泉教授主持讲座。

  姜大昕老师一开始便指出人工智能是当下很热门的领域,并提到在人工智能领域,都同意这样一个说法,即自然语言处理是人工智能皇冠上的明珠。不过自然语言处理并不是人工智能中最热门的领域。从市面上的投资分析来看,不论是投资金额还是公司数量,视觉识别和语音识别两个领域才是大头,自然语言处理只占据了较小的一部分。不过姜老师表示,一般认为,视觉和语音属于感知智能,自然语言处理属于感知智能之上的认知智能,不仅属于高级智能,也是通向真正人工智能的必由之路。 

  接着姜老师提到视觉识别和语音识别现已经先后达到人类水平,自然语言处理也正处于突破期,并给我们举了一个例子:横扫NLP任务各大榜单的BERT模型。姜老师认为,BERT模型正好站在了一个爆发点上,可以说是站在巨人肩膀上的集大成者。在BERT之前,深度学习在自然语言处理领域已经取得了很好的发展,BERT可以说是把这些成果集成到一个模型里面,因此就显得特别的强大。

  姜老师还给我们介绍了BERT模型的四个特征,其中最重要的一个特点是BERT模型采用了预训练+微调的新范式,这开创了自然语言处理的新范式,学界和业界认为这正式宣告了所谓大规模预训练模型时代的到来。以前进行自然语言处理的任务,往往需要根据不同任务而选择相应的模型,而不同训练任务的训练数据也往往无法共享,这样会导致每个任务只能从零开始训练模型;此外训练出来的模型也只能为特定的任务服务,不同任务的模型无法混用,因此只能为特定的任务用小数据训练小模型,这样就极大地限制了自然语言处理技术的应用。

  而BERT模型的特点在于将训练拆分成了两步。第一步叫做预训练,也就是用自监督方法学习语言特征表示得出的模型,就被称为是大规模的预训练语言模型,这个预训练模型可以从大量的文本当中学到许多语法知识、语义知识,这些知识都被存储到了模型的几亿个参数当中。尽管人类很难解读这些知识,但是这些知识确实可以帮助模型更好地执行不同自然语言处理的任务。第二步就是模型的微调,当通过第一步得出预训练模型后,再处理给定的特定的自然语言处理任务,只需要用比较少的训练数据,就能够在目标任务上达到较好效果。

  随后,姜老师就该技术的落地应用做了介绍。他非常自豪地说到:“搜索引擎是过去二十年最成功的大数据产品之一。”他以微软必应搜索为例,介绍了其问答系统,并指出了必应问答所面临的三大挑战:domain scaling,language scaling,model scaling。预训练大模型的出现使得答案的召回率和精准度得到大幅度提高。

  在最后针对大规模语言模型的未来,姜老师提出两点:一是跨语言和多模态,这两个方向目前是学术界和工业界都在努力攻关的热点方向,有望在未来几年时间内能够得到较好的解决;二是常识和推理,理解语义往往需要常识,不然一不小心,人工智能就成了人工智障,同时应积极促进人工智能与脑科学、心理学、神经学等多个学科的融合。讲座末尾,方增泉老师做了总结:“整个讲座内容通俗易懂,层层深入,条理清晰。姜老师以清晰的理工科思考方式向我们展示了微软必应的问答模式,这对我们传播学特别是智能传播很重要,有利于拓展视野。我们也诚恳地希望姜老师今后能对我们北师大智能传播进行支持,推动北师大与微软的合作向纵深发展。”

分享到微博
分享到微信

扫码分享