“人工智能与未来媒体大讲堂”第21讲 | 听声识物与辨物听声
发布日期:2021-05-22浏览次数:
5月20日,由北京师范大学新闻传播学院、微软、封面新闻合作主办,人工智能与未来媒体实验室、新闻出版大数据用户行为跟踪与分析实验室承办的“人工智能与未来媒体大讲堂”第21讲在京师大厦9308开讲。今天我们有幸请到了人民大学的胡迪老师为我们讲解“听声识物与辨物听声”技术,本次讲座由北京师范大学新闻传播学院讲师刘淼主持。
讲座开场,为了引入听声识物与辨物听声的概念,胡迪老师通过数个有趣的例子说明了多模态信息对人类感知的影响。在以往的技术建构中,机器对场景的学习需要人为的标注,从而不断形成智能认识,多模态的技术模型一开始也同样从数据库中进行自我完善与学习。实验表明,机器可以从数据中学习,挖掘一个复杂场景中图像与声音的关系,并通过图像完成声源定位。
胡迪老师团队提出视音场景具有一致性的假设,搭建了听声识物的模型,并从建模中挖掘出有效信息,让其进行自我学习,判断并分离场景中不同的音源。
结束了听声识物的部分,胡迪老师又带领我们进入了下一个阶段——辨物听声。本部分关注视觉感知之下的声音生成,即模型通过视觉表征来寻找相应的声音。
在这个环节,胡迪老师向同学们详细介绍了声音是如何提升对场景理解的,以及图像和声音的对应机制是如何运作的。同时,胡迪老师用“聆听地球”等例子来说明声音和图像在同一个位置上是具有关联性的,解答了同学们提出来的诸多疑问。
老师介绍,这项技术目前已在一些领域落地实践,如帮助残障人士:视障人士可以佩戴专用设备接收视觉信息,并通过模型的智能识别播放出相应的声音。经过专门人员的帮助和训练,视障人士就能够在大脑中有效建立视觉与听觉的通道。
最后,胡迪老师与同学们进行了积极的互动,解答了许多同学们提出的技术方面的疑问。同学们也在老师的启发下“脑洞”大开,畅想了听声识物与辨物听声技术在多个领域可能实现的作用。
老师总结,提高模型准确性,深化机器对人的模仿和对外界的感知,对智能机器进行“多模拟态学习”的赋能,这是他将继续坚持的方向,未来,我们也期待此项技术可以更广泛地应用在其他领域的研究与实践上。