首页_北京师范大学

“人工智能与未来媒体大讲堂”第21讲 | 听声识物与辨物听声

发布日期：2021-05-22浏览次数：

　　5月20日，由北京师范大学新闻传播学院、微软、封面新闻合作主办，人工智能与未来媒体实验室、新闻出版大数据用户行为跟踪与分析实验室承办的“人工智能与未来媒体大讲堂”第21讲在京师大厦9308开讲。今天我们有幸请到了人民大学的胡迪老师为我们讲解“听声识物与辨物听声”技术，本次讲座由北京师范大学新闻传播学院讲师刘淼主持。

　　讲座开场，为了引入听声识物与辨物听声的概念，胡迪老师通过数个有趣的例子说明了多模态信息对人类感知的影响。在以往的技术建构中，机器对场景的学习需要人为的标注，从而不断形成智能认识，多模态的技术模型一开始也同样从数据库中进行自我完善与学习。实验表明，机器可以从数据中学习，挖掘一个复杂场景中图像与声音的关系，并通过图像完成声源定位。

　　胡迪老师团队提出视音场景具有一致性的假设，搭建了听声识物的模型，并从建模中挖掘出有效信息，让其进行自我学习，判断并分离场景中不同的音源。

　　结束了听声识物的部分，胡迪老师又带领我们进入了下一个阶段——辨物听声。本部分关注视觉感知之下的声音生成，即模型通过视觉表征来寻找相应的声音。

　　在这个环节，胡迪老师向同学们详细介绍了声音是如何提升对场景理解的，以及图像和声音的对应机制是如何运作的。同时，胡迪老师用“聆听地球”等例子来说明声音和图像在同一个位置上是具有关联性的，解答了同学们提出来的诸多疑问。

　　老师介绍，这项技术目前已在一些领域落地实践，如帮助残障人士：视障人士可以佩戴专用设备接收视觉信息，并通过模型的智能识别播放出相应的声音。经过专门人员的帮助和训练，视障人士就能够在大脑中有效建立视觉与听觉的通道。

最后，胡迪老师与同学们进行了积极的互动，解答了许多同学们提出的技术方面的疑问。同学们也在老师的启发下“脑洞”大开，畅想了听声识物与辨物听声技术在多个领域可能实现的作用。

老师总结，提高模型准确性，深化机器对人的模仿和对外界的感知，对智能机器进行“多模拟态学习”的赋能，这是他将继续坚持的方向，未来，我们也期待此项技术可以更广泛地应用在其他领域的研究与实践上。

搜索

“人工智能与未来媒体大讲堂”第21讲 | 听声识物与辨物听声