数据集介绍
针对当前测谎研究中缺乏基于中文语境数据这一问题,我们开发了SEUMLD,这是首个基于中文对话的公开多模态测谎数据集。SEUMLD包含三种模态数据:视频、音频和心电信号(如图 1所示)。为有效激发被试的说谎动机,我们设计了模拟犯罪与模拟审讯的实验范式(如图 2所示)。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD收集了 76位长期生活在中文语言环境下的被试数据,总计 3,224段对话。该数据集不仅提供了用于判断每一被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话进行细化分割的精准标注(细粒度标注)。
文章链接:
github链接:https://github.com/xxl-seu/SEUMLD
如果您想申请此数据集,请下载license并按照介绍进行操作: