一种针对不平衡数据的多任务学习ai换脸视频检测方法 -pg电子娱乐平台

2024-01-23上传
暂无简介
文档格式:
.pdf
文档大小:
666.81k
文档页数:
9
顶 /踩数:
收藏人数:
0
评论次数:
文档热度:
文档分类:
行业资料 -- 
系统标签:
视频 数据
(19)国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号202210064202.7(22)申请日2022.01.20(71)申请人成都信息工程大学地址610200四川省成都市西南航空港经济开发区学府路1段24号(72)发明人(74)专利代理机构成都智涌知识产权代理事务所(普通合伙)51313专利代理师(51)int.cl.g06v20/40(2022.01)g06v40/16(2022.01)g06n3/04(2006.01)g06n3/08(2006.01)(54)发明名称一种针对不平衡数据的多任务学习ai换脸视频检测方法(57)摘要本发明涉及一种针对不平衡数据的多任务学习ai换脸视频检测方法,利用多任务学习将帧级检测和视频级检测方法组合成一个协作网络,同时利用了帧级检测和视频级检测方法的优势,弥补了各自的缺陷,可以同时对单独的伪造帧和整个视频进行综合检测,提高了检测准确率。针对实际数据存在不平衡的问题,引入一种wmw的损失函数,可以直接优化模型auc数值,使得auc数值最大化,最大程度减少不平衡数据集带来的不利影响,对来自不通数据集的视频和面对不同程度的不平衡数据方法都表现出良好的稳健性。权利要求书1页说明书4页附图3页cn1144949531.一种针对不平衡数据的多任务学习ai换脸视频检测方法,其特征在于,所述方法能同时对视频整体和视频帧进行检测,且能有效应对不平衡数据带来的负面影响,所述方法具体包括:步骤1:准备好需要检测的ai换脸视频作为数据集,所述数据集包含了多种类别的不平衡数据;步骤2:采用dlib机器学习库提取视频中对应的人脸图像,并使用opencv图形库将提取的所述人脸图像设置为固定大小;步骤3:将设置为固定大小的人脸图像输入至resnet‑50中,resnet‑50通过深度残差网络以多层卷积的计算方式提取每帧人脸图像在空间域的高维信息;步骤4:将提取的每帧人脸图像的空间域信息x利用所述gru网络模块来提取传统放射变换后时序上的不连续,所述gru网络模块包括两个门:分别是更新门和重置门,resnet‑50提取的每帧的空间域信息x和前一帧图像的隐藏信息h由前帧的空间域信息加权计算得来,所述gru网络模块通过所述门函数来将重要的长期记忆特征保留下来;步骤5:经过所述gru模块提取的所述时域信息分别输入到帧级分类器和视频级分类器中,利用多任务学习将帧级分类器和视频级分类器进行组合,具体包括:步骤51:所述gru网络提取的时域信息以帧为单位输入到独立的全连接层,所述全连接层能对每帧的信息预测出一个特定的值,称为帧级分类器;步骤52:同时,所述gru网络提取的时域信息输入到视频级分类器中,以整个视频为整体,所述时域信息通过平均池化层进行下采样,这样包含视频时域的高维信息最终被概括为一个16*16的矩阵中,所述矩阵在扁平化后最终输入到一个全连接层中作出整体的预测;步骤6:将所述视频级分类器和所述帧级分类器输出的结果作为sigmoid函数的输入,通过预设的阈值来判断该视频或某帧是否为ai换脸;步骤7:引入wmw统计量作为auc的等效函数,将wmw统计量引入到传统的损失函数交叉熵中,以网络输出和对应标签作为输入,分别计算在帧级和视频级的交叉熵和能优化wmw的损失,所述交叉熵和损失的加权和作为总的损失函数,通过梯度反向传播来更新网络中的各模块参数,训练网络达到有效检测换脸帧和视频的目的。cn114494953一种针对不平衡数据的多任务学习ai换脸视频检测方法技术领域[0001]本发明涉及图像处理领域,尤其涉及一种针对不平衡数据的多任务学习ai换脸视频检测方法。背景技术[0002]最近一种基于卷积自动编码器的面部修改技术引起广发关注和讨论,它就是ai换脸(deepfakes),它能将视频中的原始面部与另一个人的面部交换。该技术已经取得了肉眼无法区分的令人印象深刻的视觉效果。由于在社交媒体上的广泛使用,ai换脸视频已成为严重的社会问题和安全问题。[0003]这种担忧引发了大量关于ai换脸检测的研究活动。这些工作中的大多数将ai换脸检测视为二元分类任务,并使用ai神经网络来检测伪造的视频或图像。[0004]尽管这些方法在基准数据集上取得了良好的性能,但它们忽略了现实世界中的数据不平衡问题:真实视频的数量通常显著超换脸视频。减轻不平衡数据问题的不利影响的一种直接方法是从不同类别中重新采样数据或调整不同类别的权重,但它需对不同的数据集单独做权重调整而且删除或重复数据可能导致模型过拟合等问题。另一种缓解数据不平衡效应的方法是数据增强,例如翻转、旋转、缩放和裁剪以扩展数据集。但是,通过数据增强扩展的数据包含的是与原始数据基本相同的信息。因此,数据增强并不能充分解决问题。解决在ai换脸视频检测领域的数据不平衡问题显得尤为迫切。[0005]此外,大多数ai换脸检测方法仅在帧或视频级别对伪造视频进行检测。视频级方法可以检测伪造视频,但无法检测伪造视频的各个帧的伪造情况。在实践中,当并非视频的所有帧都是伪造时,识别特定的假帧很重要。而帧级方法旨在检测单个伪造图像或单个伪造视频帧,但不能在视频级提供综合结果。重要的是,现有帧级检测方法没有考虑到视频的时域信息,而时域信息在视频级检测中起着重要作用,可以显著提高检测性能。因此,亟需提出一种结合帧级和视频级检测的方法,使得模型不仅可以检测每个伪造的帧,还可以整合帧的时间信息,从而端到端地对整个视频进行整体检测。发明内容[0006]针对现有技术之不足,本发明提出一种针对不平衡数据的多任务学习ai频检测方法,所述方法包括:本发明利用多任务学习将帧级检测和视频级检测方法组合成一个协作网络,引入了gru模块以提取视频时域信息。针对实际数据存在不平衡的问题提出一种损失函数,能直接优化模型auc结果,有效解决数据不平衡问题。[0007]本发明方法能同时对视频整体和视频帧进行检测,且能有效应对不平衡数据带来的负面影响,所述方法具体包括:[0008]步骤1:准备好需要检测的ai换脸视频作为数据集,所述数据集包含了多种类别的不平衡数据;[0009]步骤2:采用dlib机器学习库提取视频中对应的人脸图像,并使用opencv图形库cn114494953将提取的所述人脸图像设置为固定大小;[0010]步骤3:将设置为固定大小的人脸图像输入至resnet‑50中,resnet‑50通过深度残差网络以多层卷积的计算方式提取每帧人脸图像在空间域的高维信息;[0011]步骤4:将提取的每帧人脸图像的空间域信息x输入gru网络模块提取时域信息,具体如下:[0012]利用所述gru网络模块来提取传统放射变换后时序上的不连续,所述gru网络模块包括两个门:分别是更新门和重置门,resnet‑50提取的每帧的空间域信息x由前帧的空间域信息加权计算得来,所述gru网络模块通过所述门函数来将重要的长期记忆特征保留下来;[0013] 步骤5:经过所述gru模块提取的所述时域信息分别输入到帧级分类器和视频级分 类器中,利用多任务学习将帧级分类器和视频级分类器进行组合,具体包括: [0014] 步骤51:所述gru网络提取的时域信息以帧为单位输入到独立的全连接层,所述全 连接层能对每帧的信息预测出一个特定的值,称为帧级分类器; [0015] 步骤52:同时,所述gru网络提取的时域信息输入到视频级分类器中,以整个视频 为整体,所述时域信息通过平均池化层进行下采样,这样包含视频时域的高维信息最终被 概括为一个16*16的矩阵中。该矩阵在扁平化后最终输入到一个全连接层中作出整体的预 [0016]步骤6:将所述视频级分类器和所述帧级分类器输出的结果作为sigmoid 函数的 输入,通过预设的阈值来判断该视频或某帧是否为ai换脸; [0017] 步骤7:引入wmw统计量作为auc的等效函数,将wmw统计量引入到传统的损失函数 交叉熵中,以网络输出和对应标签作为输入,分别计算在帧级和视频级的交叉熵和能优化 wmw的损失,所述交叉熵和损失的加权和作为总的损失函数,通过梯度反向传播来更新网络 中的各模块参数,训练网络达到有效检测换脸帧和视频的目的。 [0018] 本发明的有益效果在于: [0019] 1、本发明利用多任务学习将帧级检测和视频级检测方法组合成一个协作网络,同 时利用了帧级检测和视频级检测方法的优势,弥补了各自的缺陷,可以同时对单独的伪造 帧和整个视频进行综合检测,提高了检测准确率。 [0020] 2、针对实际数据存在不平衡的问题,引入一种联合损失函数,通过计算模型的在 两个任务中的交叉熵和能优化wmw的损失,经过反向传播更新网络参数,该过程能直接优化 模型auc数值,使得auc数值最大化,最大程度减少不平衡数据集带来的不利影响,对来自不 同数据集的视频和面对不同程度的不平衡数据方法都表现出良好的稳健性。 [0021] 3、本发明在视频级检测模块中,引入了时域信息,提高了视频级检测的精度,在没 有使用额外采样或类权重调整等一些传统减轻不平衡数据影响的方法的情况下,无论是逐 帧进行检测还是在对整个造假视频检测方面都取得了领先的性能,同时由于引入时域信 息,在应对不同视频质量的情况下,也展现出优越的检测性能。 附图说明 [0022] 图1是本发明技术方案的方法流程图; [0023] 图2是本发明的网络模型示意图; cn114494953 [0024]图3是本发明的实验效果对比图。 具体实施方式 [0025] 为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参 照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发 明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本 发明的概念。 [0026] 下面结合附图进行详细说明。 [0027] 在本发明中,为了解决ai换脸检测中的数据不平衡问题,我们引入了一种损失函 数,可以直接最大化模型auc,以尽可能减少不平衡数据集的不利影响。auc是一个鲁棒的评 测指标,用于评估模型的分类能力,尤其是在处理不平衡数据时候。然而,auc是一个不可微 的函数,不能直接当作损失函数来训练神经网络。但是,我们了解到wilcoxon‑mann‑ whitney(wmw)统计量是auc的等效函数,其一近似函数是可微且易于计算的。我们将这种近 似函数引入到传统的损失函数交叉熵中,以同时追求准确性和auc表现。同时,我们利用多 任务学习将视频级和帧级检测方法组合成一个协作网络,能同时可以检测每个单独的伪造 帧并考虑时间信息来对整个视频进行综合预测,且能有效应对不平衡数据带来的负面影 [0028]图1是本发明技术方案的流程图,图2是本发明的网络模型示意图,如图1和图2所 示,本发明技术方案具体包括: [0029] 步骤1:准备好需要检测的ai换脸视频作为数据集,所述数据集包含了多种类别的 不平衡数据; [0030] 步骤2:采用dlib机器学习库提取视频中对应的人脸图像,并使用 opencv图形库 将提取的所述人脸图像设置为固定大小; [0031] 步骤3:将设置为固定大小的人脸图像输入至resnet‑50网络中, resnet‑50通过 深度残差网络以多层卷积的计算方式提取每帧人脸图像在空间域的高维信息;采用残差网 络能有效解决深层网络存在着梯度消失或者爆炸的问题。 [0032] 步骤4:将提取的每帧人脸图像的空间域信息x 输入gru网络模块提取时域信息,具体如下: [0033] gru是一种特殊的循环神经网络rnn。相比其他网络只能处理单个输入, rnn能更 好处理序列信息,即前后输入有密切关系的信息。ai换脸视频的帧间信息就属于序列信息。

君,已阅读到文档的结尾了呢~~

相关文档

网站地图