来源: 作者: 发布时间:2020-03-16
近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。本文介绍了阿里安全全新的「盗版服装图像」检索算法。
在此 Oral 论文《Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection》中,阿里基于服装区域性表达的检索模型,对图像中的服装进行区域化的相似性学习和度量,检索效果显著提升。
「两种方法纬度不同,但都能实现对局部抄袭的迅速识别,对于服装产品的知识产权保护具有极大的应用价值。」阿里安全图灵实验室高级算法专家华棠表示。
服装知识产权保护难题待解
当前,服装的盗版问题普遍存在,无论线上还是线下,治理难度逐年升高。
第一类是图片盗用,其一般基于正版品牌的商品图进行无授权使用或者进行一些修改,如在图上添加自己店铺的水印,或者进行一些图像处理,如反转、缩放、拼接等。这类侵权成本最低,但也最容易被平台的图片检索系统找到和治理。
第二类是创意盗用,指的是不良商家直接抄袭原创商家发布的整体商品设计和创意,即制作同款或者仿款。这类侵权的成本稍高一些,但是目前的基于商品整体相似度度量的同款检索算法可以对它们进行召回和治理。
第三类即对服装的某些局部区域进行修改,例如如改变领口的设计款式、或者胸前印花的布局,甚至改变服装的款型等,但整体上仍抄袭正版品牌服装的风格和设计元素,如下图两组盗版案例所示。这类盗版的成本最高,并且也不易被传统的基于商品同款检索的算法召回,电商平台对此类侵权现象的处罚过程中通常需要更多的人工审核手段。
图 1:两组盗版示例,其中每组中左图为正版服装,右图为盗版服装。
「盗版服装图像」检索算法详解
为了解决第三类盗版问题,阿里安全研究者将图像中的服装分为五个区域,包括领子、胸部、腰部和两个袖子区域。「盗版服装」被定义为整体上抄袭原版服装设计和风格,并在一两个区域进行修改,以逃避现有同款服装检索模型筛查的服装样本。作者在四类服装上进行了实验,各服装区域划分如下图所示。
图 2:四类服装的区域划分示例,依次为短袖 T 恤、长袖上衣、外套、连衣裙
在算法设计上,阿里安全研究者提出了一种服装关键点引导的区域注意力机制。首先,作者利用服装关键点估计分支来预测服装的关键点,即分布在服装图像各个关键位置的点位,如领口、袖口、肩部、腋下等。每类服装的关键点数量和分布有一定差异,点数在每件 25-40 个左右。根据这些关键点,该算法可对服装图片进行多个区域的划分,如领子、袖子、胸部、腰部区域等。
区域划分信息通过基于 ROI Pooling 思想的方式引入,一体化的服装图像特征被解耦为多个区域化的特征表达,以独立地进行特征相似度的学习和度量。同时,服装关键点结合区域化的表达可作为一种注意力机制,引入到图像检索网络上,关键部位的特征权重被提升,非关键部位的权重被削减,以提升模型对关键部位的判别力。
服装关键点估计分支和图像检索分支使用相同的 HR-Net 主干网络,其多级并联结构在获取多尺度特征的同时保持了高分辨率。在损失函数的选择上,关键点估计分支采用了均方差损失函数,检索分支采用了区域化设计的 Triplet 损失函数。损失函数的数值不再是整个图片范围的特征 triplet 差值,而是各个区域特征差值的累加结果。文中方法的框架如下图所示。
图 3:方法框架图,网络可分为服装关键点估计分支和服装检索分支,其中检索网络包含同款服装检索和盗版服装检索两种输出形式
通过对平台侵权服装样本的分析,作者发现不同类别服装易被盗版的区域是不一样的,因此只将服装图像特征的相似度度量过程解耦是不够的,还需要为每类服装的多个区域设定差异化的权值,进行加权的区域相似性计算,以召回更多的盗版服装样本。
为此,阿里安全研究者基于平台盗版服装数据,建立了一个名为「Fashion Plagiarism Dataset」的数据集,该数据集中,每组「原版服装」的 query 图像对应 gallery 中多个「盗版服装」图像,数据覆盖短袖 T 恤、长袖上衣、外套、连衣裙四类样本。作者在该数据集上,对在 Deepfashion2 数据集上预训练过的检索网络进行 Fine Tune 训练,用 Coordinate Ascent 算法对不同服装类别的各区域权值进行迭代优化,以降低损失函数数值。「盗版服装」检索训练过程的损失函数,同样基于 Triplet 损失函数设计。最终,训练后的盗版检索网络可以基于上图中的 Input 服装图像召回 Output 中绿框内的盗版服装样本。
在论文的实验部分,阿里安全研究者首先在「Fashion Plagiarism Dataset」上对算法的「盗版服装图像」检索能力进行了评估。除了论文所提出的方法外,作者还设定了两种方法进行对比。一种是传统检索方法,使用相同的 backbone 网络和 Triplet 的损失函数,但是不包含区域化特征学习和表达机制;另一种是包含区域化特征表达机制,但是使用非 Fine Tune 训练得到的区域权重。评价指标为 mAP, 从表中结果可以看出,论文所用方法在各个服装类别都取得了最佳效果。
表 1:各方法在「Fashion Plagiarism Dataset」上盗版服装检索性能比较。
除上述「盗版服装检索」的评价实验外,作者还在 Deepfashion 系列数据集上进行了服装关键点估计,和同款服装图像检索任务的实验。在服装关键点估计部分,作者在目前复杂度最高的 Deepfashion2 数据集上进行了评测,与现有 Match-RCNN, CPN, Simple-Baseline 等方法相比,我们的服装关键点估计模型在各个子集上都取得了最高的 mAP 结果。
表 2:各方法在 Deepfashion2 数据集上的服装关键点估计性能比较。
在同款服装检索实验中,作者选用了 FashionNet, Match-RCNN, PCB 等方法作为对比,在 Deepfashion 和 Deepfashion2 上分别进行了实验。其中,Deepfashion 主要针对 In-shop 检索场景,Deepfashion2 则针对于 Consumer-to-shop 场景。评价指标分别为 Top-N recall 和 Top-N accuracy。我们的方法在 Deepfashion 数据集上取得了与 SOTA 方法相近的效果,在 Deepfashion2 数据集上的结果要明显优于现有 baseline 方法。