十年•杭研程序猿 | 反垃圾运营的匠心之路

社区编辑2018-05-15 16:58

2016年,网易杭州研究院(以下简称“杭研”)成立十周年之际,凝聚网易互联网产品研发和运营经验的网易云正式发布。“十年·杭研程序猿”系列文章,由网易云背后默默奉献的程序猿/程序媛出品,讲述他们与杭研共同成长的故事,以及他们对未来技术演进的奇思妙想。本文的分享来自网易杭州研究院信息安全部的鲁珈璐,其所在团队的反垃圾技术支持了几乎所有的网易UGC产品,集成各种反垃圾技术的网易易盾也在今年年初正式推出,为第三方互联网企业提供整套的反垃圾解决方案。

 

 

一直很想写写近几年的工作体验,对这份职业,对这个岗位。当某一天真的提笔时,太多感悟与收获让我思绪万千。反垃圾这个行业的深与广远远超乎我的想象,越了解,越感觉自己很渺小。

 

2011年,我在杭研进入了反垃圾行业,那时候团队只有10个人,我们接手的第一个项目是网易博客相册。可以说,我跟随团队的成长,见证了团队从1到N的飞跃。自2012年以来,我们在不断地接受新的反垃圾工作:

 

  • 2012年:网易新闻跟帖反垃圾、LOFTER反垃圾、网易有道反垃圾、网易微博反垃圾(已下线)、网易云课堂反垃圾;

  • 2013年:易信反垃圾、网易云音乐反垃圾、网易公开课反垃圾;

  • 2014年:网易BOBO反垃圾、网易美聊反垃圾;

  • 2015年:天谕反垃圾、网易考拉海购反垃圾;

  • 2016年:网易严选反垃圾、网易美学反垃圾。

 

我们的团队在稳健发展,我们的业务在持续扩大,从1个产品到了62个产品,覆盖面几乎涉及公司所有UGC产品。与此同时,我们一直在默默无闻的工作,在没有任何的推广下突然间“火”了。其实,这离不开我们多年的匠心的积累。

 

浅谈反垃圾实现

 

有人会把反垃圾比喻成博弈的战场,我认同。反垃圾是一场团队战,跟灰黑产是一场成本的较量,在这场博弈中,胜利的关键依赖于高质量团队持久的协作。

 

反垃圾在实现方法上,其核心思想是在载体中提取数据后进行特征匹配得出分类结果的过程。例如文本反垃圾,图片反垃圾,视频反垃圾等等,文本、图片、视频都是载体。以图片为例,当人眼看到图像映射到大脑成像后获取到的信息,就完成了一次数据提取与特征匹配。同样的,反垃圾利用相同的原理提取有害信息的特征后进行机器学习,进而达到主动识别的效果。总结来说,反垃圾的技术实现在于数据提取与特征匹配。而反垃圾运营的核心就是特征的挖掘,最终实现风险与成本的平衡。

 

反垃圾运营过程中的困难与挑战

 

我们遇到很多产品,在发展初期,用户自发产生的内容不多,每一条数据都弥足珍贵,因此几乎不会考虑到反垃圾需求。随着产品规模的扩大,吸引了灰黑产的注意,伴随着各类垃圾信息随之而来。第一类风险主要来自于监管部门,主包括涉政、涉黄、涉暴的违法信息,近几年国家监管部门对网络信息的监控达到空前的高度,每年面临关停、整顿等处罚的企业数量一路攀升。与此同时,各行业面临的另一个挑战是广告牛皮癣问题。从某种意义上,一个产品的流量越高,越是灰黑产眼中的香饽饽。

 

当一个产品遇到垃圾信息困扰时,常规采用的方法是文本添加关键词,进而人工审核,对于图像的检测基本就是纯人工了。以关键词为例,产品通常会遇到两难的选择:一、设置致命词(命中就删除)简单粗暴,背后牺牲的是用户体验。二、设置嫌疑词(命中后人工审核),将会带来风险与成本。人工审核时效性上不如机器,同时随着产品体量的增加,审核人力将持续投入。举个简单的例子,“口交”是出现在淫秽刊物中的常用词,常规的做法是把该词自动屏蔽或进入待审,但对于机器检测会存在“断章取义”的情况,导致当这类词汇出现在正常语境时就会产生匹配错误,例如“接口交接”、“24口交换机”。

 



有问题,自然就有解决方案,这是反垃圾运营必须掌握的技能。而风险和成本是运营的工作核心。应对风险方面,在于对风险的深刻剖析与理解,做到举一反三,事先布控。例如,对于违法信息,运营需要有超高的敏锐度与尺度的把握。需要对法律法规有基本的了解,能将法律法规细化到可执行的客观标准。什么能发,什么不能发,能发到什么程度心中要有一杆尺。这里面度的把握关乎着风险与产品流量的平衡,这里就不再一一展开。同样,在广告问题上,运营遇到的挑战是样本的变种,以下截取冰山一角:

 

  • 同音词:即相同拼音的不同汉字。最典型的例子就是兼职与蒹职。

  • 象形词:字型相象的汉字组成。例如:兼(jian)职与慊(qian)职,字型相像,读音不同,同音词的解决方案也无法适用。

  • 拆字:利用汉字偏旁与部首的关系,拆开绕过。例如:兼耳只

  • 干扰词:绕过一般的模糊匹配,在关键词中间添加干扰字符。例如:兼*——职

 

浅谈反垃圾运营布控SOP

 

反垃圾做的好与坏就在于做的有多深有多广。最直接的体现就是变种样本需要尝试多少次才能绕过,而背后支撑的是对新型样本的最大化防控。举个简单的例子,发现裸聊,常规做法把裸聊致命。而反垃圾运营要做的是由一个裸聊尽可能的全方位覆盖变种。

当然,道高一尺魔高一丈,面对新型样本需要的是一整套的运营布控SOP。简单的说,术业有专攻,专业的人做专业的事。首先,由法律专业出身的情报运营和审核运营进行第一道把关,将新型样本通过境外网站爬取的方式或日常审核中发现的新样本收录进来,进行风险尺度的把控,称为第一道工序:样本发现。筛选后的新型样本会分流到特征运营,由中文专业背景出身的特征运营完成变种素材的整理,尽可能的最大化覆盖,称为第二道工序:特征素材归整;整理后的每一个特征素材会分流到策略运营,由计算机专业背景出身的策略运营转换成计算机语言添加流入策略库,自动化处理。以上三道流程就形成了反垃圾运营风险保障的SOP。总而言之,反垃圾运营需要有不断发现问题、推动问题、解决问题的能力。

反垃圾工作任重而道远,需要每一个反垃圾技术工作者保持敬畏之心,追求精益求精。我相信,专业铸就品牌,匠人之心定会成就使命。

——鲁珈璐

网易杭州研究院信息安全部