社交 App 如何做反垃圾?

关于社交APP如何做反垃圾的问题
屏蔽了一些非法字、敏感词等,可是色情钓鱼业变着花的跟你打游击,各种变异的字体,字符使用户受骗被引诱。对于APP环境造成了很不好的影响。
谢谢

网易云有料提问于 2018-04-11 09:46
2 个回答
  • 活动主持人2018-07-13 14:21

    反垃圾工作主要是对发布者发布内容进行分析,识别并处理垃圾信息。题主对问题的描述,恰好直指反垃圾工作的一个重要特点:持续对抗 - 这也是网易内容安全纵队在多年 UGC 相关产品(如网易新闻、网易云音乐、网易考拉等)运营工作中最直观的感受。


    持续对抗就是说无法一劳永逸,只能缓解压力。因为垃圾信息无孔不入,而且种类繁多,我们必须通过自动化的反垃圾技术体系来提高效率、降低成本;而因为垃圾制造者会不断变招,我们又需要有一拨人见招拆招,围堵那些漏网之鱼,当然最好是还能够总结出新的规律,将自动化技术体系升级,让工作更轻松一些。


    垃圾信息发布者一定有与正常用户不同的核心特征,找到这些不容易变化的特征,对可疑帐号进行特别处理,比如限制注册/发布,就能减少很多的工作。对垃圾发布者的识别,包括在帐号信息与帐号行为的分析,比如注册时间、关联手机/邮箱、IP、发布频率等。当然,一些特征也可能和平台性质有关,需要具体挖掘。需要注意的是,帐号的头像、昵称、签名也可能是垃圾信息藏匿的场所,私信就更不用说了。


    对垃圾内容的识别,需要根据内容类别分别处理,当前社交平台基本都支持文本、图片、语音、视频,这是从媒介的维度划分,不同的媒介需要不同的技术手段,文本理解、图像识别、语音分析、视频检测技术都需要拿得出手。另外从内容性质的维度,垃圾信息又包括广告、黄赌毒、暴恐、涉政等方面,识别方法也不会完全相同。


    在识别手段上,正则表达式在某些场景可以发挥很大的作用,但面对层出不穷的新花样,还是需要靠谱的算法模型,尤其是图像识别,是深度学习最擅长的任务了。算法做好的话,能够省很多人力。由于长期需要处理邮箱和 UGC 产品的反垃圾,网易云在文本、图像、语音、视频方面都有实践经验,同音词匹配、模糊匹配和题主说的变异字体匹配都要搞定,相似图片、动漫、水印都要能识别,图片旋转、裁剪、亮度色调变化更不在话下。借助深度学习,我们色情图像识别精准度达到了99.8%(人工智能是如何识别一张黄图的?)。这要感谢网易海量云计算资源,更要归功于多年反垃圾特征数据沉淀,归功于安全团队孜孜不倦地更新垃圾特征,深度学习才能发挥作用。所以说,实时检测绝对不能出问题,但在线不可能积累太多的特征,离线训练也是同样重要的。


    以上措施为内部不可或缺的努力。外部的,就要借助社区的力量了,这更多属于运营手段,比如用打动用户内心的产品定位来吸引高质量用户,用优质内容和激励机制引导这些用户维护产品定位,共同抵制(如举报、踩、折叠)垃圾信息。


    总而言之,对于反垃圾工作,专业的技术系统和专业的团队,二者缺一不可。小团队可以采用专业的第三方反垃圾云服务,和外包审核团队( Google 也这么干),来减轻内部团队的压力。另外提示一点,与主管单位保持良好的关系,研究相关法规,对违规内容的过滤工作是非常重要的。


    利益相关:网易云提供专业的反垃圾云服务,已成功应用在门户网站、博客、论坛、图片社区、音乐、社交应用、 游戏、视频直播、电商等领域,欢迎免费试用

  • 小番茄2018-04-11 10:17

    无论是社交APP,或者是传统社区等UGC平台做内容反垃圾可以考虑自己做反垃圾系统或接入第三方专业反垃圾应用

    1、自己做反垃圾系统,需要开发文字、图片等过滤功能,并需要和网监部门保持畅通联系,及时更新敏感词词库,最好再加上一定的人工审核

    2、接入第三方专业反垃圾应用,功能开发、词库更新都由服务商完成。