推荐问答
最新问答
待回答
  • 5 个回答
    数据的可视化操作,易用性很强
  • 1 个回答
    什么是好的数据可视化分析工具? 第一、使用门槛低: 如使用过Excel就能够使用的数据分析软件,或者是经过简单的学习就可以上手使用的,有一些数据分析工具在网站上就有不少公开的课程,比如网易有数就有在网易云课堂上公开的课程,可以经过学习快速的掌握工具的使用,这一点很良心,其他的比如Excel有很多的书籍,而且使用比较普遍,上手比较容易,门槛也很低。 第二、使用过程简单: 这一点我认为应该包含有操作简单+功能丰富,如果有BI那更不错了,现在很多的商业BI数据分析软件很多,但是使用过程相对来说比较复杂,包括图标的制作等,在我的这么多的体验中认为,操作过程以拖拽作为基本动作是最为简单的,比如: [图片] 然后还发现有更简单的方法,直接输入想要什么,会自动推荐出图表,只需要导入数据就可以: [图片] 第三、实时更新数据,掌握最新动向: 目前很多的数据分析工具都可以打通数据库,做到和数据库连接,实时刷新数据,这一项功能也是营销人员所必须的。 第四、分析过程可以扩展,不用反复更改数据或者格式: 比如同一个表格的下钻,不同表格之间的联动,这样可以减少很多的工作量,比如: 想要查看某一类目标用户的数据的下钻: [图片] 或者是对一个展示数据更深层次的下钻,不断的深入查看数据的基础,如下图: [图片] 第五、分享展示等简单方便: 可以方便的把制作的图表导出、分享,如可以以多种格式进行导出,或者可以定时邮件发送分析结果等,如这些功能: [图片] 最后这个数据分析工具还要能够产生附加值: 解决了核心问题,又能够实现方便使用,最后这个数据工具还应该能够为营销人员产生附加值,对于附加值的定义每个人都不一样,我对数据分析工具的附加值的定义为:直接的协同定制和管理数据的分析结果和分析过程,就类似现在的云协作的产品,大家可以相互查看,这样既能够保证一个团队内的信息交流,还能够让信息的流动更快速,减少很多的无用功,增加效率,所以很推荐SaaS类型的数据工具产品,可以联网协同,可以随时随地的查询、更改、编辑等,十分的方便。 以上文中示例均来自网易有数,可以点击这里免费试用。
  • 2 个回答
    现在一般都是用ocr技术,其实也蛮成熟的了,识别率比较高。还有一些在线识别的方式,叫做打码,具体名称我就不说了,可以搜一下就有,如果要不断的有验证码识别,就可以用于在线识别。一般几分钱一个
  • 1 个回答
    云计算就是 X as a Service,是以 Web Service 提供各种数字化能力的模式,包括 IT 基础设施、中间件、微服务、数据分析、管理软件(ERP、CRM)等,极为考验服务商的调度能力,以及生态构建能力。 微服务是一种 Cloud Native(云原生)技术,一种把一个系统划分成一组相对独立、相互配合的小服务的架构模式,微服务化的应用,每个服务足够内聚,足够小,更容易开发和维护,扩展性更灵活,更能享受云计算的优势。同样,微服务有利于数据驱动的应用的开发和部署。不过,微服务通常也需要开发人员处理分布式系统的复杂性。 大数据平台通常采用分布式计算构建,可以在云上部署,可以以云服务的方式提供给用户。 处理分布式微服务系统的复杂性,可能用到大数据技术,比如分布式全链路监控,通过数据分析可以更精准地排查问题。比如网易云轻舟微服务,因为系统被拆分为数十甚至数百个微服务会使得监控数据爆炸增长,我们通过数据分片处理的机制应对海量监控数据的问题。
  • 1 个回答
    有可行性,人工智能可以作为反外挂的一个手段,不过他同样也会跟其它手段一样,面对外挂和反外挂的对抗,需要不停迭代,才能维持效果。 将人工智能应用于反外挂领域,可以类比目前的内容安全审核领域的人工智能应用。在甄别大量用户行为及信息的过程中,两者都存在容易误判的难题,而误判带来的是用户体验的下降,不利于平台发展。 所以,就目前情况来看,人工智能用来反外挂是可行的,但是需要不断训练机器学习进行辨别,减少误判。同时某些模糊之处需要配合人工来完成,提高效率的同时将误判率降到最低。 易盾的反外挂系统已开始将AI技术应用于其中,基于外挂“特征值”,通过大数据分析、机器学习等技术,实时动态抵御外挂。 点击可免费试用易盾手游智能反外挂服务
  • 1 个回答
    工业物联网(IIoT)是工业企业未来发展的必选项,因为物联网技术能够将传感器数据转化成信息/知识,有效帮助工业企业实现产品研发、设计、生产等环节降本增效,而产品能力恰好是工业企业的核心竞争力。 首先说明,在小编的回答中,工业物联网和工业互联网是两个不同的概念,工业物联网只是工业互联网的支撑技术之一。 工业互联网,采用互联网技术实现工业互联的网,不仅实现工业设备、产品与服务、人员之间的互联,也要实现供应链的互联,侧重运营管理包括整个供应链流程的优化。 工业物联网,采用物联网技术改造硬件、设备、产品,侧重工艺、产品质量的优化。 可以认为,将工业物联网延伸到工业信息系统、业务流程和人员,就是工业互联网了。 国务院在 2015 年《政府工作报告》中有提出: 制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场 在 2017 年《关于深化“互联网+先进制造业”发展工业互联网的指导意见》又提出: 加快建设和发展工业互联网,推动互联网、大数据、人工智能和实体经济深度融合,发展先进制造业,支持传统产业优化升级 也是这样的路数。从宏观角度来看,大量制造企业与云服务商合作发布工业互联网平台产品,就是面向制造业的数字化、网络化、智能化需求,构建基于海量数据采集、汇聚、分析的服务体系,支撑制造资源泛在连接、弹性供给、高效配置。当然,也不是短期之内,靠上一个平台就进入工业互联网的共产主义社会了。 网易云的工业互联网场景化解决方案(工业智能平台)就是基于这样的需求打造的,IoT 是其中重要的一部分,但还需要结合更多的能力,才能满足智能设备运维等热门场景的需求。 [图片] 某汽车制造企业和网易云合作,共同完成汽车研发和制造过程中多个智能化应用项目,开展基于模型管理的大数据分析应用模型的搭建,改善了研发过程中经验积累过程,改进了研发环节,大幅缩短了研发周期,提高了整车研发效率。其中,充分利用设备产生的数据,进行工业数据的采集、集成、建模和管理,以及研究和制定数据建模分析方法,工业大数据平台和工业可视化的作用至关重要。这是工业物联网为基础、工业大数据为核心的工业应用模式。 工业能力共享则需要其他的技术,比如微服务解决方案。在工业PaaS平台构建上,某企业依托网易工业智能平台,完成了资源的统一管控和灵活调度,并通过使用微服务治理框架、分布式链路追踪、API网关和CI/CD系统,实现了统一的微服务发布、集成、监控和管控,实现了工业APP的快速开发和部署,加速走向构建共创共享的工业互联网数字生态的愿景。
  • 1 个回答
    分享一下大猪厂基于 Kubernetes 和 Docker 构建猛犸大数据平台机器学习模块(内部代号Dolphin )的一些思考。 Dolphin 基础设施中包括了 GPU 和 CPU 的混合计算服务节点,通过 Docker 对多种机器学习框架、用户开发环境进行实例化和运行,通过 Kubernetes 提供计算集群的部署、维护、 扩展机制等功能,计算框架主要是 Tensorflow。 [图片] Why Tensorflow on Kubernetes? 如果让数据科学家直接使用 Tensorflow,他们会遇到例如租户隔离、资源隔离、网络隔离、难以指定 GPU 进行任务调度等等一系列软件工程问题。 资源隔离:Tensorflow 资源无法隔离 ,Kubernetes 提供租户隔离,容器资源隔离和网络隔离等多种机制 GPU 调度:Tensorflow 缺乏 GPU 资源的调度 ,Kubernetes 1.4 开始支持 GPU 调度 进程管理:Tensorflow 存在进程遗留问题、无法区分正常完成还是故障退出 ,Kubernetes 提供容器生命周期管理,进程和容器共生死 服务器定位 :Kubernetes 提供 DNS 服务器提供服务器位置,省去了 Tensorflow 的计算集群的服务节点 IP 地址配置 监控:Tensorflow 不方便日志查看 ,Kubernetes 提供了较为完善的 Monitoring 和 Logging 功能 存储:Tensorflow 存在训练数据和模型存储问题 ,Kubernetes 支持对接 Cephfs,GlusterFS 等 Read 性能更好的分布式存储系统 多框架支持 :通过定制化开发 Kubernetes 的 Custom Resource 和 Operator 接口支持 MXNet 等其他机器学习框架 当然,基于当时两个项目在任务管理方面的实际进展,团队也做了相应的优化: 开发了基于队列的任务调度系统,解决了 Kubernetes 没有队列服务的问题 开发了计算节点的 GPU 监控服务,解决了 Kubernetes 目前无法监控 GPU 的资源使用情况的问题 开发了 Kubernetes 中训练服务的参数服务的生命周期管理模块,解决了 Tensorflow 的参数服务在训练完毕无法自我关闭的问题 最后,Dolphin 可以根据数据科学家选用的不同的机器学习算法框架,通过 Kubernetes 编排出相应的机器学习计算集群。 如下图所示,通过 Dolphin 调度起来的 Tensorflow 计算集群,创建出 Parameter Server 和 Work 的 POD 以及 SVC,通过 HDFS Mount 模块将用户数据空间映射到 Docker Container 中,执行用户的算法脚本进行模型训练和服务发布。 [图片] by 刘勋,网易大数据团队攻城狮
  • 1 个回答
    选择 Caffe 确实有历史原因,但 Caffe 在架构、代码、性能、社区等方面的优势也是它前期很受欢迎的深层原因。 不过到目前,对于大型企业来说,为了满足不同场景的需求,框架选择已经是多元化了。以网易猛犸大数据平台机器学习模块为例,TensorFlow、MXNet、Caffe 都是需要支持的。其他深度应用人工智能的企业也是类似的。 [图片] 对于贾大神来说,增强不同框架的协作提升开发效率也是一项重要任务,所以他撸了 ONNX(Open Neural Network Exchange,Facebook 和微软一起搞的),所以 Caffe 2 要并入 PyTorch。 至于合并具体的进展和详细的信息,小编认为还是等官方放出来了。
  • 1 个回答
    这里谈两点:预期降温,基础强化。 预期降温 2018 人工智能的降温,有区块链(尤其是币圈)更为火爆的因素,但终归还是自己的表现不及大众的预期,而这些预期是一些行业内人此前自己主动描绘出来的。 表现1:自动驾驶,谷歌从 2009 年开始孵化的 Waymo 表示,自动驾驶汽车在路上普及还要几十年,因为自动驾驶技术还没有达到在任何天气和任何条件下都能驾驶的最高等级 L5(L4 高度自动驾驶,仍然需要驾驶员在特定情况下接管汽车);特斯拉的 AutoPilot 在支持交通信号灯、停靠站和环形交叉路口等交通,很快就具备完全自动驾驶能力,然而这个“很快”究竟是多久善未可知,并且也不意味着特斯拉把所有复杂场景的问题都搞定了;而苹果联合创始人 Steve Wozniak 另有看法,认为自动驾驶汽车不可能在不久的将来实现。 表现2:AI 同传(机器翻译)风波。 表现3:某些银行人工智能客服被用户深情吐槽,声称要销户。 [图片] 更多的例子,就不一一列举了。 基础强化 另一方面,是从事基础工作的企业/人员从长远考虑,在夯实人工智能的基础,促进人工智能的应用。 软件层面,工具走向整合,以简化创新,两巨头在 2017 年 9 月共同搞出的 ONNX,一年之后有一统江湖的架势,Caffe2, PyTorch, Microsoft Cognitive Toolkit, Apache MXNet 等工具都支持 ONNX 了。同时,各种 Auto ML 的进展,也在某种程度上解放了从业者。 硬件层面,大佬们的 AI 芯片大战意味着大家强化算力短板的共识,毕竟这是非常烧钱的活,而国内的一些芯片初创公司的产品也进入了商用阶段,不能说弯道超车,但也是可喜可贺的。 [图片] Frameworks 框架已内嵌 ONNX,Converters 框架支持转换工具导入导出模型 Xavier Amatriain (对 Netflix、Quora 技术建设工作贡献很大的大牛)认为当前 AI 领域基础性突破不多的原因,是研究者缺乏探索现在看来不实用方法的冒险精神,而现有方法还有挖掘的空间。在小编看来,至少后半句是正确的,当前人工智能降温和基础性研究进展的关系很大,但在从业者夯实基础的同时,目前的技术进展已经可以支持不少的成熟应用,只是要看我们如何把这些技术正确应用在产品中。 从目前的情况来看,人机合作是最佳的方式,因此嘲笑人工智能可能并不正确。比如小扎说会通过人工智能技术监测和处理社区内容,但这与 Facebook 聘请数以万计的人工审查员配合完成这项工作并不矛盾。网易云内容安全服务,借助人工智能实现高精准的文本检测、图片检测、视频检测、音频检测,也是一样的道理。
  • 2 个回答
    个人认为,这个问题不一定,这个要具体问题具体分析: 首先,产品发布了出现bug,就是测试的问题了; 其次,产品没有发布,存在bug:         1、bug测试出来,开发没有修改好,或者引起了新的bug,这就是开发的问题;         2、bug没测试出来,那就是测试的问题; 以上都是个人观点。
  • 2 个回答
    自然灾害来了数据荡然无存
  • 2 个回答
  • 1 个回答
    避免梯度消失是果,门是因。 门提供了控制网络中信息传递的工具,让 LSTM 可以记住较为长期的信息,从而解决梯度消失的问题。然而,Encode-Decode 框架中固定长度的向量表示也是有限的,输入序列较长时模型性能就会变差,毕竟丢失了很多细节信息嘛。 这就给 Attention 替换 RNN 的说法形成支撑。 LSTM、GRU 及其变体能学习大量的长期信息,但它们最多只能记住约 100s 的长期信息,而不是 1000s,10000s 甚至更长时间的信息。   至于 Facebook 的 CNN 机器翻译之所以在某种程度上吊打谷歌,不仅仅是因为 gating,也因为有 multi-hop attention,后者使得神经网络可以多次回顾相关的关键词,以产生更好的翻译结果。 其实 Attention 机制虽然近两年才比较热门,但其思想的提出也可以追溯上个世纪,也就是真正有用了才火。LSTM 虽然现在被唱衰,在效率和可扩展性上有天花板,但在一定范围内用来解决一些问题,毕竟还是不错的工具。 Attention-based LSTM,也是一种方向,让 LSTM 更加有用。
  • 1 个回答
    判断一个账号是不是垃圾账号,无非就是看这个账号从哪里来的以及做了什么。具体可以从以下维度判断: 注册来源,所在的IP、设备ID、用户行为。 1.注册来源 用户未产生行为之前,帐号IP和设备ID是判断是否为垃圾的直接依据。 一般来说,企业会有针对垃圾账号所积累的黑名单库,其中IP、设备ID均在列。通过黑名单库的识别,可以提前过滤掉一部分垃圾账号。 但设备ID/IP信息是可以不断变更的,仅靠积累的库并不能解决问题。 2.注册信息 注册信息,包括昵称名、注册邮箱名、手机号等。 注册信息的发生,即用户已经产生行为。有了实在的证据之后,判断是否是垃圾账号就有底气了一些。 根据经验,垃圾账号多批量注册,大部分都没有精力对个人资料进行精密设置,因此无意义字符、有规律性的内容就是判断是否为垃圾账号的主要依据。 但根据注册信息的判断仍然是推测,实际操作过程中阻碍较多。 3.行为内容 前面两个步骤的防范都是推测是否为垃圾账号,更有说服力的依据是用户行为内容。 识别标准根据各个场景而不同。在反垃圾场景中,发布垃圾内容的自然是垃圾信息;在反作弊场景中,刷票、批量投票等行为的,也可以理解为垃圾账号。 利益相关:判断一个账号是否是垃圾账号不难,但如何批量的识别出垃圾账号、并在垃圾账号产生负面影响之前就能识别,没有专业的反垃圾反作弊经验很难实现。现在,垃圾行业已经俨然成为一条完整的产业链,没有专业的识别及防护措施,很难与黑产行业正面抗衡。网易云易盾积累20年网易邮箱及社区产品反垃圾经验,提供极速智能的广告过滤、智能鉴黄、暴恐识别、涉政检测云服务,助力打造互联网纯净内容生态,可免费试用。
  • 1 个回答
    从目前的情况来看,大数据和云计算的红利被压榨到了一定的阶段,迁移学习也不能从一个逻辑系统迁移到另一个逻辑系统,深度学习 99.999% 不是人工智能的终极答案,但不能否认深度学习是让人类向智能迈进一大步的正确方向,不能否认深度学习正在为整个社会生产力的提升做出很大的贡献。 下面这些猪厂的例子,有企业市场,有消费应用,即便不算大规模应用,也该算落地了。 网易云智能反垃圾服务,借助深度学习方法识别海量 UGC 信息、各种媒体类型(文本、图片、视频、音频)中涉政、淫秽、广告、暴恐等数十种有害信息,识别率达99.8%,目前已服务上千家互联网知名客户,包括携程、一直播、秒拍等, 2017 年累计过滤有害内容超过 400 亿条。 以深度学习技术为核心的智能客服产品,根据已有数据和双边数据采集,不断向数据库写入关键信息,并将新增问题按语义做分类,现在都已经挺进金融行业了——当然这不是全部了,通用五菱、百草味、58转转、年糕妈妈、云集微店、小牛在线等汽车、电商企业都有用。 由网易公司自主研发的神经网络翻译(NMT)技术用于有道翻译官、有道翻译蛋等产品,在翻译质量方面有很大提升。 [图片] 来源:CIE智库丨新一代人工智能发展白皮书(2017)第三章——新一代人工智能的产业化应用 [图片] [图片] 欢迎点击这里免费试用网易云易盾提供的反垃圾服务。
  • 1 个回答
    行为式验证码是验证码技术的一大突破。 先说一下什么是行为式验证码: 行为式验证码是以用户产生的行为轨迹为依据,进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息综合判断,快速、准确的返回人机判定结果。 [图片] 行为式验证码与传统验证码的区别: 1)传统验证码技术不足 传统验证码用户体验不佳,需要进行一系列操作才能完成。用户需要每天都要花部分时间浪费在无趣的识别数字上,也大大降低了一些网站的交互体验。同时,随着计算机自动识别技术的发展,简单的验证码数字图形也不再安全,很容易被黑客攻破。 2)行为式验证码的优势-综合判断 行为验证码是以用户产生的行为轨迹为依据,进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息综合判断,快速、准确的返回人机判定结果。 3)行为式验证码的优势-迭代性 行为验证码具备运用大数据分析和机器学习模型进行优化升级的作用。路径可以理解为:验证码展示-用户行为分析-机器人学习-返回验证结果-机器模型升级的循环,保证了行为式验证码的不断迭代升级。 行为验证码的推广,保证了网易易盾验证码在和机器刷子进行抗衡过程中不断更新迭代,从而能够持续提升系统性能,保证识别效果。 易盾验证码独有的智能切换策略,感知威胁可自动切换展示为更高难度的验证码类型,切换策略会参考用户的环境信息,历史操作的轨迹等进行综合评判。可确保安全用户快速顺畅通过,疑似用户增加验证难度,高危用户直接拦截的效果。 行为验证码具备运用大数据分析和机器学习模型进行优化升级的作用。路径可以理解为:验证码展示-用户行为分析-机器人学习-返回验证结果-机器模型升级的循环,保证了网易易盾行为式验证码的不断迭代升级。 利益相关:网易云提供智能验证码、图片验证码、滑动验证码、短信验证码等服务,接口稳定性 99.9%,感知威胁可智能切换验证难度,欢迎免费试用。
  • 1 个回答
    [图片] 这些指标或许不足以说明深度学习在 NLP 任务上的绝对优势,但相对传统方法更佳的性能,已经足以使研究者潜心研究。在找到更好的方法之前,我们对 DL for NLP 寄予厚望。 从根本上说,深度学习在 NLP 问题上的优势有三点,这是传统机器学习方法所不具备的。 表达能力:利用深度学习,文本、图像等不同格式都可以表示为实值向量,这使得我们可以跨多种模式执行信息处理。例如,在图像检索中将查询(文本)与图像进行匹配并找到最相关图像变得可行,因为它们都可以表示为向量。 可训练性:深度学习让我们可以为应用执行端到端的训练,从而快速、高质量地解决问题,因为深度神经网络使得数据中的信息能在模型中被有效“编码”。例如,在神经机器翻译(NMT)中,模型完全由平行语料库(parallel corpora)自动构建,通常不需要人为干预。与统计机器翻译的传统方法相比,这显然是一个优势,特征工程对于后者是至关重要的。 可推广性:机器对未经训练的数据也可以执行预测。 可以更为全面地理解深度学习用于 NLP 的优势与挑战。 优势: 擅长模式识别问题 数据驱动,且在很多问题上性能都很高 端到端训练,构建系统时很少需要或不需要领域知识(当然这一点也有争议) 表示学习,使得跨模式处理可行 基于梯度的学习,学习算法很简单 主要是监督学习方法 挑战: 不擅长推理和决策 不能直接处理符号 数据饥渴,在数据量较小时不适用 难以处理长尾现象 模型通常是一个黑盒子,可解释性差 计算成本很高 无监督学习方法有待突破 仍然缺乏理论基础 Deep Learning for Natural Language Processing (NLP): Advancements & Trends | Tryolabs Blog这篇底的文章介绍了 2017 年神经网络模型在命名实体识别、词性标注、情感分析、机器翻译等领域的表现,是比较有意思的。这里是译文:一文概述2017年深度学习NLP重大进展与趋势 [1] Blunsom P, Grefenstette E, Kalchbrenner N . A convolutional neural network for modelling sentences. In: 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014, 655–65. [2]Hu B, Lu Z, Li H. Convolutional Neural Network Architectures for Matching Natural Language Sentences. In: Advances in Neural Information Processing Systems 27 . Montreal, Canada, 2014, 2042–50. [6] Wu Y, Schuster M, Chen Z. CoRR , vol. abs/1609.08144, 2016. [8] Chen D, Manning CD. A Fast and Accurate Dependency Parser using Neural Networks. In: Conference on Empirical Methods in Natural Language Processing . Doha, Qatar, 2014, 740–50. 利益相关:网易云反垃圾服务借助深度学习提供文本、图片、视频、音频过滤云服务。
  • 1 个回答
    赞同 12306 回复的为保证购票体验而采用简单验证码,只是对 12306 选择的图片不能不持保留观点。 [图片] 从今天这个截图看,12306 的验证码最近似乎没有太大的变化,不过我也没有见过其他答案里面“香菜”、“白百合”之类的各种奇怪的验证。 总体而言,虽然 12306 系统在大流量支持上已经取得了长足的进步,让大家能够更容易地买到火车票,但在验证码方面,研发团队确实应该了解一下验证码技术的最新发展趋势了。 根据网易云超10亿次完美验证的经验,对人和机器的识别不仅仅要关注结果,更要关注过程,我们提供的验证码服务,采用验证码展示-采集用户行为-分析用户行为的流程打造,包括滑动拼图、图中点选、短信上行验证、智能无感知验证码等类型,欢迎免费试用。
  • 1 个回答
    滑动验证码可以显著优化用户体验,这在互联网时代是非常重要的。 滑动验证码对机器的判断,不只是完成拼图,前端用户看不见的是——验证码后台针对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确的返回人机判定结果,故而机器识别+模拟不易通过。 滑动验证码也不是万无一失,但对滑动行为的模拟需要比较强的破解能力,毕竟还是大幅提升了攻击成本,而且技术也会在攻防转换中不断进步。 在这里可以推荐试用:网易云提供 智能验证码_网站验证码_图片验证码_验证码接口_滑动验证码,接口稳定性 99.9%,感知威胁可智能切换验证难度,欢迎免费试用。
  • 1 个回答
    验证码之所以存在,就是为了防止机器的自动识别,当某种验证码的自动识别软件烂大街的时候,这种验证码技术也该被产品开发团队打入冷宫了,该软件存在的价值,也就只剩下编程考古了。 其实,验证码自动识别的工具并不是没有,网上有不少采用大厂的 OCR API 实现验证码自动识别的博文,用于爬取数据之类的场景,但图像识别技术的进步,也倒逼着打码技术的进步。 所谓简单型的验证码,前景和背景容易分离、多位字符串容易切割的,传统的 SVM (支持向量机)就可以轻松搞定。复杂的验证码,使用这几年风光的 CNN(卷积神经网络)也能将其斩于马下,然而再强大的 CNN 也依赖于大量的标注数据。如果要做到 90% 以上的识别率(90% 对于很多使用者来说还是很渣的),可能需要数以万计的样本,和比较长的训练时间。训练成功,平台认为之前的打码方式被破解后,又会提升难度或者换一种思路,别有用心的攻击者又要重新标注数据,重新训练……投入的成本,能否产生足够的利益呢?这是他们需要考虑的问题。 深度学习能力增强的同时,现在的验证码技术也衍生出了更为丰富的方式,比如B站,已经采用了滑动拼图验证码。 [图片] 以网易云为例,他们提供的云安全验证码,可对外提供4种类型的验证码,滑动拼图、图中点选、短信上行验证为常规验证体系,智能无感知验证码为独立的验证体系。 [图片] 网易云常规验证体系 [图片] 网易云智能无感知验证码 云安全验证码抛弃了传统字符型验证码展示-填写字符-比对答案的流程,采用验证码展示-采集用户行为-分析用户行为流程,用户只需要产生指定的行为轨迹,不需要键盘手动输入,极大优化了传统验证码用户体验不佳的问题;同时验证码后台针对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确的返回人机判定结果。 灵活采用这些打码技术,可以更为有效地防御攻击,同时保证用户体验。欢迎免费试用。