推荐问答
最新问答
待回答
  • 1 个回答
    作为一名交互设计师在进行数据可视化时,就是要把这些宝贵的数据资产变得触手可及,从而充分发挥数据的力量。 数据可视化 好的可视化设计一定集易读、突出数据价值、易于分析、美观为一体的,最终让数据变得更加简单,方便交流,反之,不仅让数据变得更复杂,而且还会带来错误诱导。因此,如何让数据分析变得轻松、流畅并且易读,从而提高用户的工作效率,降低用户的工作负担,则成为设计师的重要责任。 图表由哪些元素构成 ? 一张标准样式的图表基本上是由下图1-1 中标示的几种元素组成,除此之外,还有一些特殊的图表(如:3D类,由背景墙、侧面墙、底座等图表元素),对于图表本身在此就不在冗述,设计人员都有基础知识,本文将尝试从图表设计动机的角度和大家一起探讨如何更好的进行图表设计,从而达成设计目标。 [图片]图1-1 图表元素 图表设计 1.明确数据指标 首先,我们得先搞明白这些数据是怎么来的、干嘛的,如果连这个都不清楚就会很难展开接下来的讨论或设计。数据是做好图表设计的前提,毫无疑问,一连串的数字对于设计师来说是枯燥无味的,幸亏前期的数据收集工作已有人做好,但是作为设计师有必要要求他们给到你的是尽可能精准的数据,否则,会导致接下来的工作前功尽弃。因此,当初步接触数据时最好能够解决以下几点: 理解数据及指标 分析数据 提炼关键信息 明确数据关系及主题 如下图,这份报表比较容易理解,初步分析可以看出这是一份不同品牌的手机每天在全国的销量情况,进一步分析还可以看出销量越高,退货量越少,营收就会越高,投诉越少,评价也会越好,由此得出,省、销量、退货量、营收就是关键指标,当然,前面这些信息是我们通过表格本身的数据信息分析得到的,但是,我们并不知道用户关注得是哪些数据指标,有可能关注的是不同省的营收状况,也有可能是退货情况,还有可以能是不同手机品牌的销量对比,所以,需要进入下一步-为谁设计,用户想要什么信息。 [图片]图1-2 不同品牌手机全国销量情况 2.为谁设计,用户想要什么信息 需要明确的是,同一组数据在不同用户眼中所看到的信息是不一样的,因为,角色、岗位的不同就造成了他们所关注的重点、立场不同,不同人所发现的信息、得出的结论也是不一样的,所以,在图表设计时面对不同的使用者所强调的信息及交互方式都是不一样的。主要影响因素: 用户群体是谁?有什么特点 从数据中需要提炼的信息是什么 通过图表想要解决什么问题 关注的重点 接着上面的例子,如下图1-3所示,表现形式虽然都是地图,但是强调的重点信息和展示逻辑都不同,即一个强调的是某个品牌的手机在全国不同省的销量状况,另一个强调的是不同品牌手机在全国不同省的销量对比。 [图片]图1-3 3.明确设计目的与价值 实际上,图表设计跟一个产品设计的思路是相似的,定义设计目标这个过程很容易被设计师忽略,设计目标不是一成不变的,但并不意味着一开始就没有,前期缺少对设计目标的定义会导致设计师往往说不清楚为什么这样设计,那么,接下来的设计工作就像个无头苍蝇一样乱撞,没有方向感。有的时候,设计方案被推翻,究其根源往往是由于对源思考不明确导致的,设计目标需要大家共同定义并达成一致的方向,否则,方向不对,努力白费。 定义设计目标的过程需要站在用户的角度和数据的角度进行综合分析从而进行构建,一方面需要考虑用户如何更简单的分析、理解数据从而提高决策效率;一方面需要考虑数据本身如何更加精准、一目了然的传达给用户。 [图片]图1-4 4.规划设计方案,选择合适的图表类型 在工作中,一些同学在设计图表时把大量的时间用在寻找图表素材上,然而这种都是在表面上寻找解决办法实际上本末倒置了,解决不了本质问题。数据可视化设计不是单纯的图表样式设计,虽然了解图表也很重要,但是,仅仅将数据变成漂亮的图表只是形式的改变而已,远远不够的。 当前期我们已经清楚了用户要做什么,有了明确的设计目标,那么,选择图表的过程就是信手拈来的事。在选择图表类型之前,自己心里已经比较清楚了图表大概的效果(如:呈现不同时间段的数据-用折线图合适;呈现不同份额比例-用饼图合适;某个阶段的数据出现频率-用散点图合适),具体的图表选择大家可以参考 Andrew Abela 整理的图表类型选择指南图示,有兴趣的同学可以研究一下。 [图片]图1-5 Andrew Abela整理的图表类型选择指南 常见的图表类型基本上以下六种涵盖了绝大部分的使用场景: 曲线图 用来反映时间变化趋势 柱状图 用来反映分类项目之间的比较,也可以用来反映时间趋势 条形图 用来反映项目之间的比较 饼图 用来反映构成,即部分占总体的比例 散点图 用来反映相关性或分布关系 地图 用来反映区域之间的分类比较 5.细化体验 前面我们谈论了很多图表设计前期的事,接下来谈一谈需要注意的几点细节,Dan Saffer 说过“最好的产品通常会做好两件事情:功能和细节。功能能够吸引用户关注这个产品,而细节则能够让关注的用户留下来”。毕竟细节设计成就卓越产品嘛~ X坐标轴 考虑到不同屏幕或浏览器的适配问题,当X坐标轴标签文字显示过于拥挤时可将文字打斜放置,既保证了数据的正常阅读也不影响图表美观。 [图片]图1-6 Antv 当X坐标轴标签为连续的年份时,不要墨守成规的写成“2015、2016…”,可以用简写的式“2015、16、17...”,看起来会简单、清晰很多。 [图片] 图1-7 Y坐标轴 如图下图1-8-1,当Y坐标轴的数字很长时会出现左右空间过于紧凑的情况,这时,如果单位换算是10的倍数(如1s=1000ms),可以考虑定义单位换算规则,即: case1:当时间 ≥1000ms 时,计时单位用 s 表示,数据精确到小数点后两位 case2:当时间 <1000ms 时,计时单位用 ms 表示,数据精确到个位 如下面1-8-2 [图片]图1-8-1 [图片] 图1-8-2 如果没有单位换算,如下图1-9 所示,单位是“次”或“个”,这时可以考虑用位数换算,即: case1:当数字 ≤4 位数时,用精确数字表示 case2:当数字 >5 位数时,用 K 为单位进行缩写表示,精确到个位 case3:当数字 >8 位数时,用 M 为单位进行缩写表示,精确到个位 case4:当数字 >11 位数时,用 M 为单位进行缩写表示,精确到个位 case5:当数字 >14 位数时,用科学计数法表示,精确到小数点后3位 如下图1-9所示 [图片] 图1-9 数据分布规则 如果没有制定明确的数据显示规则,就会出现下图2-1-1的展示情况(后端传什么数据,前端就展示什么数据),导致图表展示效果和可读性都很差,如果要解决这个问题就需要定义规则。 [图片] 图2-1-1 这里数据的展示和时间有关,所以,我们需要考虑的是某个时间段内展示多少个点才是合适的,而显示一个点由多长时间的数据聚合(点聚合区间是多少),具体如下图2-1-2 [图片]图2-1-2 规则定义清楚后,后台在与前段交互的时候就会按照以上规则进行,最终实现效果如下图2-1-3 [图片]图2-1-3 遵循设计原则 图表的设计价值在于精准、高效、简单的传递数据信息,最好能够让读者一目了然,即使做不到一目了然也应该具备自我解释的能力。所以,就要求在设计时应该增强和突出数据元素,减少和弱化非数据元素,具体应该注意以下原则: 1.删除 除非特殊场景的考虑,应尽可能的删除和数据非相关的元素: 背景色 渐变色 网格线 3D效果 阴影效果(如果具体操作需要强调的除外,如:鼠标Hover查看具体信息) 2.弱化 即使有必要保留非数据元素,也要弱化或隐藏它们,尽量使用淡色 坐标轴 网格辅助线 表格线 3.组织 把相关的数据元素进行合理的组织分类,不要指望把所有的数据元素都放入图表内,只要放关键的、重要的数据在图表内。 4.强调 对于已选的数据元素也要考虑优先级,明确哪些数据是需要重点突出的进行突出标识,以便读者能够快速get到重要信息。 如图2-2所示,通过上述原则对对图表进行优化,最终变成了一个简洁有效的图表。 [图片]图2-2 网易有数:企业级大数据可视化分析平台,具有全面的安全保障、强大的大数据计算性能、先进的智能分析、便捷的协作分享等特性,点击可免费试用。
  • 1 个回答
    什么是好的数据可视化分析工具? 第一、使用门槛低: 如使用过Excel就能够使用的数据分析软件,或者是经过简单的学习就可以上手使用的,有一些数据分析工具在网站上就有不少公开的课程,比如网易有数就有在网易云课堂上公开的课程,可以经过学习快速的掌握工具的使用,这一点很良心,其他的比如Excel有很多的书籍,而且使用比较普遍,上手比较容易,门槛也很低。 第二、使用过程简单: 这一点我认为应该包含有操作简单+功能丰富,如果有BI那更不错了,现在很多的商业BI数据分析软件很多,但是使用过程相对来说比较复杂,包括图标的制作等,在我的这么多的体验中认为,操作过程以拖拽作为基本动作是最为简单的,比如: [图片] 然后还发现有更简单的方法,直接输入想要什么,会自动推荐出图表,只需要导入数据就可以: [图片] 第三、实时更新数据,掌握最新动向: 目前很多的数据分析工具都可以打通数据库,做到和数据库连接,实时刷新数据,这一项功能也是营销人员所必须的。 第四、分析过程可以扩展,不用反复更改数据或者格式: 比如同一个表格的下钻,不同表格之间的联动,这样可以减少很多的工作量,比如: 想要查看某一类目标用户的数据的下钻: [图片] 或者是对一个展示数据更深层次的下钻,不断的深入查看数据的基础,如下图: [图片] 第五、分享展示等简单方便: 可以方便的把制作的图表导出、分享,如可以以多种格式进行导出,或者可以定时邮件发送分析结果等,如这些功能: [图片] 最后这个数据分析工具还要能够产生附加值: 解决了核心问题,又能够实现方便使用,最后这个数据工具还应该能够为营销人员产生附加值,对于附加值的定义每个人都不一样,我对数据分析工具的附加值的定义为:直接的协同定制和管理数据的分析结果和分析过程,就类似现在的云协作的产品,大家可以相互查看,这样既能够保证一个团队内的信息交流,还能够让信息的流动更快速,减少很多的无用功,增加效率,所以很推荐SaaS类型的数据工具产品,可以联网协同,可以随时随地的查询、更改、编辑等,十分的方便。 以上文中示例均来自网易有数,可以点击这里免费试用。
  • 1 个回答
    全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是计算机和人的公共全自动程序。验证码的主要目的是强制人机交互来抵御机器自动化攻击,为了确保服务器系统的稳定和用户信息的安全,越来越多的网站采用了验证码技术。图片验证码是目前最常用的一种。 最近在一个爬虫项目中遇到了验证码,需要机器自动识别绕过。这些验证码大都分辨率都较低,本身信息量不大。在网上调研了资料和文献后,分别采用OCR识别和模板库匹配方法对不同类型验证码进行了识别。主要过程可以分解为三个步骤:1.图片清理,2.字符切分,3.字符识别。以下结合工作经验和调研内容讲解一些常用的验证码识别方法和过程。 1.图片清理 图片清理是为接下来的机器学习或模板匹配阶段做准备的,指通过灰度化、二值化、干扰点清理等过程,得到比较干净的图片数据,具体样例见下表。 [图片] 1.1 彩色去噪 在计算机中使用最多的 RGB色彩空间,分别对应红、绿、蓝三种颜色,通过调配三个分量的比例来组成各种颜色。以最常见的32位颜色为例,一个分量是用8位来表示,最大值是255,灰度图是指组成颜色的三个分量相等。原始彩色图片包含的信息量是最大的,如果验证码图片中有一些利用颜色反差加的干扰点或者线条,最好能在该阶段做初步清理。比较简单的一种处理方法是采用3*3矩阵对图像进行平滑处理,即对每个像素取他所在3*3矩阵所有点的RGB均值,分别作为新的RGB值。稍微做点优化,取3*3矩阵中RGB三维欧式距离最接近均值的点作为新值。 1.2 灰度化 在彩色电视机系统中,通常使用一种叫 YUV 的色彩空间,其中Y表示亮度信号,对于人眼来说,亮度信号(Y)是最敏感的,如果将彩色图像转换为灰度图像,仅仅需要转换并保存亮度信号就可以。从RGB到YUV空间的Y转换有一个很著名的心理学公式:Y = 0.299R + 0.587G + 0.114B。 而实际应用时,将系数缩放1000倍来实现整数运算:Gray = (R*299 + G*587 + B*114 + 500) / 1000 。注意后面那个除法是整数除法,所以需要加上500来实现四舍五入。该公式的另一个简化变种也很流行:Gray = (R*30 + G*59 + B*11 + 50) / 100。更快的算法是采用移位代替除法,所以可以将系数缩放成 2的整数幂,再做右移操作。该整数取7从精度和速度上最合适:Gray = (R*0.299*2^7 + G*0.587*2^7 + B*0.114*2^7)>>7 = (R*38 + G*75 + B*15)>>7 1.3 二值化 为了简化接下来的计算,需要把灰度图片转化成黑白二值图。默认情况下值大于127的像素点被设置为白色,其余像素点设置为黑色。当然,这个阈值也需要根据图片的实际情况计算调整。一般采用直方图统计确定动态阈值的方法比较靠谱,白底黑字的取直方图靠左边的波谷位置作为阈值,黑底白字则取直方图右边的波谷位置作为阈值,将背景和字符作很好的区分。 1.4 底色统一 如果是黑底白字的图片,需要转换成白底黑字,如以上图B。 [图片] 1.5 干扰点清理 在黑白二值图片去噪阶段,常用的去噪方法为联通性去噪,通常采用8向联通来计算连通点个数,若某个点的连通点数目小于预设的阀值,则认为这些点都是噪声点。这一简单粗暴的清理方法,通常情况下是非常有效的。 2 字符切分 该阶段对前期预处理后的图片进行切割处理,定位和分离出整幅图片中的每个孤立的字符主体部分。主要采用X轴和Y轴投影的方法,即统计对应坐标上黑色像素点的个数。对于图片 [图片] 得到的X轴和Y轴投影分别如下。利用X轴投影可以切割出单独的字符,再分别利用Y轴投影,裁剪掉顶部和底部的空白部分。 [图片] [图片] 3. OCR软件识别 我们使用的是开源的OCR识别引擎Tesseract,初期由HP实验室研发,后来贡献给了开源软件业,后经由Google进行优化并重新发布。调用代码以及识别效果如下: api = tesseract.TessBaseAPI() api.Init(".","eng",tesseract.OEM_TESSERACT_ONLY) #初始化 api.SetPageSegMode(tesseract.PSM_SINGLE_LINE) #设置为单行字符串模式 api.SetVariable("tessedit_char_whitelist", whitelist) #设置白名单 stringOCR = tesseract.ProcessPagesBuffer(mBuffer, len(mBuffer), api) [图片] 该方法的优点是:开发量少;比较通用,适合于各种变形较少的验证码;对于扭曲不严重的字母和数字识别率高。缺点也很明显:对于扭曲的字母和数字识别率大大降低;对于字符间有粘连的验证码几乎难以正确识别;很难针对特定网站的验证码做定制开发。 4.模板库匹配 4.1 建立字符模板库 首先需要针对目标网站收集大量的验证码;然后根据上一章节的方法,进行图片清理;最后按照固定的长宽值切分出字符模板图,保存文件名带上对应字符的标记。 [图片] 4.2 字符匹配 首先,把目标验证码图片按字符个数切分,这里的图片切分方法必须与模板制作时的切分方法一致,得到与模板图同样大小的字符图。接下来通常的做法是使用汉明距离或编辑距离定义相似度,并用KNN方法得到K个最相似的字符,最后从K个字符中选取出现次数最多的那个作为匹配结果。参考了文献[1]中K取值和字符识别率的变化关系(如下图)。 [图片] 然后,我们把K取值为5。并且把相似度重新定义为:matchScore = dotMatch^2 / (dotCaptcha * dotTemplate),其中dotMatch为验证码字符图与模板图对应位置都是黑色点的个数,dotCaptcha为验证码字符图中黑色点个数,而dotTemplate为模板图中黑色点个数。取这个分母是为了防止某些黑色点较多的模板图在匹配度计算中始终得到较大值。识别效果如下表:  [图片] 该方法的优点是:原理简单直观;可以针对不同网站定制优化;对于扭曲的字母和数字识别率较高。缺点是:开发量大,需要定制开发;需要收集大量的字符图片库;字符变化很多的情况,匹配次数增加速度下降;对于字符有粘连的图片识别率低; 5. 支持向量机 支持向量机通俗来讲是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。实际应用上,往往遇到的是非线性可分得情况,因此通过核函数把低维向量映射到更高维空间,使得样本满足线性可分。 验证码识别问题实际上是其中单个字符识别问题,而在字符可穷举的情况下,比如只有英文字符和数字,单个字符识别问题其实是一个分类问题。一个英文字母或数字表示一类,而验证码中切分后得到的单个字符需要被机器自动分到某一类。一般情况下,把单个字符的灰度图片转成整形数组,数组的每一个元素表示图片的一个像素,即一个特征维度。我们切分得到的图片大小为10x16=160像素,即有160个特征,当特征数量多且特征之间关系不明确时,采用支持向量机分类比较合适。 6. 神经网络 以上验证码识别都依赖于字符切分,切分的好坏几乎直接决定识别的准确程度。而对于有字符粘连的图片,往往识别率就会低很多。目前验证码识别最先进的是谷歌在识别“街景”图像中门牌号码中使用的一套的算法。该算法将定位、分割和识别等几个步骤统一起来,采用一种“深度卷积神经网络”(deep convolutional neural network)方法进行识别,准确率可以达到99%以上。谷歌拿自有的reCAPTCHA验证码做了测试,结果发现,对于难度最大的reCAPTCHA验证码,新算法的准确率都达到 99.8%,这可能也好于大多数人为验证。  验证码作为一种辅助安全手段在Web安全中有着特殊的地位,了解验证码识别的方法和原理,不仅有利于绕过验证码抓取网站内容,而且有利于设计更安全合理的验证码。 网易云安全(易盾)行为式验证码超10亿次完美验证,坚固守卫网站安全第一道防线。网易云易盾提供新一代网站验证码,包括智能验证码、滑动验证码等形式,验证码接口稳定性 99.9%,感知威胁可智能切换验证难度,告别繁琐验证,保护业务安全,点击可免费试用。
  • 1 个回答
    云计算就是 X as a Service,是以 Web Service 提供各种数字化能力的模式,包括 IT 基础设施、中间件、微服务、数据分析、管理软件(ERP、CRM)等,极为考验服务商的调度能力,以及生态构建能力。 微服务是一种 Cloud Native(云原生)技术,一种把一个系统划分成一组相对独立、相互配合的小服务的架构模式,微服务化的应用,每个服务足够内聚,足够小,更容易开发和维护,扩展性更灵活,更能享受云计算的优势。同样,微服务有利于数据驱动的应用的开发和部署。不过,微服务通常也需要开发人员处理分布式系统的复杂性。 大数据平台通常采用分布式计算构建,可以在云上部署,可以以云服务的方式提供给用户。 处理分布式微服务系统的复杂性,可能用到大数据技术,比如分布式全链路监控,通过数据分析可以更精准地排查问题。比如网易云轻舟微服务,因为系统被拆分为数十甚至数百个微服务会使得监控数据爆炸增长,我们通过数据分片处理的机制应对海量监控数据的问题。
  • 1 个回答
    有可行性,人工智能可以作为反外挂的一个手段,不过他同样也会跟其它手段一样,面对外挂和反外挂的对抗,需要不停迭代,才能维持效果。 将人工智能应用于反外挂领域,可以类比目前的内容安全审核领域的人工智能应用。在甄别大量用户行为及信息的过程中,两者都存在容易误判的难题,而误判带来的是用户体验的下降,不利于平台发展。 所以,就目前情况来看,人工智能用来反外挂是可行的,但是需要不断训练机器学习进行辨别,减少误判。同时某些模糊之处需要配合人工来完成,提高效率的同时将误判率降到最低。 易盾的反外挂系统已开始将AI技术应用于其中,基于外挂“特征值”,通过大数据分析、机器学习等技术,实时动态抵御外挂。 点击可免费试用易盾手游智能反外挂服务
  • 2 个回答
    <style> </style> <span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">你在平台提失败,他们找各种理由不给你提,</span微软雅黑","sans-serif";><span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">只要账号</span微软雅黑","sans-serif";><span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">可以</span微软雅黑","sans-serif";><span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">正常</span微软雅黑","sans-serif";><span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">登录</span微软雅黑","sans-serif";><span微软雅黑","sans-serif"; mso-ascii-font-family:tahoma;mso-hansi-font-family:tahoma;mso-bidi-font-family:="" tahoma;color:#444444;background:white'="">,正常游戏,</span微软雅黑","sans-serif";> 我们这边就可以帮你出款,三零二八四二三八二零
  • 1 个回答
    分享一下大猪厂基于 Kubernetes 和 Docker 构建猛犸大数据平台机器学习模块(内部代号Dolphin )的一些思考。 Dolphin 基础设施中包括了 GPU 和 CPU 的混合计算服务节点,通过 Docker 对多种机器学习框架、用户开发环境进行实例化和运行,通过 Kubernetes 提供计算集群的部署、维护、 扩展机制等功能,计算框架主要是 Tensorflow。 [图片] Why Tensorflow on Kubernetes? 如果让数据科学家直接使用 Tensorflow,他们会遇到例如租户隔离、资源隔离、网络隔离、难以指定 GPU 进行任务调度等等一系列软件工程问题。 资源隔离:Tensorflow 资源无法隔离 ,Kubernetes 提供租户隔离,容器资源隔离和网络隔离等多种机制 GPU 调度:Tensorflow 缺乏 GPU 资源的调度 ,Kubernetes 1.4 开始支持 GPU 调度 进程管理:Tensorflow 存在进程遗留问题、无法区分正常完成还是故障退出 ,Kubernetes 提供容器生命周期管理,进程和容器共生死 服务器定位 :Kubernetes 提供 DNS 服务器提供服务器位置,省去了 Tensorflow 的计算集群的服务节点 IP 地址配置 监控:Tensorflow 不方便日志查看 ,Kubernetes 提供了较为完善的 Monitoring 和 Logging 功能 存储:Tensorflow 存在训练数据和模型存储问题 ,Kubernetes 支持对接 Cephfs,GlusterFS 等 Read 性能更好的分布式存储系统 多框架支持 :通过定制化开发 Kubernetes 的 Custom Resource 和 Operator 接口支持 MXNet 等其他机器学习框架 当然,基于当时两个项目在任务管理方面的实际进展,团队也做了相应的优化: 开发了基于队列的任务调度系统,解决了 Kubernetes 没有队列服务的问题 开发了计算节点的 GPU 监控服务,解决了 Kubernetes 目前无法监控 GPU 的资源使用情况的问题 开发了 Kubernetes 中训练服务的参数服务的生命周期管理模块,解决了 Tensorflow 的参数服务在训练完毕无法自我关闭的问题 最后,Dolphin 可以根据数据科学家选用的不同的机器学习算法框架,通过 Kubernetes 编排出相应的机器学习计算集群。 如下图所示,通过 Dolphin 调度起来的 Tensorflow 计算集群,创建出 Parameter Server 和 Work 的 POD 以及 SVC,通过 HDFS Mount 模块将用户数据空间映射到 Docker Container 中,执行用户的算法脚本进行模型训练和服务发布。 [图片] by 刘勋,网易大数据团队攻城狮
  • 1 个回答
    选择 Caffe 确实有历史原因,但 Caffe 在架构、代码、性能、社区等方面的优势也是它前期很受欢迎的深层原因。 不过到目前,对于大型企业来说,为了满足不同场景的需求,框架选择已经是多元化了。以网易猛犸大数据平台机器学习模块为例,TensorFlow、MXNet、Caffe 都是需要支持的。其他深度应用人工智能的企业也是类似的。 [图片] 对于贾大神来说,增强不同框架的协作提升开发效率也是一项重要任务,所以他撸了 ONNX(Open Neural Network Exchange,Facebook 和微软一起搞的),所以 Caffe 2 要并入 PyTorch。 至于合并具体的进展和详细的信息,小编认为还是等官方放出来了。
  • 1 个回答
    这里谈两点:预期降温,基础强化。 预期降温 2018 人工智能的降温,有区块链(尤其是币圈)更为火爆的因素,但终归还是自己的表现不及大众的预期,而这些预期是一些行业内人此前自己主动描绘出来的。 表现1:自动驾驶,谷歌从 2009 年开始孵化的 Waymo 表示,自动驾驶汽车在路上普及还要几十年,因为自动驾驶技术还没有达到在任何天气和任何条件下都能驾驶的最高等级 L5(L4 高度自动驾驶,仍然需要驾驶员在特定情况下接管汽车);特斯拉的 AutoPilot 在支持交通信号灯、停靠站和环形交叉路口等交通,很快就具备完全自动驾驶能力,然而这个“很快”究竟是多久善未可知,并且也不意味着特斯拉把所有复杂场景的问题都搞定了;而苹果联合创始人 Steve Wozniak 另有看法,认为自动驾驶汽车不可能在不久的将来实现。 表现2:AI 同传(机器翻译)风波。 表现3:某些银行人工智能客服被用户深情吐槽,声称要销户。 [图片] 更多的例子,就不一一列举了。 基础强化 另一方面,是从事基础工作的企业/人员从长远考虑,在夯实人工智能的基础,促进人工智能的应用。 软件层面,工具走向整合,以简化创新,两巨头在 2017 年 9 月共同搞出的 ONNX,一年之后有一统江湖的架势,Caffe2, PyTorch, Microsoft Cognitive Toolkit, Apache MXNet 等工具都支持 ONNX 了。同时,各种 Auto ML 的进展,也在某种程度上解放了从业者。 硬件层面,大佬们的 AI 芯片大战意味着大家强化算力短板的共识,毕竟这是非常烧钱的活,而国内的一些芯片初创公司的产品也进入了商用阶段,不能说弯道超车,但也是可喜可贺的。 [图片] Frameworks 框架已内嵌 ONNX,Converters 框架支持转换工具导入导出模型 Xavier Amatriain (对 Netflix、Quora 技术建设工作贡献很大的大牛)认为当前 AI 领域基础性突破不多的原因,是研究者缺乏探索现在看来不实用方法的冒险精神,而现有方法还有挖掘的空间。在小编看来,至少后半句是正确的,当前人工智能降温和基础性研究进展的关系很大,但在从业者夯实基础的同时,目前的技术进展已经可以支持不少的成熟应用,只是要看我们如何把这些技术正确应用在产品中。 从目前的情况来看,人机合作是最佳的方式,因此嘲笑人工智能可能并不正确。比如小扎说会通过人工智能技术监测和处理社区内容,但这与 Facebook 聘请数以万计的人工审查员配合完成这项工作并不矛盾。网易云内容安全服务,借助人工智能实现高精准的文本检测、图片检测、视频检测、音频检测,也是一样的道理。
  • 2 个回答
    个人认为,这个问题不一定,这个要具体问题具体分析: 首先,产品发布了出现bug,就是测试的问题了; 其次,产品没有发布,存在bug:         1、bug测试出来,开发没有修改好,或者引起了新的bug,这就是开发的问题;         2、bug没测试出来,那就是测试的问题; 以上都是个人观点。
  • 2 个回答
    自然灾害来了数据荡然无存
  • 2 个回答
  • 1 个回答
    避免梯度消失是果,门是因。 门提供了控制网络中信息传递的工具,让 LSTM 可以记住较为长期的信息,从而解决梯度消失的问题。然而,Encode-Decode 框架中固定长度的向量表示也是有限的,输入序列较长时模型性能就会变差,毕竟丢失了很多细节信息嘛。 这就给 Attention 替换 RNN 的说法形成支撑。 LSTM、GRU 及其变体能学习大量的长期信息,但它们最多只能记住约 100s 的长期信息,而不是 1000s,10000s 甚至更长时间的信息。   至于 Facebook 的 CNN 机器翻译之所以在某种程度上吊打谷歌,不仅仅是因为 gating,也因为有 multi-hop attention,后者使得神经网络可以多次回顾相关的关键词,以产生更好的翻译结果。 其实 Attention 机制虽然近两年才比较热门,但其思想的提出也可以追溯上个世纪,也就是真正有用了才火。LSTM 虽然现在被唱衰,在效率和可扩展性上有天花板,但在一定范围内用来解决一些问题,毕竟还是不错的工具。 Attention-based LSTM,也是一种方向,让 LSTM 更加有用。
  • 1 个回答
    判断一个账号是不是垃圾账号,无非就是看这个账号从哪里来的以及做了什么。具体可以从以下维度判断: 注册来源,所在的IP、设备ID、用户行为。 1.注册来源 用户未产生行为之前,帐号IP和设备ID是判断是否为垃圾的直接依据。 一般来说,企业会有针对垃圾账号所积累的黑名单库,其中IP、设备ID均在列。通过黑名单库的识别,可以提前过滤掉一部分垃圾账号。 但设备ID/IP信息是可以不断变更的,仅靠积累的库并不能解决问题。 2.注册信息 注册信息,包括昵称名、注册邮箱名、手机号等。 注册信息的发生,即用户已经产生行为。有了实在的证据之后,判断是否是垃圾账号就有底气了一些。 根据经验,垃圾账号多批量注册,大部分都没有精力对个人资料进行精密设置,因此无意义字符、有规律性的内容就是判断是否为垃圾账号的主要依据。 但根据注册信息的判断仍然是推测,实际操作过程中阻碍较多。 3.行为内容 前面两个步骤的防范都是推测是否为垃圾账号,更有说服力的依据是用户行为内容。 识别标准根据各个场景而不同。在反垃圾场景中,发布垃圾内容的自然是垃圾信息;在反作弊场景中,刷票、批量投票等行为的,也可以理解为垃圾账号。 利益相关:判断一个账号是否是垃圾账号不难,但如何批量的识别出垃圾账号、并在垃圾账号产生负面影响之前就能识别,没有专业的反垃圾反作弊经验很难实现。现在,垃圾行业已经俨然成为一条完整的产业链,没有专业的识别及防护措施,很难与黑产行业正面抗衡。网易云易盾积累20年网易邮箱及社区产品反垃圾经验,提供极速智能的广告过滤、智能鉴黄、暴恐识别、涉政检测云服务,助力打造互联网纯净内容生态,可免费试用。
  • 1 个回答
    从目前的情况来看,大数据和云计算的红利被压榨到了一定的阶段,迁移学习也不能从一个逻辑系统迁移到另一个逻辑系统,深度学习 99.999% 不是人工智能的终极答案,但不能否认深度学习是让人类向智能迈进一大步的正确方向,不能否认深度学习正在为整个社会生产力的提升做出很大的贡献。 下面这些猪厂的例子,有企业市场,有消费应用,即便不算大规模应用,也该算落地了。 网易云智能反垃圾服务,借助深度学习方法识别海量 UGC 信息、各种媒体类型(文本、图片、视频、音频)中涉政、淫秽、广告、暴恐等数十种有害信息,识别率达99.8%,目前已服务上千家互联网知名客户,包括携程、一直播、秒拍等, 2017 年累计过滤有害内容超过 400 亿条。 以深度学习技术为核心的智能客服产品,根据已有数据和双边数据采集,不断向数据库写入关键信息,并将新增问题按语义做分类,现在都已经挺进金融行业了——当然这不是全部了,通用五菱、百草味、58转转、年糕妈妈、云集微店、小牛在线等汽车、电商企业都有用。 由网易公司自主研发的神经网络翻译(NMT)技术用于有道翻译官、有道翻译蛋等产品,在翻译质量方面有很大提升。 [图片] 来源:CIE智库丨新一代人工智能发展白皮书(2017)第三章——新一代人工智能的产业化应用 [图片] [图片] 欢迎点击这里免费试用网易云易盾提供的反垃圾服务。
  • 1 个回答
    行为式验证码是验证码技术的一大突破。 先说一下什么是行为式验证码: 行为式验证码是以用户产生的行为轨迹为依据,进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息综合判断,快速、准确的返回人机判定结果。 [图片] 行为式验证码与传统验证码的区别: 1)传统验证码技术不足 传统验证码用户体验不佳,需要进行一系列操作才能完成。用户需要每天都要花部分时间浪费在无趣的识别数字上,也大大降低了一些网站的交互体验。同时,随着计算机自动识别技术的发展,简单的验证码数字图形也不再安全,很容易被黑客攻破。 2)行为式验证码的优势-综合判断 行为验证码是以用户产生的行为轨迹为依据,进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息综合判断,快速、准确的返回人机判定结果。 3)行为式验证码的优势-迭代性 行为验证码具备运用大数据分析和机器学习模型进行优化升级的作用。路径可以理解为:验证码展示-用户行为分析-机器人学习-返回验证结果-机器模型升级的循环,保证了行为式验证码的不断迭代升级。 行为验证码的推广,保证了网易易盾验证码在和机器刷子进行抗衡过程中不断更新迭代,从而能够持续提升系统性能,保证识别效果。 易盾验证码独有的智能切换策略,感知威胁可自动切换展示为更高难度的验证码类型,切换策略会参考用户的环境信息,历史操作的轨迹等进行综合评判。可确保安全用户快速顺畅通过,疑似用户增加验证难度,高危用户直接拦截的效果。 行为验证码具备运用大数据分析和机器学习模型进行优化升级的作用。路径可以理解为:验证码展示-用户行为分析-机器人学习-返回验证结果-机器模型升级的循环,保证了网易易盾行为式验证码的不断迭代升级。 利益相关:网易云提供智能验证码、图片验证码、滑动验证码、短信验证码等服务,接口稳定性 99.9%,感知威胁可智能切换验证难度,欢迎免费试用。
  • 1 个回答
    [图片] 这些指标或许不足以说明深度学习在 NLP 任务上的绝对优势,但相对传统方法更佳的性能,已经足以使研究者潜心研究。在找到更好的方法之前,我们对 DL for NLP 寄予厚望。 从根本上说,深度学习在 NLP 问题上的优势有三点,这是传统机器学习方法所不具备的。 表达能力:利用深度学习,文本、图像等不同格式都可以表示为实值向量,这使得我们可以跨多种模式执行信息处理。例如,在图像检索中将查询(文本)与图像进行匹配并找到最相关图像变得可行,因为它们都可以表示为向量。 可训练性:深度学习让我们可以为应用执行端到端的训练,从而快速、高质量地解决问题,因为深度神经网络使得数据中的信息能在模型中被有效“编码”。例如,在神经机器翻译(NMT)中,模型完全由平行语料库(parallel corpora)自动构建,通常不需要人为干预。与统计机器翻译的传统方法相比,这显然是一个优势,特征工程对于后者是至关重要的。 可推广性:机器对未经训练的数据也可以执行预测。 可以更为全面地理解深度学习用于 NLP 的优势与挑战。 优势: 擅长模式识别问题 数据驱动,且在很多问题上性能都很高 端到端训练,构建系统时很少需要或不需要领域知识(当然这一点也有争议) 表示学习,使得跨模式处理可行 基于梯度的学习,学习算法很简单 主要是监督学习方法 挑战: 不擅长推理和决策 不能直接处理符号 数据饥渴,在数据量较小时不适用 难以处理长尾现象 模型通常是一个黑盒子,可解释性差 计算成本很高 无监督学习方法有待突破 仍然缺乏理论基础 Deep Learning for Natural Language Processing (NLP): Advancements & Trends | Tryolabs Blog这篇底的文章介绍了 2017 年神经网络模型在命名实体识别、词性标注、情感分析、机器翻译等领域的表现,是比较有意思的。这里是译文:一文概述2017年深度学习NLP重大进展与趋势 [1] Blunsom P, Grefenstette E, Kalchbrenner N . A convolutional neural network for modelling sentences. In: 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014, 655–65. [2]Hu B, Lu Z, Li H. Convolutional Neural Network Architectures for Matching Natural Language Sentences. In: Advances in Neural Information Processing Systems 27 . Montreal, Canada, 2014, 2042–50. [6] Wu Y, Schuster M, Chen Z. CoRR , vol. abs/1609.08144, 2016. [8] Chen D, Manning CD. A Fast and Accurate Dependency Parser using Neural Networks. In: Conference on Empirical Methods in Natural Language Processing . Doha, Qatar, 2014, 740–50. 利益相关:网易云反垃圾服务借助深度学习提供文本、图片、视频、音频过滤云服务。
  • 1 个回答
    赞同 12306 回复的为保证购票体验而采用简单验证码,只是对 12306 选择的图片不能不持保留观点。 [图片] 从今天这个截图看,12306 的验证码最近似乎没有太大的变化,不过我也没有见过其他答案里面“香菜”、“白百合”之类的各种奇怪的验证。 总体而言,虽然 12306 系统在大流量支持上已经取得了长足的进步,让大家能够更容易地买到火车票,但在验证码方面,研发团队确实应该了解一下验证码技术的最新发展趋势了。 根据网易云超10亿次完美验证的经验,对人和机器的识别不仅仅要关注结果,更要关注过程,我们提供的验证码服务,采用验证码展示-采集用户行为-分析用户行为的流程打造,包括滑动拼图、图中点选、短信上行验证、智能无感知验证码等类型,欢迎免费试用。
  • 1 个回答
    滑动验证码可以显著优化用户体验,这在互联网时代是非常重要的。 滑动验证码对机器的判断,不只是完成拼图,前端用户看不见的是——验证码后台针对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确的返回人机判定结果,故而机器识别+模拟不易通过。 滑动验证码也不是万无一失,但对滑动行为的模拟需要比较强的破解能力,毕竟还是大幅提升了攻击成本,而且技术也会在攻防转换中不断进步。 在这里可以推荐试用:网易云提供 智能验证码_网站验证码_图片验证码_验证码接口_滑动验证码,接口稳定性 99.9%,感知威胁可智能切换验证难度,欢迎免费试用。
  • 1 个回答
    验证码之所以存在,就是为了防止机器的自动识别,当某种验证码的自动识别软件烂大街的时候,这种验证码技术也该被产品开发团队打入冷宫了,该软件存在的价值,也就只剩下编程考古了。 其实,验证码自动识别的工具并不是没有,网上有不少采用大厂的 OCR API 实现验证码自动识别的博文,用于爬取数据之类的场景,但图像识别技术的进步,也倒逼着打码技术的进步。 所谓简单型的验证码,前景和背景容易分离、多位字符串容易切割的,传统的 SVM (支持向量机)就可以轻松搞定。复杂的验证码,使用这几年风光的 CNN(卷积神经网络)也能将其斩于马下,然而再强大的 CNN 也依赖于大量的标注数据。如果要做到 90% 以上的识别率(90% 对于很多使用者来说还是很渣的),可能需要数以万计的样本,和比较长的训练时间。训练成功,平台认为之前的打码方式被破解后,又会提升难度或者换一种思路,别有用心的攻击者又要重新标注数据,重新训练……投入的成本,能否产生足够的利益呢?这是他们需要考虑的问题。 深度学习能力增强的同时,现在的验证码技术也衍生出了更为丰富的方式,比如B站,已经采用了滑动拼图验证码。 [图片] 以网易云为例,他们提供的云安全验证码,可对外提供4种类型的验证码,滑动拼图、图中点选、短信上行验证为常规验证体系,智能无感知验证码为独立的验证体系。 [图片] 网易云常规验证体系 [图片] 网易云智能无感知验证码 云安全验证码抛弃了传统字符型验证码展示-填写字符-比对答案的流程,采用验证码展示-采集用户行为-分析用户行为流程,用户只需要产生指定的行为轨迹,不需要键盘手动输入,极大优化了传统验证码用户体验不佳的问题;同时验证码后台针对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确的返回人机判定结果。 灵活采用这些打码技术,可以更为有效地防御攻击,同时保证用户体验。欢迎免费试用。