阿里妈妈的智能图像识别技术如何查询非法商家?
细心的消费者一定知道手陶涛的“派丽陶涛”功能。
该功能实际上利用了智能图像识别技术。
以前一些无良商家把违法信息藏在图片里,以为可以逃过淘宝的搜索。
现在,这招不管用了。
同样,智能图像识别技术在其中扮演着重要的角色。
那么,智能图像识别技术具体是如何识别复杂的图片信息的呢?
阿里妈妈资深算法专家余婧向记者介绍了阿里妈妈在这方面的技术突破。
据悉,依托该技术,阿里妈妈每周可以打击各类违规行为上万次,相应的图像技术也已经应用到阿里巴巴集团。
以下是靖宇的分享图,显示为趋势。
打开购物网站,占据空间最大的无疑是图片。
对于用户来说,商品的图片有一种文字无法表达的真实感和可信度。
可以说,图片已经成为商品展示的最佳方式。
在展示商品的同时,图片也成为非法内容欺骗消费者的主要庇护所。
原因是图像识别太难了。
但阿里妈妈作为营销平台,对图片内容的审核要求极高。
首先,借助图像识别能力,阿里妈妈可以获得完整的图像信息,从而提高cpr预估的准确性和推广效果。
其次,随着打击力度的深入,违法的宣传文字逐渐转移到图片上,同时也出现了商家违法使用著名商标的情况。
为此,阿里妈妈投入了大量的工作来改进图像识别算法。
经过几年的积累,已经有两项重要的技术上线来应对上述问题,分别是“图像字符识别”和“商标检测系统”。
基于这两种算法,智能图像识别技术已全面覆盖智能审核等应用场景,每周可打击各类违规行为1万次以上。
相应的图像技术也已经应用到阿里巴巴集团。
字符识别字符识别,顾名思义就是从图片中识别字符,大家并不陌生。
扫描书籍、扫描文档、车牌识别就是这样的技术。
但是这些技术通常都要限制场景,一种技术只能用在特定的场景。
阿里妈妈面对的目标图景是完全不同的,它的特点是非特异性和不确定性。
比如字体非常丰富,有变形、搭配、排版等复杂情况。
有了背景,可以说识别算法难度极大。
甚至有一个名为icdar的国际学术会议,专门讨论这类问题。
我该怎么办?
阿里妈妈最后提出了“场景图片人物识别技术”。
场景识别的历史2014年8月,ocr(图片中的字符识别)项目启动,2014年11月第一版算法上线。
实现的功能是将商品图片中的文字描述提取出来,作为宣传资料投放到终端用户中,改善之前宣传标题或文字资料不足的情况。
2015年4月,图片和文字识别在阿里妈妈的点评场景下全面上线。
评审工作从人工到半自动评审阶段,评审时间为t+1天。
2015年10月,后期技术优化审核只需要几秒钟。
也就是说,商家上传促销创意图片后几秒钟,阿里妈妈就能给出识别结果,并通过运营部门预定义的规则,快速对图片进行预处理和判断。
如果有任何可疑的违规行为,也可以立即处理。
你一定很好奇。
你是怎么做到的?
智能算法有完整的迭代方案。
传统的ocr(图片中的字符识别)技术可以分为定位、分割、识别等部分。
每一部分都会涉及到大量人为设计的特征项目或者人为的规则,需要花费大量的精力去观察人物的特征。
我们发现这种想法的识别率很低。
阿里妈妈采用的方法是依靠深度学习技术,即模型学习大量数据,从而获得的“知识”强于人工识别的能力。
这就需要利用大规模数据来完成训练和识别。
摒弃特定工程的逻辑和人为的规则,使得阿里妈妈的算法在迭代和更新上有了显著的提升。
今年6月,阿里妈妈影像团队的ocr技术刷新了icdar robust。
阅读争夺数据集世界最好成绩,大幅超越第二名。
借助这一领先的ocr技术,阿里妈妈的图像团队能够以95%的超高准确率识别图片中的非法文字信息,有效过滤商家的恶意推广,维护消费者权益。
2015年,阿里妈妈共屏蔽恶意促销4600万次。
商标检测系统在淘宝或者天猫,有些商家会故意在标题、详情页、商品属性等地方隐藏商品的品牌信息,侵权名品品牌意图明显。
以前阿里的运营者很难发现这种图片式的侵权。
为此阿里妈妈开发了一个lgog(商标)检测系统,可以减少品牌侵权,同时这个系统可以统计平台上所有的商品品牌,然后进行统计分类。
鉴定样本是一个巨大的挑战。
阿里平台有上亿个品牌,这对系统的工作效率提出了严峻的挑战。
其次,商标识别涉及的场景具有多样性的特点。
第三,商标本身客观上存在一些倾斜、变线,或者遮挡、面积小等问题。
,算法识别易受干扰。
2014年,商标检测系统上线,经过多轮迭代优化,阿里妈妈已经基本形成了一套完整的品牌管理、线上线下结合的算法解决方案。
效果突出,比如一秒钟内可以识别上万个商标,随时配置扩充品牌库,准确率高达95%。
不要用不正当竞争,有运气,技术不断迭代更新,让交易生态更加健康完善。
:《淘宝盗图处罚细则》如何处理盗图投诉?
怎么上诉?
淘宝会员名字可以修改吗?
查看如何修改淘宝会员名称。