您现在的位置是:主页 > 品牌 > 阿里巴巴 >
阿里开发AI技术实现0.15秒识别和屏蔽外语不当言论,支持近30种语言
发布时间:2021年09月27日 11:08:38 阿里巴巴 人已围观
简介一年多前,阿里巴巴国际安全内容风控人员小荷发现了一些用户为规避平台审查而使用的特殊“脏话”。她的职责是通过技术与规则识别、清理影响平台环境的违规内容,以维护清朗的...
一年多前,一名被称为小荷(化名)的阿里巴巴国际安全内容风控人员,在用户交互场景中目睹了一些为了规避平台审查而使用的特殊“脏话”案例。
她的职责是利用技术与规则,识别和清除影响内容环境的违规信息。起初,一些小广告和粗俗言辞仅以文本的形式展现,随之对抗升级之后,部分脏话开始以嵌入图片的方式出现,甚至还采用多种语言伪装自己。
为了解决这一问题,阿里安全方面进行了多语言识别技术的升级。最近,阿里安全算法团队已经宣布,开发出的针对网络脏话的AI(OCR)技术,能够识别近30种语言,包括出现在图片中的英文、阿拉伯文、俄语、法语、西班牙语、日语、韩语、泰语、越南语、波斯语、孟加拉文、尼泊尔文、僧伽罗文、朝鲜文、苏丹文、德文、荷兰文,以及马来文、塔加洛文、土耳其文、意大利文和印尼文,甚至涵盖了三种中国的少数民族语言。
在一些国际平台上,“买家”可能会用英语在商品评论中辱骂他人,或者在交互场景中,买卖双方互相用俄语的侮辱性图像进行对抗。国际平台的风控团队与算法团队回顾了多起案例,发现不仅有多语种的脏话存在,甚至一些多语种的垃圾广告和负面信息也在图片中暗藏,意图对抗风控措施。
全球有数百种语言,而重点关注的语言也达到几十种。一般而言,一个工作人员最多能掌握三到四种语言,因此在国际化场景中,仅凭人工识别风险图片是无法做到的,这便催生了多语言识别技术的需求。
左侧图为俄语的脏话示例,右侧图为暗藏有英语脏话的侮辱性图像
阿里安全的高级算法工程师沄帆表示,识别多语种文字需要对不同语言的文字特性有深入了解,而这些特性可能会对算法识别造成影响。每种文字系统都有独特的字体,不同的字体会导致同一字符在形态上的变化,例如下左图展示了汉字“字”在不同字体下的不同表现,以及手写字体中的变化。下右图则展示了俄语字母在手写和印刷字体之间的区别,红框标出了某些字符存在的显著差异。
不同字体可能导致同一字符的不同形态(图片来源:网络)
“字符的连接会引起字形变化,各种文字系统在书写和阅读顺序上也各有不同,这些都将对AI的识别和语义判断产生影响。”沄帆指出。例如,同一个单词在不同语言中可能存在不同的含义,“jammer”在荷兰语中表示“遗憾”,而在英语中则指“信号屏蔽器”,这可能涉及某些违规行为。