词条 | 论坛盾 |
释义 | 背景互联网社区在2010年取得了高速的发展,网络论坛(BBS)/讨论组/论坛社区/SNS/微博等的应用逐渐获得用户的高度关注,成为基础的互联网应用。从门户网站到行业网站,从地区门户到个人站点,相当一部分网站均拥有独立社区。 2010年中国网络社区类型分布中,门户社区处于首位,34.1%的网络社区站长选择经营门户社区,其次是生活和互动娱乐类的网络社区,占比分别为19.9%和19.4%。 在论坛迅速发展的同时,垃圾信息也越来越猖獗。散布垃圾链接对提高网站在搜索引擎的自然排名有很大帮助,这 是众多SEO手法中最简单,成本相对较低的一种。这种做法可以大幅增加网站的流量,达到增收的目的,这是利用论坛的技术与管理的双重漏洞而进行不道德牟利。为了快速直接看见的利益,很多网站与了进来,特别是一些刚刚起步需要快速增加流量和收入的网站。垃圾信息对用户体验影响非常大,同时也在互联网上形成了一种恶性信息盗用的扭曲风气。 此外,根据调查显示所有社区类型中门户综合类、娱乐类和女性类最容易遭受到注册机、发帖机或者其他类型的广告垃圾信息的攻击。 注册机、广告贴、垃圾信息是论坛所有者的大麻烦,目前的问题包括: - 注册机、广告发帖机泛滥,而且技术不断提升,如绕过注册、能识别验证码等。 - 目前大多数论坛管理者采用的是本地扫描插件,功能不全面,没有自学习功能,需要不断更新阻止列表,此外,本地扫描还会耗费系统资源。 很多论坛采取了很多限制新手的措施 来限制垃圾广告贴的出现,如,限制新手发帖时间、发帖数、需要做新手任务才能发帖、需要上传头像才能发帖等,虽然一定程度上防止了垃圾信息,但同时大大降低了新手体验。 论坛盾概述论坛盾针对最困扰论坛管理者的广告垃圾和敏感词问题,帮助论坛管理者辨别和自动处理广告垃圾和敏感词。除此之外还向论坛提供基本安全监测服务。 - 产品名称:论坛盾(forum shield) - 产品形态:Discuz!插件(目前支持7.2) - 版本:beta for Discuz!7.2 - 核心价值 论坛盾作用拦截广告垃圾信息安装论坛盾后,用户发布的所有信息都会先经过广告垃圾过滤器,判断为正常的信息会直接发布,可疑的广告垃圾信息会被列入隔离区,需要版主或管理员进行审核后才可以发布。 此外,广告垃圾过滤器还会记录管理员或版主的操作,如果人工判断为误报,则会进行分析降低对应信息内容的危害程度,避免多次误报。 智能过滤敏感词相比广告垃圾,敏感词问题发生频率不那么高,但对于论坛来说是“生死存亡”的问题,一旦论坛出现“不该出现”的内容就会被监管机构盯上,甚至被迫关闭。 用户发布信息时,会先经过智能敏感词过滤系统,一旦发现敏感词,该系统会用设定的字符进行替换处理,减少论坛管理者的工作量。 提升论坛内容质量论坛管理者每天会花大量时间去查找和清除广告垃圾信息,以保证论坛内容质量。但是人工处理难免会有疏漏,一旦广告垃圾信息出现在论坛会严重影响论坛的形象和浏览论坛的用户,甚至造成用户流失。 降低运营成本安装论坛盾后,可以减少论坛管理者的工作量和工作时间。此外,一旦出现挂马事件管理者能第一时间知道,并根据提示路径清除挂马,缩短影响时间,最大程度减少论坛的损失。 基础功能永久免费我们承诺,所有基本功能包括: - 广告垃圾处理; - 敏感词处理; - 自学习广告垃圾检测规则及敏感词云更新; - 论坛安全监控服务:挂马监控; - 论坛安全体检服务:漏洞扫描。 SLA论坛管理员通过开通账号升级高级用户。普通用户和高级用户均为免费用户。 使用流程安装安装插件前, 需要先确认Discuz!平台是否为插件当前对应版本,如论坛盾提供Discuz!7.2版本。 获得论坛盾的安装文件为一个压缩包,论坛管理员需要先把压缩包解压,放到指定路径中, 然后在Discuz!管理中心进行安装。 安装完毕之后提交插件才能正常使用。 审核版主在广告垃圾分页管理权限范围内的广告垃圾帖。管理员可以在“管理中心-插件-论坛盾-隔离区”管理广告垃圾帖。 如右图所示安装论坛盾后在版主登录后会看到“广告垃圾”分页,进入该分页后可以管理权限范围内的广告垃圾。 如左图所示,管理员也可以进入管理中心的隔离区管理广告垃圾。 处理方法包括: 删除-在从列表中永久删除该主题/回复/短消息。删除后该信息不会出现在论坛中,短消息也不会发送给目标对象。 误报-版主或管理员认为该信息不是广告垃圾,向论坛盾提出“误报”,论坛盾会再次分析该信息,调整广告垃圾分析规则。 忽略-仅从广告垃圾分页或隔离区列表移除。 设置在升级为高级用户后,管理员可以设置两个引擎的状态。 举报当版主或管理员在浏览论坛时可以对广告垃圾进行举报。如右图所示,安装论坛盾后会在每个主题/回复下出现“广告垃圾”功能,通过该功能向论坛盾举报广告垃圾,论坛盾会记录举报内容,调整广告垃圾分析规则以提升论坛盾的准确率。因此,在前期为了快速提升论坛盾准确率,我们建议版主和管理员能多进行举报。 技术原理及优势分类器对论坛的所有者来说,识别垃圾广告帖子和回复,就是判断一个帖子内容是正常的帖子还是非正常(垃圾、广告)的过程,这个过程本质上是一种文本分类问题。目前,解决文本分类问题业内有很多成熟的技术,从原理上说主要分为两类:基于规则和基于统计学的方法。从技术实现上来说有决策树、贝叶斯分类器和支持向量机等方法。 基于规则的方法就是在帖子内容中寻找特定的模式,其优点是规则灵活,时效性强,效率高,具有很强的解释性,容易被人理解。缺点是规则的生成需要人工的参与,因此规则的生成效率较低。 规则举例: 规则1:内容含有“联系电话”的为广告。 规则2:内容字数少于10个字,且没有URL的为正常。 基于统计的方法就是通过机器学习的方法,从大量的垃圾内容和正常内容的样本中,训练出一个分类器。然后通过这个分类器对帖子内容进行打分,分值超过特定阈值的帖子可以被认为是广告垃圾回复。 基于统计的方法的优点是基于大量的数据分析得出的分类器,跟类结果准确,只要训练及时,误报率和漏报率都能够达到较好的水平。缺点就是结果的解释性没有基于规则的结果直观,另外分类器对错误的纠正能力需要有一个时间,不如规则的实效性好。 综合以上两种方法的优缺点,论坛盾综合的采用了以上两种方法,以基于统计的分类器方法为主导、各种相关规则为辅助补充的方法来解决广告内容的检测。除了经典方法的使用,我们还具有以下几个特点: - 海量样本收集:依托于绿盟科技分布式处理平台,实时的对互联网的垃圾广告相关的信息进行抓取和分析,不断的积累垃圾内容的样本集合。 - 自然语言处理:采用中文分词、语义分析等特征识别和抽取技术,有效的将文本内容的特征提取出来,为分类器准确的得出分类结果提供了基础。 - 信誉积累:通过海量的广告文本的训练、处理和分析,将广告信息的独特特征积累和记录下来,汇总到绿盟科技信誉库中。 关键词检测关键字检测本质上是多字符串匹配的问题。既给出一段文本,找出里面是否包含关键字库里面的关键字。论坛盾的技术实现上主要分为以下两个方面: - 基于确定有限自动机(Deterministic Finite Automaton,DFA)的多字符串匹配检测引擎,实时对文本进行关键字检测。论坛盾的关键字检测以SaaS模式提供服务,不占用论坛的本地服务器资源,既可以对大量的关键字进行过滤。 -动态关键字库:关键字库是绿盟科技WEB信誉库的组成部分,是经过实时收集、验证和人工审核后积累出的关键字列表,每个关键字都具有类别、标签、级别等属性,来满足不同用户的不同检测需求。 绿盟科技简介绿盟科技公司(NSFOCUSINFORMATION TECHNOLOGY CO.,LTD.)成立于2000年4月,是中国第一批专业网络安全产品和服务公司之一。在多年的发展过程中,获得了不同行业的近千家客户的认同,并已经成为国内领先的专业安全产品和服务提供商。 绿盟科技自成立以来一直以作为“巨人背后的安全专家”为己任,全力为客户服务,本着“诚信为本、客户至上、专业服务、面向国际”的宗旨,汇聚了国内安全领域最优秀的技术研究、产品开发和服务实施队伍。多年来,开发出多款具有国内国际领先水平的安全产品,并通过独立的服务部门为用户提供专业的安全服务体系。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。