文章来源:杭州美创科技有限公司 随着企业级业务的快速发展,以及IT系统应用的越来越普遍,企业内部已积累大量的敏感信息和数据,这些敏感的数据,一旦发生泄露、损坏,将会带来不可挽救的损失。也因此,企业越来越重视数据安全建设,并不断采取更先进和安全的措施来保障数据安全。 我们知道,在进行网络安全建设中,企业往往要先了解自己网络中有哪些资产(如:域名、IP、DNS服务器等),尤其是有哪些自己不知道的影子资产。保护数据安全同样如此,企业在数据安全建设之前,必须要知道拥有哪些有价值的和无价值的数据,继而按照数据敏感程度和使用情况提供不同的安全手段。 但是,面对所拥有的庞大数据量,企业并不能实现清晰完整的认知,甚至不知道一些数据正在酝酿的巨大风险,其中就包括大量浅藏在“水下”囤积的数据——暗数据。 一、无处不在的暗数据 2019年,Gartner 发布2019年十大安全项目。其中,暗数据发现作为数据安全领域的技术/项目首次被提出。此外,在2018年的技术成熟度曲线中,Gartner 提出了一个达到炒作顶峰的技术——“文件分析”,该技术的实质是对不断膨胀的、散落在共享文件、邮件、内容协作平台、云端等等各处的非结构化暗数据的发现、梳理与理解。
那么究竟什么是暗数据?为什么暗数据如此受到重视?事实上,暗数据是指组织在正常运营期间例行存储的未被利用的数据。通常情况下此数据不被使用,因为传统关系数据库无法访问它,这源于它的非结构化、无法使用的格式。它就像宇宙中的暗物质,大量充斥。 TRUE Global Intelligence《暗数据现状报告》中显示,企业机构总数据的一半以上(55%)属于暗数据,这意味着他们要么不知道这些数据的存在,要么不知道如何找到、准备、分析或使用这些数据。 Veritas 在2016年的《数据冰山报告》中也提到,企业的数据中,52%为价值尚不明确的暗数据,33%的数据属于对于企业没有价值的冗余、过期或者不重要的陈旧数据——换而言之,我们现在所使用到的储存数据,只占了数据总量的15%。 企业存在如此高比例的暗数据往往有很多原因造成,例如:由于组织和人员的变更或者文档缺少,数据得不到有效的保存,未被利用的数据不断堆积从而发展成为不可被直接认知的暗数据。 二、暗数据的陷阱与风险 企业所拥有的数据规模难以想象,随着时间的推移和企业规模的扩大,积累的数据将越来越多,暗数据也会不断囤积。这些额外的数据不仅会增加公司的运营成本、消耗存储资源、影响用于分析的数据的质量。 更严重的是,这些数据通常不受保护,由此带来大量数据泄露风险和高昂的违规成本: 1、安全风险 企业拥有的暗数据中,可能会包含专用信息、商业机密,以及员工和客户的个人可识别信息,比如财务和医疗记录。但由于企业对自身的数据情况不够了解,无法轻易获知自身哪些数据有价值,因此往往采用宽松的数据安全流程,这便给攻击者打开方便之门。 网络犯罪专家曾表示,当前,黑客攻击策略正在发生变化,攻击者除了窃取传统的敏感数据(比如个人身份数据、财务数据、内部通信数据等),更加青睐于窃取安全保护措施不足的非结构化数据,攻击者可根据这些原本孤立的数据,通过拼凑分析,从而获知企业的业务信息、交易信息、内部交流等内容。 2、违规成本 2018年5月,“通用数据保护条例”(GDPR)执行,无论企业是否在欧盟境内,只要与欧盟企业发生业务往来,或涉及存储、处理、交换任何欧盟公民的数据,都必须严格遵守该条例。 其中相关条款指出,数据主体可以行使所谓的“被遗忘权”,即:数据主体有权要求企业在特定情况下删除其数据,有权被互联网遗忘。 IBM公司在2016年收集的统计数据发现,企业收集的所有数据中70%-80%是“黑暗的”,也就是说,在GDPR法规下,如果企业继续忽略暗数据,那么履行这些要求可能会变得耗时且成本高昂,同时,一旦在违规期间暗数据泄露,企业将遇到更严重的挑战。 三、拨云见日:从数据去认识数据 暗数据中固然有大量没有价值的“垃圾”数据,扫除这些无用数据,毫无疑问可以释放企业大量的网络、存储和计算资源。 不过,对暗数据的一次彻底清理十分耗时且存在安全违规风险,另一方面,大数据时代,暗数据蕴藏着未经发掘的“金矿”,它就好比暗物质(它代表了宇宙中90%以上的物质含量,而我们可见的世界只占宇宙物质的10%不到)主导了宇宙结构的形成一样,暗数据可以让企业把目光瞄准更广泛的数据资源,并从中提炼出商业见解和创新力量。 比如:公共卫生行业可通过以前未使用的数据分析人口群体,预测未来的需求和疾病趋势;零售服务行业通过挖掘更多的暗数据,以获取关于用户偏好的详细信息····· 由此可见,暗数据拥有着无限的潜力,因此识别哪些数据是最宝贵且需要保护的,又有哪些数据是最好清理掉的,就变得十分重要。 但企业在暗数据发现和处理中往往遇到很多困难,比如,在信息化建设过程中,企业积累了众多系统,包括运营系统、HR系统、财务系统、OA系统、网络系统等,各系统之间的数据接口标准不一致,导致数据资产混乱,加之工具的限制,用户难以知晓自己有多少数据库、数据库有多少表、表内的字段代表什么含义。 对此,美创科技从业务系统调研 、业务流程梳理、业务流程分解、数据标准梳理、业务关系梳理等,为企业识别数据资产提供思路,并推出暗数据发现和分类产品。
美创研发的暗数据发现和分类工具,以“从数据认识数据”为理念,产品通过引入自然语言处理、统计模型、特征分析、机器学习等方法,帮助企业全面认识企业内部包含的数据,比如包含哪些类别的数据、哪些数据属于敏感数据。
图:产品优势 在暗数据发现的基础上,只有对数据进行有效分类,才能避免一刀切的控制方式,对此,美创经过大量的案例实践,总结出了数据分级分类的方式,为后续对数据的安全管理采用更加精细的措施提供依据。
包括: (1)数据分级分类的原则 Ⅰ、分类:依据数据的来源、内容和用途对数据进行分类 Ⅱ、分级:按照数据的价值、内容敏感程度、影响和分发范围不同对数据进行敏感级别划分 (2)数据分级分类方式 Ⅰ、根据梳理出的备案数据资产,进行敏感数据的自动探测,通过特征探测定位敏感数据分布在哪些数据资产中; Ⅱ、针对敏感的数据资产进行分级分类标记,分类出敏感数据所有者(部门、系统、管理人员等); Ⅲ、根据已分类的数据资产由业务部门进行敏感分级,将分类的数据资产划分公开、内部、敏感等不同的敏感级别。 有的放矢,事半功倍。企业在数据安全建设中,针对数据“摸清家底”,尤其暗数据的发现,是帮助企业厘清数据资产,实现分级分类的基础,才能有后续的数据处理、数据管理工作,也才会有基础来扩大企业数据资产。 |
热点资讯
点击排行