首页 > 热点资讯 >新闻内容

数据脱敏——什么是数据脱敏

2021年06月02日 12:06

一、什么是数据脱敏


数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。

百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。


二、为什么要进行数据脱敏


上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。

对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。

三、如何实现数据脱敏


按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

我们目前遇到的场景是日志脱敏,即在把日志中的密码,甚至姓名、身份证号等信息都进行脱敏处理。

脱敏前:


脱敏后:

如上图,仔细分析会发现,打日志之前,获得脱敏的数据就两个步骤:【拿到要输入的数据(user实体)】→【进行序列化】,所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理。


相关推荐

万科一季报登场,股东户数大增3成,宝能系加速离场

作为国内房地产界的巨头,万科A的动向素来引人瞩目,尤其是其喊出了“活下去”的口号后更是让市场对其接下来的经营状况更感兴趣。在4月27日晚间,万科A完成了其2020年一季报的披露工作。报告期内(今年1-3月),万科A的房地产业务合同销售面积884.8万平方米,同比下降4.3%,合同销售金额1378.8亿元,同比下降7.7%,公司一共实现了营业收入477.74亿元,同比下降1.24%,归属于母公司股东的净利润12.49亿元,同比增长11.49%,降收但增利的格局,不过扣除非经常性损益事项后的净利润10.17亿元,同比下降9.86%。这是自2018年9月秋季例会上提出“活下去”以来,万科A交出的最差的一份财报,万科A上一次出现扣非后净利润同比下降还是在5年前的2015年的一季报,当时国内房地产市场出现转冷明显的迹象(随后全国兴起一系列帮助房地产市场去库存,却引发房价进一步飞升)。但整体而言,新冠疫情笼罩之下的一季度,各行各业都受到了波及,房地产市场这类重资产行业也不例外,万科A依然取得这样的成绩单,实属已经相当不容易。尤其是在现金流方面,万科A依然做得比较出众,截至今年3月末,万科A的资产负债率为84.24%,实际净负债率为34.3%,手握货币资金1732.7亿元,远高于短期借款和一年内到期有息负债总和897.8亿元。值得注意的是,万科A的A股股东户数出现了大幅飙升的一幕,从2019年末的245835户,大幅升至今年一季度末(3月末)的326417户,增加了超过8万名股东,增幅达到了约33%,筹码散户化明显。而这背后,观看万科A的十大股东名单,不得不提的是昔日掀起万科A股权大战、一度坐上万科大股东宝座却一个董事会席位都无法染指的宝能系的持股变化。其中作为宝能系征战A股市场枪头的钜盛华持股比例仅为1.14%,位列第九大股东,较2019年报的3.57%缩减明显,前海人寿和相关产品则再无现身万科A的十大股东名单,可以想象宝能系对万科A的撤离已经基本完成。回想昔日宝能系对万科A的买买买,巅峰时刻可是曾坐拥万科A总股本的25.4%的股权,是推高万科A股价至今境地的一大推手,一系列的股权争夺大戏之后,如今从万科的股东户数变化来看,接盘的是大量的散户,这对于一家企业的未来股价而言可不是什么好信号。

2020年04月28日 11:07

如何使用SEMRUSH

我们先来说说SEMRUSH有哪些功能:1,谷歌seo关键词挖掘和调研2,竞争对手域名分析,包括外链来源分析,谷歌广告分析,站内流量来源分析3,你和竞争对手在关键词排名和外链建设之间的差距4,内容营销的主题推荐我们一个个的来分析如何使用一,谷歌SEO关键词挖掘和调研我们登陆SEMRUSH的后台后,直接在搜索框输入产品关键词,我以dogbed为例,输入以后点击search按钮,就会出现DOGBED关键词所有信息。如上图,我们可以大体看到有关dogbed关键词的月搜索量,cpc出价,哪些国家在投放这个关键词的广告,然后我们点击phrasematch可以看到更多dogbed相关的关键词。我们会看到所有有关dogbed的关键词拓展,其中这里面包括了4种关键词的匹配形式,词组匹配,广泛匹配,准确匹配,相关关键词,至于这几个匹配方式什么意思我在这里也不多说了,具体可以参考文章如何正确选择谷歌广告关键词匹配方式。在左边我们看到有个bynumsofkeywords,这是啥意思,就是说dogbed所有的关键词里面跟主关键词搭配的其他词,有可能是描述大小,颜色的词,这种词出现的次数越多说明了越是用户关心的点。这个就类似我之前在文章如何选品中提到的利用关键词云的工具找出用户搜索次数最多的修饰词,这些修饰词就是一些用户比较感兴趣的款式,颜色,大小等等参数。还有一个关键词高级筛选的功能,advancedfilters,可以选择包含的关键词,还有排除掉的关键词。在question版块,我们能够找到所有跟关键词有关的问题,这些也是用户比较关心的,我们在做内容营销的时候可以充分利用这些搜索量比较大的问题。二,竞争对手分析在domainanalytics这里我们可以输入竞争对手的域名,对竞争对手进行比较详细的分析,包括:1,竞争对手的流量来源分析2,关键词排名情况3,外链情况4,访问最多的页面是哪个5,广告投放情况overview部分是能看到竞争对手的一个综合情况,自然流量和付费流量对比,流量增长的趋势,付费广告的文案等等。在左侧我们可以更详细的看到竞争对手的自然流量,外链分析,广告分析,流量来源分析在organicresearch部分,看到有多少关键词带来了流量,排名靠前的关键词有哪些,关键词排名的变化,SERPFEATURE情况,带来流量最大的网页是那些,还能看到他的竞争对手有哪些。backlinks部分是semrush比较有竞争力的一个地方,在分析竞争对手的外链情况方面跟ahrefs是不分伯仲。我们来看看如何使用这个功能监测同行的外链。同样在overview部分,我们也是能看到竞争对手网站外链综合情况有多少个外链,有多少个外链域名,新增外链和丢失外链趋势,外链的类型(文字,图片,url),外链来源国家情况。我们重点看下backlinks部分,在这一部分我们能够详细的看到竞争对手一共有多少外链,我们可以根据dofollow和nofollow筛选,我们要做的就是把这些外链导出到excel表格。然后点击外链链接进行分析,这个网站是否可以给我们也做外链,当然这个工作量比较大。在分析竞争对手流量来源功能部分,我看了下这个功能不如similarweb分析的全面,semrush主要是分析了流量来源类型,国家分布,比较简单,所以我建议大家用similarweb这个工具来分析竞争对手的流量来源。同时如果你用谷歌浏览器,可以直接安装similarweb的插件,针对当前正在浏览的网站,点击插件就可以看到网站的流量情况,这个工具还是很强大的。SEMRUSH也有很强大的分析竞争对手谷歌ppc广告投放的功能,在这个部分我们主要就是看他的广告文案怎么写,作为我们广告投放的一个参考。这篇文章主要分享了SEMRUSH的关键词挖掘以及竞争对手外链分析的内容,至于竞争对手和自己网站差距比较,内容营销主题推荐部分内容我会在后面的文章分享。

2020年04月27日 01:05

百度收录的相关问题及解决方案

百度收录永远是SEOer着讨论的关键话题,在网站优化战争中,稳定的收录直接影响了网站的流量、收入。为何网站首页快照更新很快,可是不收录内页?相信许多朋友与我样在寻找问题的答案。本文跟小贱探讨下网站内页百度不收录的原因分析与对策。  原因1:百度已经索引了但还未放出来排名。  百度对文章的收录需要审核时间,蜘蛛抓取成功索引内容录入数据库,需要经过二次审查是否为SPAM然后才放出参与排名,放出的时间与网站权重高低有着直接的关系,百度周期更新才放出收录是新站为常见的现象。  对策:我们要做的是保证定期定量的更新、观察网站日志,只要蜘蛛正常爬行,静心等待着,会有惊喜的。  原因2:robots设置问题导致内页不受引擎蜘蛛爬行索引  对策:检查是否语法错误屏蔽了蜘蛛爬行,其中包括metarobots与nofollow等标签的的设置。  原因3:文章原创度问题.  头部标签的设置导致页面类似重复,或者采集页面太多,因百度数据库中已经存在大量的相似信息而不收录,长期地操作会导致百度降权。  对策:应该保持文章的原创度(伪原创相信朋友们都熟悉),质量比数量更重要,好是能每天定时更新让百度对你网站抓取也有守时的好习惯。  原因4:网站内部链接存在问题.  比如有大量错误链接、不良的网站链接,蜘蛛爬行不通畅无法抓取,不良网址链接导致网站降权。  对策:针对首页、频道等各个重要页面做错误链接检查(可以观察谷歌站长工具的抓取错误),检查留言板、评论等网友互动功能的不良链接,避免与不良网站互链。  原因5:网站使用了黑帽手段,百度识别了欺骗手段整站降权。  对策:远离关键词堆积、群发,黑链等黑帽行为,网站的长期稳定少懂歪脑筋,百度有动作没很难挽回了!  原因6:服务器无法访问,速度缓慢、被挂马等情况。  百度蜘蛛索引内容时,多次识别网站有着大量错乱代码或者遇到服务器无法访问,网站被列入观察名单。  对策:做好网站代码优化提高页面读取速度,选择负责任的安全空间服务商,成熟的网站程序并定期更新补丁,定期对修改文件痕迹做好跟踪。

2020年04月04日 03:55