问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

数据压缩和重复数据删除是实现数据缩减的两种关键技术,二者有什么区别

发布网友 发布时间:2022-04-27 03:28

我来回答

1个回答

热心网友 时间:2023-11-18 11:25

面对数据的急剧膨胀,企业需要不断购置大量的存储设备来应对不断增长的存储需求。然而,单纯地提高存储容量,这似乎并不能从根本解决问题。首先,存储设备的采购预算越来越高,大多数企业难以承受如此巨大的开支。其次,随着数据中心的扩大,存储管理成本、占用空间、制冷能力、能耗等也都变得越来越严重,其中能耗尤为突出。再者,大量的异构物理存储资源大大增加了存储管理的复杂性,容易造成存储资源浪费和利用效率不高。因此,我们需要另辟蹊径来解决信息的急剧增长问题,堵住数据“井喷”。高效存储理念正是为此而提出的,它旨在缓解存储系统的空间增长问题,缩减数据占用空间,简化存储管理,最大程度地利用已有资源,降低成本。目前业界公认的五项高效存储技术分别是数据压缩、重复数据删除、自动精简配置、自动分层存储和存储虚拟化。目前,数据压缩和重复数据删除是实现数据缩减的两种关键技术。简而言之,数据压缩技术通过对数据重新编码来降低冗余度,而重复数据删除技术侧重于删除重复的数据块,从而实现数据容量缩减的目的。

数据压缩与重复数据删除对比分析
数据压缩和重复数据删除技术都着眼于减少数据量,其差别在于数据压缩技术的前提是信息的数据表达存在冗余,以信息论研究作为基础;而重复数据删除的实现依赖数据块的重复出现,是一种实践性技术。然而,通过上面的分析我们发现,这两种技术在本质上却是相同的,即通过检索冗余数据并采用更短的指针来表示来实现缩减数据容量。它们的区别关键在于,消除冗余范围不同,发现冗余方法不同,冗余粒度不同,另外在具体实现方法有诸多不同。

(1)消除冗余范围
数据压缩通常作用于数据流,消除冗余范围受到滑动窗口或缓存窗口的*。由于考虑性能因素,这个窗口通常是比较小的,只能对局部数据产生作用,对单个文件效果明显。重复数据删除技术先对所有数据进行分块,然后以数据块为单位在全局范围内进行冗余消除,因此对包含众多文件的全局存储系统,如文件系统,效果更加显著。如果把数据压缩应用于全局,或者把重复数据删除应用于单个文件,则数据缩减效果要大大折扣。
(2)发现冗余方法
数据压缩主要通过串匹配来检索相同数据块,主要采用字符串匹配算法及其变种,这是精确匹配。重复数据删除技术通过数据块的数据指纹来发现相同数据块,数据指纹采用hash函数计算获得,这是模糊匹配。精确匹配实现较为复杂,但精度高,对细粒度消除冗余更为有效;模糊匹配相对简单许多,对大粒度的数据块更加适合,精度方面不够。
(3)冗余粒度
数据压缩的冗余粒度会很小,可以到几个字节这样的小数据块,而且是自适应的,不需要事先指定一个粒度范围。重复数据删除则不同,数据块粒度比较大,通常从512到8K字节不等。数据分块也不是自适应的,对于定长数据块需要事先指定长度,变长数据分块则需要指定上下限范围。更小的数据块粒度会获得更大的数据消冗效果,但计算消耗也更大。
(4)性能瓶颈
数据压缩的关键性能瓶颈在于数据串匹配,滑动窗口或缓存窗口越大,这个计算量就会随之大量增加。重复数据删除的性能瓶颈在于数据分块与数据指纹计算,MD5/SHA-1等hash函数的计算复杂性都非常高,非常占用CPU资源。另外,数据指纹需要保存和检索,通常需要大量内存来构建hash表,如果内存有限则会对性能产生严重影响。
(5)数据安全
这里的数据压缩都是无损压缩,不会发生数据丢失现象,数据是安全的。重复数据删除的一个问题是,利用hash产生的数据块指纹可能会产生的碰撞,即两个不同的数据块生成了相同的数据指纹。这样,就会造成一个数据块丢失的情况发生,导致数据发生破坏。因此,重复数据删除技术存在数据安全隐患。
(6)应用角度
数据压缩直接对流式数据进行处理,不需要事先对全局信息进行分析统计,可以很好地利用流水线或管道方式与其他应用结合使用,或以带内方式透明地作用于存储系统或网络系统。重复数据删除则需要对数据进行分块处理,需要对指纹进行存储和检索,需要对原先物理文件进行逻辑表示。如果现有系统要应用这种技术,则需要对应用进行修改,难以做到透明实现。目前重复数据删除并不是一个通常功能,而更多地以产品形态出现,如存储系统、文件系统或应用系统。因此,数据压缩是一种标准功能,而重复数据删除现在还没有达到这种标准,应用角度来看,数据压缩更为简单。

珠联璧合
数据压缩与重复数据删除两种技术具有不同层面的针对性,并能够结合起来使用,从而实现更高的数据缩减比例。值得一提的是,如果同时应用数据压缩和重复数据删除技术,为了降低对系统的处理需求和提高数据压缩比率,通常需要先应用数据删除技术,然后再使用数据压缩技术进一步降低"结构图"和基本数据块的体积。如果顺序颠倒会出现什么样的结果呢?压缩会对数据进行重新编码,从而破坏了数据原生的冗余结构,因此再应用重复数据删除效果则会大打折扣,而且消耗时间也更多。而先执行重复数据删除则不同,它首先消除了冗余数据块,然后应用数据压缩对唯一副本数据块进行再次压缩。这样,两种技术的数据缩减作用得到叠加,而且数据压缩的消耗时间大大降低。因此,先去重后压缩,可以获得更高的数据压缩率和性能。
数据压缩和重复数据删除是实现数据缩减的两种关键技术,二者有什么区 ...

数据压缩和重复数据删除技术都着眼于减少数据量,其差别在于数据压缩技术的前提是信息的数据表达存在冗余,以信息论研究作为基础;而重复数据删除的实现依赖数据块的重复出现,是一种实践性技术。然而,通过上面的分析我们发现,这两种技术在本质上却是相同的,即通过检索冗余数据并采用更短的指针来表示来实现...

重删和压缩的比较 - Nutanix ADSF vs VMware vSAN

在数据缩减技术的配置方面,两者也存在差异。Nutanix在所有存储容器的数据上应用全局重删,提供高达16:1的效率,而vSAN在混合配置(闪存+磁盘)上不支持数据缩减技术。这为Nutanix的混合平台用户提供了优势,可以在相同或更少的硬件上存储更多数据。VMware强调在混合配置中不支持数据缩减技术的原因是性能问题,...

重复数据删除定义

重复数据删除是一种数据压缩技术,主要应用于基于磁盘的备份系统,目标是减少存储空间的使用。其原理是扫描不同文件中的可变大小数据块,发现重复的部分就用标识符代替,从而大幅度减少数据集的冗余。对于高度冗余的数据集,如备份数据,这项技术尤为有效,可以实现10比1至50比1的数据缩减,使得备份更高效、...

重复数据删除恢复

在数据恢复过程中,你可能需要的数据并不总是整齐地排列在磁盘的连续区域,甚至可能存在于尚未进行重复删除的备份中。当备份数据过期或空间被释放,会形成存储碎片,这无疑延长了恢复的时间。由于数据及其指针可能无序存储,被删除的重复数据也会产生碎片,从而影响恢复效率。一些备份和存储系统供应商已经预见...

NetApp 全闪存数据存储阵列 AFF A 系列:智能、至强、至信

AFF A 系列系统支持采用多流写入技术的固态驱动器 (SSD),与高级 SSD 分区功能相结合,无论您存储何种类型的数据,均能提供最大可用容量。精简配置、NetApp Snapshot 副本以及重复数据删除、数据压缩和数据缩减等实时数据精简功能,可节省大量额外的空间且丝毫不会影响性能,让您购买尽可能少的存储容量。 NetApp 构建的...

存储器存储器优化措施

零性能影响意味着选择的数据缩减技术不会影响关键组件如数据库的性能。主存储去重通过建议仅对轻I/O工作负载进行去重,避免性能瓶颈。实时压缩系统实时压缩所有数据,不仅节省存储容量,还能提高存储性能。主存储去重实现包括数据库在内的所有数据容量节省。高可用性是主存储解决方案的必备要求,确保读取数据的...

无损压缩算法是什么样的

无损压缩算法是一种独特的数据压缩技术,其核心理念在于识别并消除数据中的统计冗余,以便发送方能以更紧凑的形式传输信息。与图像压缩中的有损处理不同,无损压缩法确保了接收方接收到的数据与原始数据完全一致,没有任何失真。然而,由于其压缩效率相对较低,通常只能将数据缩减一小部分,例如,大约只会...

压缩是什么

压缩是一种数据处理过程。压缩是一种通过特定算法将文件、数据或信息进行缩减的技术。其主要目的是减少数据所占用的存储空间,以便于存储和传输。压缩过程中,原始数据经过算法处理,去除其中的冗余信息,从而减小文件大小。压缩后的数据在解压缩后能够完全还原为原始数据。压缩技术广泛应用于文件存储、数据传输...

什么是对数据重新进行编码以减少所需存储空间的通用术语

以减少所需存储空间的通用术语。A.数据编码,B.数据展开,C.数据压缩,D.数据计算。答案是C.数据压缩。数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

Data Domain和Avamar到底有什么不同?

这些数据都是存储在主机上,这种情况下可以采用基于主机的重复数据删除。 2) 以重复数据删除所采用的技术来划分: 1. 文件级别的除重:删除重复的文件,一般采用hash或逐个字节比较的方法;比如EMC Celerra 的除重技术。 2. 固定块除重:先把文件进行固定大小的切块,...

数据压缩利用了数据的什么性 数据压缩的基本方法有两种 数据压缩是什么 数据压缩原理是什么 数据压缩分为有损压缩 为什么数据压缩如此重要 数据压缩只有在数据存在 数据压缩技术有哪些 数据压缩分为两种类型
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
上海大名城映_有多少户? 英特尔处理器漏洞有哪些害? 英特尔漏洞都会影响哪些CPU?下一代还会影响吗? cpu使用率100%是怎么回事呀? 生姜红茶减肥法骗局 鲁东大学大一新生电话卡是用的学校发的联通卡吗? 鲁东大学用移动的多还是用联通的多?求师哥师姐们解答 ...牙齿一碰到溃疡就疼,治疗口腔溃疡的偏方有哪些呢? 我想找一个飞车情侣名字,我有车队,车队名字是丿茗门丨灬 梦幻悟空传变态版安卓APK 如果支付宝,微信冻结了,赚了钱该怎么收 银手镯上有a9999什么意思刚去买了个银手镯拿回来有人说是假的 银9999是什么意思? 我买了一个银镯子.镯子里面刻着A9999是什么意思?请问是真银? 如何注销win10的开机登陆界面 去哪网订的机票显示:订单状态:支付成功等待出票 请问一般多久出票,会发信息通知吗 网上购买飞机票,出票短信显示到达时间吗? 机票订购成功收到的短信是什么样的内容。有人有吗?发我一下。 对不起 请问一下 我在网站预订机票但是没有乘坐的话 在飞机起飞之后会发信息通知我吗? 我昨天买了两张机票怎么没有收到短信? 在网上订了机票,网页上显示出票完成,有票号,但是没有收到短信通知,这样有问题吗? PR编辑好啦视频压缩怎么设置参数?用插件吗? fraps录制后的视频编辑 支付宝订机票成功后一般多久发短信通知 为什么我买了机票没有短信通知 机票订单 成功有什么 提示没有 比如短信通知什么的 请教有哪些好用的视频转换软件 在“飞猪”上订了中国东方航空的飞机票,好几天了也没有消息告知出票成功怎么回事?_百度问一问 视频(纯)压缩软件 AVI视频压缩软件哪个好 银手镯上有a9999什么意思刚去买了个银手镯拿 如何用C++实现文件的 压缩,解压缩 ag999是什么银 支付宝和微信银行卡都被冻结了手机上的网贷怎么样扣款? 压缩技术的数据压缩 手镯上的Ag9999是什么意思 sqlsever怎么进行数据库压缩 银币上ag9999是什么意思 生银和熟银有什么区别 数据压缩的介绍 怎样实现将备份的数据库文件压缩和解压缩? 接口测试用例的编写要点有哪些? 如何给接口用例定级 ? [转]如何设计接口测试用例 短信接口的用例 【接口测试】接口测试用例什么时间段开始设计? 邮政可以代款吗 9斤等于多少升? 9kg防冻液是多少升 9公斤多少升