背景¶
所谓的海量数据是指海量数据的存储、处理和操作。正是因为数据量太大,所以导致要么无法在短时间迅速完成,要么无法一次性载入内存。
数据去重(data deduplication)是大数据领域司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更在于消除不可靠数据源产生的脏数据——即重复上报数据或重复投递数据的影响,使计算产生的结果更加准确。
参考文献¶
- 博客园,大数据去重(data deduplication)方案,2021
- GitBook,第六章 海量数据处理
所谓的海量数据是指海量数据的存储、处理和操作。正是因为数据量太大,所以导致要么无法在短时间迅速完成,要么无法一次性载入内存。
数据去重(data deduplication)是大数据领域司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更在于消除不可靠数据源产生的脏数据——即重复上报数据或重复投递数据的影响,使计算产生的结果更加准确。