0
用户访问量
0
注册用户数
0
在线视频观看人次
0
在线实验人次

PowerDrill数据编码的优化

作者：云创智学|发布时间：2022-06-10 14:48:35.0|来源：云创智学

对于不同的块，如果我们可以确定块中不同值的数量，那么就可以根据这个数量值来选择可变的比特位来记录块id

统计一组数中不同值的个数有一个专有名词，称为“基数估计”

对于小规模的数据集，可以比较容易地统计出精确的基数。但是在大数据的环境下，精确的基数统计非常耗时，因此能保证一定精度的基数估计就可以满足实际的需求。

基数估计的方法很多，大多利用了散列函数的一些特性，Google内部使用的是一种称为Hyperloglog的基数估计方法的变种。

友情链接