• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

PowerDrill数据编码的优化

作者:云创智学|发布时间:2022-06-10 14:48:35.0|来源:云创智学

对于不同的块,如果我们可以确定块中不同值的数量,那么就可以根据这个数量值来选择可变的比特位来记录块id


统计一组数中不同值的个数有一个专有名词,称为“基数估计”

对于小规模的数据集,可以比较容易地统计出精确的基数。但是在大数据的环境下,精确的基数统计非常耗时,因此能保证一定精度的基数估计就可以满足实际的需求。

基数估计的方法很多,大多利用了散列函数的一些特性,Google内部使用的是一种称为Hyperloglog的基数估计方法的变种。

联系方式
企业微信