大数据处理之倒排索引原理

作者：云创智学|发布时间：2021-11-30 11:37:14.0|来源：云创智学

大数据处理之倒排索引原理：

如果使用一个矩阵来描述词语和文档之间的关系，不难得出如下“矩阵”。其中，每一列代表一个文档，每一行代表一个词语，每一个单元格代表“此文档中出现此词语的次数”。

一、词语和文档的关系：

矩阵中的第一列说明“在文档1中，词语1出现了4次、词语2和词语3均出现了3次，并且文档1中不再有其他词语出现”。同理，矩阵中的第一行则说明“词语1在文档1中出现在4次，在文档4中出现1次，在其他文档中不出现”。其他行列同理。

二、倒排索引的数据结构：

倒排索引可以使用这样一个Map来实现：每一个词语都是Map中的一个键（Key），这个键对应的Value是一个集合，里面保存着包含这个词语的文档的编号。存储形式为：Map< String key, Set< Struct< DocID > value > >。

同理，如果要在倒排索引中加入更多信息，可以在Value中增加记录项目。

三、倒排索引的建立实例：

假设现在有两篇文档，每篇文档的内容如下：

其建立实例的步骤如下：

1.文章本分词

2.去除无关词语

3.词语归一化

4.建立词语-文档矩阵

5.建立到排索引

四、倒排索引的更新策略：

1、完全重建策略

先进行“文档暂存”，待文档暂存区达到一定数量后，对所有文档重新建立索引。

2、再合并策略

新文档会立即被解析，解析结果会进行“索引暂存”，待索引暂存区达到一定数量后，再将新旧索引合并。

3、原地更新策略

新文档立刻被解析，解析结果立刻被加入旧索引中。

4、混合策略

其思想是混合地使用上述几种策略，取长补短，以达到最好的性能。

大数据处理之倒排索引原理

作者：云创智学|发布时间：2021-11-30 11:37:14.0|来源：云创智学

友情链接

关于云创

联系我们

大数据处理之倒排索引原理

作者：云创智学|发布时间：2021-11-30 11:37:14.0|来源：云创智学

推荐课程

大数据与人工智能就业初级班

大数据与人工智能就业高级班

大数据与人工智能就业中级班

人工智能导论

人工智能图像处理应用

大数据分析挖掘实训课

大数据实战能力提升

ChatGPT应用教学

大数据实战能力提升+金牌服务

云计算职业技能竞赛初级课程（视频资源）

大数据平台技术

大数据应用实训工程实战

云计算职业技能竞赛中级课程（带实验平台实战资源）

云计算职业技能竞赛高级资源增强包

云计算职业技能竞赛中级资源增强包

云计算职业技能竞赛初级资源增强包

云计算职业技能竞赛初级课程/（带实验平台实战资源）

友情链接

关于云创

联系我们