技术前沿 - 云创智学

启发式搜索策略的定义和例子

启发式搜索策略的定义和例子：启发式搜索(HeuristicallySearch)又称为有信息搜索(InformedSearch)，它是利用问题拥有的启发信息来引导搜索，达到减少搜索范围、降低问题复杂度的目的，这种利用启发信息的搜索过程称为启发式搜索。启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。这样可以省略大量无谓的搜索路径，提高了效率。如果能够利用搜索过程所得到的问题自身的一些特征信息来指导搜索过程，则可以缩小搜索范围，提高搜索效率。像这样利用问题自身特征信息来引导搜索过程的方法成为启发式方法。启发式策略可以通过指导搜索向最有希望的方向前进，降低了复杂性。通过删除某些状态及其延伸，启发式算法可以消除组合爆炸，并得到令人能接受的解(通常并不一定是最优解)。然而，启发式策略是极易出错的。在解决问题的过程中启发仅仅是下一步将要采取措施的一个猜想，常常根据经验和直觉来判断。由于启发式搜索只有有限的信息(比如当前状态的描述)，要想预测进一步搜索过程中状态空间的具体行为则很难。一个启发式搜索可能得到一个次优解，也可能一无所获。这是启发式搜索固有的局限性。这种局限性不可能由所谓更好的启发式策略或更有效的搜索算法来消除。一般说来，启发信息越强，扩展的无用节点就越少。引入强的启发信息，有可能大大降低搜索工作量，但不能保证找到最小耗散值的解路径(最佳路径)。因此，在实际应用中，最好能引入降低搜索工作量的启发信息而不牺牲找到最佳路径的保证。以下为一个启发式搜索的八数码游戏例子：如图所示，在一个九宫格里面放入8个数字，数字只能上下左右移动，并且只能移动到空白处。通过若干次这样的移动后，把左图数字位置移动成右图数字位置。解决此问题的启发策略：每次移动的时候，正确位置数码的个数要大于交换前正确位置数码个数。正确位置数码的个数是指每个数码的位置与最终格局的对比，如果位置相同，则说明此数码在正确位置。图中红色字体标识的数码为正确位置数码，由此我们可以发现下图中左边初始图案正确位置的数码个数为4个。由下图所示可得，正确位置数码个数大于等于4的只有左下方的格局，那么下一步选择的就是左下方的格局。再次调用次算法如下图所示：这样一步一步地进行，最终即可得到最终格局。

作者：云创智学

来源：云创智学

发布时间：2022-03-14 10:31:11

深度优先搜索

深度优先搜索：深度优先搜索（DepthFirstSearch，DFS）属于图算法的一种。其过程简要来说是对每一个可能的分支路径深入到不能再深入为止，而且每个节点只能访问一次。深度优先搜索所使用的策略就如其名字一样，只要可能，就在图中尽量的深入。深度优先搜素总是对最近才发现的结点V的出发边进行探索，直到该结点的所有出发边都被发现为止。一旦结点V的所有出发边都被发现，搜索则回溯到V的前驱结点（V是经过该点才被发现的），来探索该前驱结点的出发边。该过程一直持续到从源结点可以到达的所有结点都被发现为止。如果还存在尚未发现的结点，则深度优先搜索将从这些未被发现的结点中任选一个作为新的源节点，并重复同样的搜索过程。深度优先遍历图的基本思路是，从图中某顶点V出发：（1）访问顶点V。（2）依次从V的未被访问的邻接点出发，对图进行深度优先遍历；直至图中和v有路径相通的顶点都被访问。（3）若此时图中尚有顶点未被访问，则从一个未被访问的顶点出发，重新进行深度优先遍历，直到图中所有顶点均被访问过为止。下面采用一个示例图来说明这个过程。如图所示，示例图是一个无向图，如果我们从A点发起深度优先搜索（以下的访问次序并不是唯一的，第二个点既可以是B也可以是C，D），则我们可能得到如下的一个访问过程：ABE（没有路了！回溯到A)CFHGD（没有路，最终回溯到A，A也没有未访问的相邻节点，本次搜索结束）。

作者：云创智学

来源：云创智学

发布时间：2022-03-14 10:29:08

宽度优先搜索实例

宽度优先搜索实例：宽度优先搜索（BreadthFirstSearch，BFS）又称广度优先搜索，是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。宽度优先搜索（BreadthFirstSearch，BFS）又称广度优先搜索，是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。所谓广度，就是一层一层的，向下遍历，层层堵截，如对下图3-4进行一次宽度优先遍历的话，我们的结果是：V_1V_2V_3V_4V_5V_6V_7V_81、访问顶点V_i2、访问V_i的所有未被访问的邻接点V_1,V_2,…,V_k。3、依次从这些邻接点（在步骤2中访问的顶点）出发，访问它们的所有未被访问的邻接点，依此类推，直到图中所有访问过的顶点的邻接点都被访问。我们采用另一个示例图来说明这个过程，假设我们需要用宽度搜索的方法找到一条从V_0到V_6的最短的路径（一个节点算一步）。1、在搜索的过程中，初始所有节点是白色（代表了所有点都还没开始搜索），如图3-5(a)所示2、把起点V_0标志成灰色（表示即将探索V_0），如图3-5(b)所示3、下一步搜索的时候，我们把所有的灰色节点访问一次，然后将其变成黑色（表示已经被探索过了）。进而再将它们所能到达的节点标志成灰色（因为那些节点是下一步探索的目标点了），但是这里有个判断，当访问到V_1节点的时候，它的下一个节点应该是V_0和V_4，但是V_0已经在前面被染成黑色了，所以不会将它染灰色（即不会回头去探索它），如图3-5(c)所示4、循环执行步骤3，直到目标节点V_6被染灰色，说明了下一步就到终点了，没必要再搜索（染色）其他节点了，此时可以结束搜索了，整个搜索就结束了，如图3-5(d)所示。然后根据搜索过程，反过来把最短路径找出来，图中把最终路径上的节点标志成绿色，如图3-5(e)所示。

作者：云创智学

来源：云创智学

发布时间：2022-03-14 10:24:40

知识表示方法

知识表示方法：知识表示，就是用某种约定俗成的方式，对知识进行的描述。它可以是一组规则，也可以是一种计算机能接受的用于描述知识的数据结构。知识表示问题，一直就是人工智能研究最活跃的部分之一。在人工智能领域里已经发展了许多种知识表示方法，常用的有：产生式规则、谓词逻辑、语义网络和框架。从其表示特性来考察可归纳为两类：说明型（declarative）表示和过程型（procedural）表示。说明型表示：知识是一些已知的客观事实，实现知识表示时，把与事实相关的知识与利用这些知识的过程明确区分开来，并重点表示与事实相关的知识。过程型表示：知识是客观存在的一些规律和方法，实现知识表示时，对事实型知识和利用这些知识的方法不作区分，使二者融为一体。好的知识表示方法应满足以下几点要求：1）具有良好定义的语法和语义；。2）有充分的表达能力，能清晰的表达有关领域的各种知识。3）便于有效的推理和检索，具有较强的问题求解能力，适合于应用问题的要求，提高推理和检索的效率。4）便于知识共享和知识获取5）容易管理，易于维护知识库的完整性和一致性。

作者：云创智学

来源：云创智学

发布时间：2022-03-14 10:16:16

需求背景及采用的大数据分析方法

需求背景及采用的大数据分析方法：在变压器运行的运行周期中，油温状态是影响变压器运行和负载能力的重要因素。所以变压器油温异常的甄别对变压器及线路的安全运行具有很高的实用价值。为了及时发现变压器油温异常，就需要对变压器平时正常运行时油温的状况有清晰的了解并作为比对基准。采用大数据的方法，通过聚类分析，挖掘出变压器正常运行的油温分布状况，为及时发现油温异常提供了判断依据。把正常运行油温分成几个区间段，分析各区间段的油温出现次数分布，并计算出该区间段的油温次数分布中心点。而根据中心点的偏离程度即阈值作为设备异常的预判是有较大参考价值的。采用聚类K-Means分析方法在Spark集群上实现

作者：云创智学

来源：云创智学

发布时间：2022-03-14 09:46:19

关联规则的评价标准

关联规则的评价标准：在某些特定情况下，仅凭支持度和置信度来衡量一条规则，是完全不够的，对于数据的筛选力度也不足。因此，需要介绍更多的判断强关联规则的评价标准，来满足实际需求。支持度和置信度并不能过成功滤掉那些我们不感兴趣的规则，因此我们需要一些新的评价标准，下面介绍六中评价标准：相关性系数，卡方指数，全置信度、最大置信度、Kulc、cosine距离。1、相关性系数lift引入正相关和负相关的机制，对于不是正相关的商品规则，可以用相关性系数lift过滤掉。对于规则A->B或者B->A，lift(A,B)=P(A∩B)/(P(A)*P(B))，如果lift(A,B)>1表示A、B呈正相关，lift(A,B)<1表示A、B呈负相关，lift(A,B)=1表示A、B不相关（独立）。实际运用中，正相关和负相关都是我们需要关注的，而独立往往是我们不需要的，两个商品都没有相互影响也就是不是强规则，lift(A,B)等于1的情形也很少，一般只要接近于1，便认为是独立了。2、卡方系数卡方分布是数理统计中的一个重要分布，利用卡方系数我们可以确定两个变量是否相关。卡方系数的定义：3、全置信度all_confidence全置信度的定义如下：all_confidence(A,B)=P(A∩B)/max{P(A),P(B)}=min{P(B|A),P(A|B)}=min{confidence(A->B),confidence(B->A)}4、最大置信度max_confidence最大置信度则与全置信度相反，求的不是最小的支持度而是最大的支持度，max_confidence(A,B)=max{confidence(A->B),confidence(B->A)}，不过感觉最大置信度不太实用。5、KulcKulc系数本质上是对两个置信度做一个平均处理，公式为：kulc(A,B)=(confidence(A->B)+confidence(B->A))/2。6、cosine距离cosine(A,B)=P(A∩B)/sqrt(P(A)*P(B))=sqrt(P(A|B)*P(B|A))=sqrt(confidence(A->B)*confidence(B->A))

作者：云创智学

来源：云创智学

发布时间：2022-03-11 10:19:49

强关联规则定义是什么

强关联规则定义是什么：生成关联规则是指通过用户给定的最小可信度，在每个最大频繁项集中，寻找可信度不小于Minconfidence的关联规则。得到频繁项目集之后，则需要从频繁项目集中找出符合条件的关联规则。最简单的办法是：遍历所有的频繁项目集，然后从每个项目集中依次取1、2、...k个元素作为后件，该项目集中的其他元素作为前件，计算该规则的置信度进行筛选即可。这样的穷举效率显然很低。假如对于一个频繁项目集f，可以生成下面这样的关联规则：（f-β）->β

作者：云创智学

来源：云创智学

发布时间：2022-03-11 10:15:44

关联规则分类有哪些

关联规则分类有哪些：1、基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。2、基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。3、基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

作者：云创智学

来源：云创智学

发布时间：2022-03-11 10:14:25

关联规则的定义是什么

关联规则的定义是什么：关联规则（Associationrule）：指从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。关联分析（Associationanalysis）：用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。一般地，关联规则挖掘问题可以划分成两个子问题：1、发现频繁项目集通过用户给定的Minsupport，寻找所有频繁项目集，即满足Support不小于Minsupport的项目集。事实上，这些频繁项目集可能具有包含关系。一般地，我们只关心那些不被其它频繁项目集所包含的所谓频繁大项集的集合。这些频繁大项集是形成关联规则基础。2、生成关联规则通过用户给定的Minconfidence，在每个最大频繁项目项目集中，寻找Confidence不小于Minconfidence的关联规则。这两个子问题主要在4.3节中进行介绍。

作者：云创智学

来源：云创智学

发布时间：2022-03-11 10:13:17

关联规则的基本概念

关联规则的基本概念：1、项（Item）、项集（Itemset）、k-项集与事务项：是指数据库中不可分割的最小单位。项集：是指多个项的集合，其中，空集是指不包含任何项的项集。k-项集：是指由k个项构成的项集组合。事务：是指用户定义的一个数据库操作序列，这些操作序列是一个不可分割的工作单位。2、频繁项集（FrequentItemset）频繁项集：是指在所有训练元组中同时出现的次数，超过人工定义的阈值的项集。在关联规则的挖掘过程中，一般只保留候选项集中满足支持度条件的项集，不满足条件的舍弃。3、极大频繁项集（FrequentLargeItemset）极大频繁项集：不存在包含当前频繁项集的频繁超集，则当前频繁项集就是极大频繁项集。4、支持度（Support）支持度：是指项集在所有训练元组中同时出现的次数，因此，支持度可以表述为Support(X->Y)=|XUY|/|N|。其中，X，YN，X∩Y=Ф，|XUY|表示集合X与Y在一个事务中同时出现的次数，|N|表示数据记录的总个数。5、置信度（Confidence）置信度可以表述为：Confidence(X->Y)=|XUY|/|X|=Support(X->Y)/Support（X），其中，X，YN，X∩Y=Ф，|XUY|表示集合X与Y在一个事务中同时出现的次数，|X|表示X出现的总次数。

作者：云创智学

来源：云创智学

发布时间：2022-03-11 10:12:09

关于云创

联系我们