商务智能期末考试整理

由天下分享时间：2024/5/19 15:06:16 加入收藏我要投稿点赞

v1.0 可编辑可修改支持度≥最小支持度，则该候选项集合为频繁项集；

(3)在Apriori算法的过程中，首先由数据库读入所有的事务数据，得出候选1_项集合C1及相应的支持度数据，通过将每个1_项集合的支持度与最小支持度比较，得出频繁1_项集合L1，然后将这些频繁1_项集两两进行连接，产生候选2_项集合C2；

(4)然后再次扫描数据库得到候选2_项集合C2的支持度，将2_项集的支持度与最小支持度比较，确定频繁2_项集L2，类似地，利用这些频繁2_项集产生候选3_项集和确定频繁3_项集，以此类推；

(5)反复扫描数据库与最小支持度比较，产生更高项的频繁项集合，再结合产生下一级候选项集，直到不再结合产生出新的候选项集为止。

例2：假定最小支持度是2，最小置信度为50%，求大项集。

v1.0 可编辑可修改

第十讲分类

1 熵（Entropy）：针对一个给定的属性(可预测属性)找出一个数学公式，来度量数据集的纯度。

2 ID3算法构建决策树 Step1：建立相关性计数表

Step2：选择一个属性，然后在根层次进行拆分。

v1.0 可编辑可修改

例：

3 从树中生成分类规则

– 用 IF-THEN 这种形式来表示规则 – 对从根到叶节点的每条路径创建一条规则 – 沿着一条路径的每个属性值对构成“并”连接 – 叶子节点中的类别就是所预测的类 – 规则更容易被人们理解 4 决策树相关问题 – 理想的决策树有三种

v1.0 可编辑可修改 (1)叶子结点数最少；? (2)叶子结点深度最小；? (3)叶子结点数最少且叶子结点深度最小。 – 分类模型的误差分为

? 训练误差(Training Error)：是在训练记录上误分类样本比例； ? 泛化误差(Generalization Error)：模型在未知记录上的期望误差。

– 一个好的模型不仅要能够很好地拟合训练数据，而且对未知样本也要能够准确地分类。 – 一个好的分类模型必须具有低的训练误差和泛化误差。一个具有低训练误差的模型，其泛化误差可能比具有较高训练误差的模型高。(训练误差低，泛化误差高，称为过渡拟合) – 模型过渡拟合的潜在因素：

(1)噪声导致的过渡拟合：错误的类别值/类标签，属性值等。 (2)缺乏代表性样本所导致的过渡拟合：根据少量训练记录作出的分类

决策模型容易受过渡拟合的影响。由于训练样本缺乏代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会导致过渡拟合。第十一讲聚类分析 1 聚类分析的特征

– 适用于没有先验知识的分类。– 可以处理多个变量决定的分类。 – 聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术。 1 数据矩阵与相异度矩阵的比较

3 层次方法(系统聚类法)

– 层次方法就是通过分解所给定的数据对象集来创建一个层次。分为自下而上(凝聚)14

v1.0 可编辑可修改和自上而下(分裂)两种类型。

? 自下而上的层次方法从每个对象均为一个(单独的)组开始；逐步将这些(对象)组进行合并，直到组合并在层次顶端或满足终止条件为止。

? 自上而下层次方法从所有均属于一个组开始；每一次循环将其(组)分解为更小的组；直到每个对象构成一组或满足终止条件为止。

– 缺陷：合并或分类的步骤不能撤销。

最小距离：又为单链接，是基于来自两个簇中的节点之间的最小距离来衡量两个簇的相似性。合并最小距离最小的两个簇。