商务智能期末考试整理

由天下分享时间：2024/5/19 14:37:59 加入收藏我要投稿点赞

v1.0 可编辑可修改 ?决策者感兴趣的是什么问题 ?分析问题时的各种观察角度； ?这些问题需要什么样的信息 ?描述事实及观察角度的属性。 ?要得到这些信息需要包含哪些数据 3 分析问题的维度

市场经理：产品种类、时间、销售地区、销售渠道等。

市场部部长：时间、地区、客户统计特征、分销机构、产品型号等。财务经理：预算、时间、地区 4 信息包图（用户信息需求表）

某连锁旅馆入住情况（核心问题是客房的使用量）维度包括：客房类型，旅馆，时间

关键指标：已占用客房，空房间，不可用房间，入住人数，收入等。

对维度客房类型的分析：房间类型，房间大小，床位数，床位类型，最多容纳人数，套房家具，冰箱，厨房等。

对维度旅馆的分析：分支机构代码，分支机构名称，国家，省份，地区，城市，建设年份，修缮年份等。

对维度时间的分析：年份，季度，月份，星期几，日期，假日标准等。

5 数据仓库项目的开发过程：项目规划，需求分析，概念设计，ETL设计，逻辑和物理设计，实现与培训。第六讲 OLAP

1 多维数据库（MOLAP）与关系数据库（ROLAP）在存储上的不同 6

v1.0 可编辑可修改对关系数据库来说，任何数据集均用二维表来存放；对多维数据库也是用二维表来存放的，但其存放方式和效率不同。

– 若增加汇总，存储空间的占用情况也不同。

– 若增加一个时间维——季度，采用关系数据库存储时仍使用二维表，多维数据库则采用数据立方体这样的三维数组来存储。 2 MOLAP与ROLAP的特征

一般情况，MOLAP和ROLAP的选择主要看应用的规模。若要建立功能复杂、规模较大的企业级数据仓库，则一般选择ROLAP方式；若是建立功能单一、小型的数据集市则更适合采用MOLAP方式。第七讲 DM的概述 1 产生DM的原因：

A:数据挖掘技术产生的动力：数据爆炸问题；数据过量而知识贫乏（新理论、新材料、新工艺、新方法的不断出现，使知识老化的速度加快。） B:从商业数据到商业信息的进化

C:实施数据挖掘的目的: 不再是单纯为了研究，更主要的是为商业决策提供真正有价值的信息，进而获得利润。所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此需要从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也由此而得名。 2 数据挖掘与信息处理、知识发现 7

v1.0 可编辑可修改 – 数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。

– 信息处理基于查询，可以发现有用的信息。但是这种查询回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。

– 知识发现(Knowledge Discovery in Databases)是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。 3 数据挖掘与数据仓库的区别联系

– 数据挖掘是数据仓库发展的必然结果。– 数据仓库为数据挖掘提供应用基础： ? 大多数数据挖掘工具要在集成的、一致的、经过清理的数据上进行挖掘；

? 数据仓库构造过程中已组建了数据处理和数据分析的基础设施，数据挖掘可借此进行，不必重新组建基础设施；

? 数据仓库中的OLAP完全可为数据挖掘提供有关的数据操作支持；

? 在数据挖掘中，如果将数据挖掘与数据仓库进行有效地联结，将增加数据挖掘的联机挖掘功能。

4 数据挖掘与OLAP

– OLAP分析过程在本质上是一个演绎推理的过程，是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened)，OLAP则更进一步告诉你下一步会怎么样(What next)和如果采取这样的措施又会怎么样(What if)。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。

– 数据挖掘在本质上是一个归纳推理的过程，与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式(模型)的正确性，而是在数据库中自己寻找模型。

– 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前，OLAP工具能起辅助决策作用。而且在知识发现的早期阶段，OLAP工具用来探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量。这都有助于更好地理解数

v1.0 可编辑可修改据，加快知识发现的过程。 5 数据挖掘的应用

? 银行 – 分析客户使用分销渠道的情况和分销渠道的容量；建立利润评测模型；客户关系优化；风险控制等

? 电子商务 – 网上商品推荐；个性化网页；自适应网站?

? 生物制药、基因研究 – DNA序列查询和匹配；识别基因序列的共发生性 ? ? 电信 – 欺诈甄别；客户流失? ? 保险、零售……

决策树 ? 倾向性分析聚类分析 ? 客户细分? 市场细分关联分析 ? 市场组合分析? 套装产品分析? 目录设计? 交叉销售神经网络 ? 倾向性分析? 客户保留? 目标市场? 欺诈检测

6 DW解决的商业问题：推荐信息的生成，异常检测，客户流失分析，风险管理，客户细分，广告定位，预测。第八讲数据挖掘的过程

1 数据挖掘可以为公司提供哪些帮助，如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务。

(1) 使用聚类发现互联网中的不同群体，用于网络社区发现；

(2) 使用分类对客户进行等级划分，从而实施不同的服务； (3) 使用关联规则发现大型数据集中间存在的关系，用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”，那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。 (4) 使用离群点挖掘发现与大部分对象不同的对象，用于分析针对网络的秘密收集信息的攻击。 CRISP-DM六阶段

–商业理解：确定业务目标、评估商业环境、确定数据挖掘目标、提出项目计划 – 数据理解：收集原始数据、描述数据、探索数据、检查数据质量 – 数据准备：数据选择、数据清洗、数据创建、数据合并、数据格式化 – 建模：选择建模技术、测试方案设计 – 评估：结果评估、过程回顾、确定下一步工作 9

v1.0 可编辑可修改 – 部署：部署计划、监控和维护计划、做出最终报告、项目回顾四层次：阶段划分、定义通用任务、定义专用任务、处理实例

上两层独立于具体数据挖掘方法，是一般数据挖掘项目均需实施的步骤(这解决了“WHAT TO DO”的问题)。这两层的任务将结合具体数据挖掘项目的“上下文”(CONTEXT)映射到下两层的具体任务和过程。下两层注重解决如何完成每个阶段所要完成的任务和任务的输出所要求的必要映射活动(这用于解决“HOW TO DO”的问题)。

第九讲关联分析

例1：通过统计用户主叫号码的业务使用情况，进行业务的关联分析。设有10项业务，记0—语音信箱，…，5—移动秘书，6—信息点播，…，9—呼叫转移，统计10个主叫号码及使用业务如下表所示。

主叫号码使用业务类型主叫号码使用业务类型 0,5,6,7 1,2,3,6 1,5,6,7 4,5,6,9 1,4,7 0,2,3 8,7,9 4,5,7,8 0,1,2,5,6 3,6,7

设A为业务5，B为业务6，T为事务总数(主叫号码统计数)，则业务AB出现的支持度为P(A ∪B)=AB出现次数/事务总数T=4/10=

对于具有支持度的项集AB，规则A→B的可信度为P(B|A)=P(AB)/P(A)=(4/10)/(5/10)== 同理，规则B →A的可信度为P(A|B)=P(AB)/P(B)==

若用户给出的最小可信度为，最小支持度为，则项集AB满足最小支持度，是二项频繁集，规则A→B，B →A两条规则满足最小可信度

Apriori算法过程（基本思想:频繁项集的任何子集也一定是频繁的。） (1)制定最小支持度及最小置信度；

(2)Apriori算法使用候选项集的概念，首先扫描数据库产生候选项目集，若候选项目集的