数据挖掘的分析方法可以划分为关联分析、序列模式分析、分类分析和聚类分析四种。如果需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,这种分析方法属于( )。
- A.关联分析
- B.序列模式分析
- C.分类分析
- D.聚类分析
正确答案及解析
正确答案
解析
本题考查数据挖掘基础知识。
数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。无论采用哪种技术完成数据挖掘,从功能上可以将数据挖掘的分析方法划分为四种,即关联分析、序列模式分析、分类分析和聚类分析。
①关联分析(Associations):目的是为了挖掘出隐藏在数据间的相互关系。若设R={A1,A2,…,AP}为{0,1}域上的属性集,r为R上的一个关系,关于r的关联规则表示为X→B,其中X∈R,B∈R,且x∩B=?。关联规则的矩阵形式为:矩阵r中,如果在行X的每一列为1,则行B中各列趋向于为1。在进行关联分析的同时还需要计算两个参数,最小置信度(Confidence)和最小支持度(Support)。前者用以过滤掉可能性过小的规则,后者则用来表示这种规则发生的概率,即可信度。
②序列模式分析(Sequential Patterns):目的也是为了挖掘出数据之间的联系,但它的侧重点在于分析数据间的前后关系(因果关系)。例如,将序列模式分析运用于商业,经过分析,商家可以根据分析结果发现客户潜在的购物模式,发现顾客在购买一种商品的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。
③分类分析(Classifiers):首先为每一个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。这些描述可能是显式的,如一组规则定义;也可能是隐式的,如一个数学模型或公式。
④聚类分析(Clustering):聚类分析法是分类分析法的逆过程,它的输入集是一组未标定的记录,即输入的记录没有作任何处理。目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类剔。
在实际应用的DM系统中,上述四种分析方法有着不同的适用范围,因此经常被综合运用。
包含此试题的试卷
你可能感兴趣的试题
一台主机的IP地址为202.123.25.36,掩码为255.255.254.0。如果该主机需要在该网络进行直接广播,那么它应该使用的目的地址为( )
-
- A.202.123.25.0
- B.202.123.25.255
- C.202.123.24.0
- D.202.123.24.255
- 查看答案
在计算机系统的日常维护工作中,应当注意硬盘工作时不能__(2)__。另外,需要防范病毒,而__(3)__是不会被病毒感觉的。
-
- A.电子邮件
- B.硬盘
- C.U盘
- D.ROM
- 查看答案
有 4 个 IP 地址:201.117.15.254、201.117.17.01、201.117.24.5 和 201.117.29.3,如果子网掩码为 255.255.248.0,则这 4 个地址分别属于3个子网;其中属于同一个子网的是()
-
- A.201.117.15.254 和 201.117.17.01
- B.201.117.17.01 和 201.117.24.5
- C.201.117.15.254 和 201.117.29.3
- D.201.117.24.5 和 201.117.29.3
- 查看答案
在异步通信中,每个字符包含1位起始位、7位数据位、1位奇偶位和1位终止位,每秒钟传送200个字符,采用4相位调制,则码元速率为()。
-
- A.50波特
- B.500波特
- C.550波特
- D.1000波特
- 查看答案
在 Windows 中,运行( )命令得到下图所示结果。以下关于该结果的叙述中,错误的是( )。
Pinging 59.74.111.8 with 32 bytes of data:
Reply from 59.74.111.8: bytes=32 time=3ms TTL=60
Reply from 59.74.111.8: bytes=32 time=5ms TTL=60
Reply from 59.74.111.8: bytes=32 time=3ms TTL=60
Reply from 59.74.111.8: bytes=32 time=5ms TTL=60
Ping statistics for 59.74.111.8:
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss),
Approximate round trip times in milli-seconds:
Minimum = 3ms, Maximum = 5ms, Average = 4ms
-
- A.该命令使得本地主机向目标主机发送了 4 个数据包
- B.本地主机成功收到了目标主机返回的 4 个数据包
- C.本地主机与目标主机连接正常
- D.该命令用于查看目标主机的 IP 地址
- 查看答案