中文(简体)语言的数据挖掘问题

中文(简体)语言的数据挖掘问题

这些多项选择数据挖掘问题和答案将帮助您更好地理解数据挖掘主题。 使用这 100 多个 MCQ 数据集合为您的下一次考试或面试做准备。
向下滚动以从答案开始。

1: 哪个行业可以从数据挖掘中受益?

A.   所有这些

B.   零售

C.   制造业

D.   财务/银行

2: 神经网络从哪个层开始?

A.   输出层

B.   隐藏层

C.   透明层

D.   输入层

3: 代码部分的更改可能会导致______________数据的问题。

A.   不一致

B.   肮脏的

C.   非整合

D.   粒状

4: 在神经网中,拓扑指的是什么?

A.   集合中的变量范围

B.   使用的节点数量

C.   数据的图形可视化

D.   层数和每个层中的节点数量

5: 以下哪种聚类算法可以找到任意形状的簇?

A.   单链接

B.   DSBSCAN

C.   这两个

D.   都不是

6: 决策树能够处理丢失的值,而无需使用任何算法转换。对或错?

A.   错误的

B.   真的

7: A(n)_____算法创建了描述事件一起发生的频率的规则。

A.   chaid

B.   人造的

C.   修剪

D.   联想

8: 以下哪项是有效的XML?

A.   <身体答案="有效">/lt;/body>

B.   <有效>/lt;/valive>

C.   <有效>""</有效>

D.   所有人都是有效的

9: 以下哪项不是关系数据库?

A.   上述所有的

B.   Apache Cassandra

C.   Google Big Table

D.   mongodb

10: 什么是数据可视化?

A.   存储在服务器中的数据行为的技术术语

B.   数据结果的结构化和发展的预测

C.   多维数据中复杂关系的视觉解释

11: 什么是KDD过程?

A.   差解

B.   通过高冲击尺寸测量的knoop-hardness

C.   数据库中的知识发现

D.   K-均值数据发现

12: 以下哪种不是分析软件类型:

A.   所有都是有效类型

B.   神经网络

C.   统计

D.   机器学习

13: 对或错?经济指标是外部数据因素。

A.   错误的

B.   真的

14: 以下哪个学科重叠数据挖掘?

A.   上述所有的

B.   人工智能

C.   统计数据

D.   语言学

15: 在预测模型中,要预测的值或类称为:

A.   依赖

B.   所有这些

C.   回复

D.   目标变量

16: 您是零售银行的信用风险经理。有关客户的一些信息可用于分析。基于这些数据,您必须决定一个人将是好或坏客户。为此问题选择适当的数据挖掘任务。

A.   分类

B.   回归

C.   分割

17: 分组为关系和偏好的数据项称为:

A.   可预测的集

B.   前线组织

C.   拟合度

D.   集群

18: 什么是决策树?

A.   合格数据科学家生成的复杂报告

B.   可以使用超立方体浏览器创建的层次尺寸

C.   组织未收集的数据,例如从参考书中获得的数据

D.   为数据集的分类生成规则的结构

19: 哪些流行的数据挖掘方法?

A.   关系学习模型

B.   决策树和规则

C.   所有这些

D.   概率图形依赖模型

20: false吗?松散的耦合数据挖掘体系结构主要用于基于内存的数据挖掘系统,这些系统不需要高可扩展性和高性能。

A.   错误的

B.   真的

21: 什么是Crisp-DM?

A.   1980' s开发的决策树,但几乎完全被今天的购物车方法取代

B.   一种预测电子商务购买习惯的六阶段方法

C.   Microsoft' S线性回归算法

D.   数据挖掘的跨行业标准过程

22: 神经网中节点使用的函数将输入数据从任何值域转换为有限值范围的函数,称为A(n):

A.   先例

B.   激活功能

C.   混淆矩阵

D.   卡方

23: 对或错?购物车中的测试总是二进制的。

A.   真的

B.   错误的

24: 两个随机变量一起变化的量度是什么?

A.   二进制标准偏差

B.   协方差

C.   多收入

D.   随机惯性

25: 以下哪一个是顺序模式关系的示例?

A.   利用商业经验和直觉在杂货店设计新的平面图

B.   根据性能分析,重组您的篮球队的首发阵容

C.   将两个经常购买的物品彼此放在架子上

D.   预测基于消费者购买睡袋和远足鞋的可能性的可能性

26: 国际公司的年收入与其他属性(如广告,汇率,通气率等)相关。具有这些价​​值(或明年的可靠估计),该公司必须计算明年的预期收入。为此问题选择适当的数据挖掘任务。

A.   分割

B.   分类

C.   回归

27: 数据挖掘体系结构的前端是什么?

A.   直观且用户友好的用户界面

B.   为保护数据免受恶意来源而建立的防火墙

C.   专门为存储大量数据而设计的硬件

D.   设计在特定采矿项目中使用的软件的程序员团队

28: 超平面是

A.   决策边界分离数据类别

B.   C4.5算法的变体

C.   收集链接的超文本文件

D.   非终止误差条件

29: 组织未收集的数据,例如专有数据库的数据,与组织自己的数据相结合的数据被称为:

A.   覆盖

B.   过度拟合

C.   噪音

D.   不适用的日期

30: 其中哪一个不被视为内部数据因素?

A.   价格

B.   经济低迷

C.   员工技能

D.   产品定位

31: 哪些数据挖掘技术将一组数据集成到预定义的组中?

A.   顺序图案

B.   聚类

C.   分类

D.   游戏化

32: (通常是图形)哪些变量彼此依赖的模型级别。

A.   结构层

B.   定性水平

C.   初级级别

D.   定量水平

33: 为了提高您对整个人群的分类状态表现的信心,您应该:

A.   减小培训数据集的大小

B.   增加培训数据集的大小

C.   增加测试数据集的大小

D.   减小测试数据集的大小

34: 为Google搜索引擎提供动力的算法是:

A.   adaboost

B.   Brin-page方法

C.   GoogleCrawler

D.   网页排名

35: 在两个变量之间的关联中,先决条件与随之而来的差异是什么?

A.   先例始终是一个非常复杂的变量

B.   没事,它们可以互换

C.   先例在右边,因此在左侧。

D.   先例在左侧,右边是

36: 在对时间序列数据的分析中,给定时间段的平均值(通常是过去的某个间隔)称为a(n)

A.   部分平均水平

B.   公正的平均值

C.   复合平均值

D.   移动平均值

37: 什么是回归?

A.   学习将数据项映射到几个预定义组之一中的函数。

B.   语言中描述事实的语言中的表达式E。

C.   一个描述性的任务,它试图确定有限的类别来描述数据。

D.   学习将数据项映射到实价预测变量的函数。

38: 什么是依赖性建模?

A.   修改后涉及数据准备,模式搜索,知识评估和改进的多步骤过程。

B.   学习将数据项映射到几个预定义的组或集群之一中的函数。

C.   查找描述变量之间重要依赖性的模型的过程

D.   一个由数据库中所有变量/字段的联合多变量概率密度函数估算的技术。

39: 哪个不是对层的常见描述?

A.   隐

B.   输入

C.   输出

D.   功能

40: 碎片指的是:

A.   数据库中的噪声的度量

B.   将数据库分配用于在不同服务器上分发

C.   同时通过SSH访问多个对象数据库

D.   以上都不是

41: 什么是变化和偏差检测?

A.   一项重点是从先前测量或规范值发现数据中最重大变化的任务

B.   为数据子集找到紧凑描述的方法。

C.   查找描述变量之间重要依赖性的模型的过程

D.   一个由数据库中所有变量/字段的联合多变量概率密度函数估算的技术。

42: 驱动Amazon.com推荐系统的数据挖掘类型是什么?

A.   模糊逻辑

B.   协会学习

C.   异常检测

D.   聚类算法

43: 以下哪种算法通常适用于无监督的学习任务?

A.   受限的玻尔兹曼机器

B.   信息模糊网络

C.   k-near最邻居

D.   K-均值算法

44: 以下哪些存储解决方案最适合半结构化数据集,其成员并不具有相同的属性?

A.   mongodb

B.   sqlite

C.   mysql

D.   Mariadb

45: 为了在整个人群中估算分类表现,您需要_______

A.   (都不是)

B.   分离训练

C.   测试数据集

D.   分离培训和测试数据集

46: 概括错误是

A.   过度

B.   参数分析

C.   不足

D.   切尔诺夫的定义不佳

47: 以下哪种是进化计算方法?

A.   启发式算法

B.   贝叶斯推论算法

C.   遗传算法

D.   聚类算法

48: 支持向量机比神经网络具有优势,因为SVM是

A.   以上都不是

B.   通过在线学习更容易训练

C.   对局部最小收敛更具抵抗力

D.   参数

49: 以下哪个不是常见的源系统?

A.   节点

B.   SAP源

C.   UDC

D.   DB连接

50: 基于历史数据集中最相似的k记录类的组合,将数据集中的每个记录进行分类的技术是:

A.   最近的邻居

B.   逻辑回归

C.   协会模型查询

D.   决策树