中文(简体)语言的数据挖掘问题

中文(简体)语言的数据挖掘问题

这些多项选择数据挖掘问题和答案将帮助您更好地理解数据挖掘主题。 使用这 100 多个 MCQ 数据集合为您的下一次考试或面试做准备。
向下滚动以从答案开始。

1: 哪个行业可以从数据挖掘中受益?

A.   所有这些

B.   零售

C.   制造业

D.   财务/银行

2: 神经网络从哪个层开始?

A.   输出层

B.   隐藏层

C.   透明层

D.   输入层

3: 代码部分的更改可能会导致______________数据的问题。

A.   不一致

B.   肮脏的

C.   非整合

D.   粒状

4: 在神经网中,拓扑指的是什么?

A.   集合中的变量范围

B.   使用的节点数量

C.   数据的图形可视化

D.   层数和每个层中的节点数量

5: 以下哪种聚类算法可以找到任意形状的簇?

A.   单链接

B.   DSBSCAN

C.   这两个

D.   都不是

6: 决策树能够处理丢失的值,而无需使用任何算法转换。对或错?

A.   错误的

B.   真的

7: A(n)_____算法创建了描述事件一起发生的频率的规则。

A.   chaid

B.   人造的

C.   修剪

D.   联想

8: 以下哪项是有效的XML?

A.   <身体答案="有效">/lt;/body>

B.   <有效>/lt;/valive>

C.   <有效>""</有效>

D.   所有人都是有效的

9: 以下哪项不是关系数据库?

A.   上述所有的

B.   Apache Cassandra

C.   Google Big Table

D.   mongodb

10: 什么是数据可视化?

A.   存储在服务器中的数据行为的技术术语

B.   数据结果的结构化和发展的预测

C.   多维数据中复杂关系的视觉解释

11: 什么是KDD过程?

A.   差解

B.   通过高冲击尺寸测量的knoop-hardness

C.   数据库中的知识发现

D.   K-均值数据发现

12: 以下哪种不是分析软件类型:

A.   所有都是有效类型

B.   神经网络

C.   统计

D.   机器学习

13: 对或错?经济指标是外部数据因素。

A.   错误的

B.   真的

14: 以下哪个学科重叠数据挖掘?

A.   上述所有的

B.   人工智能

C.   统计数据

D.   语言学

15: 在预测模型中,要预测的值或类称为:

A.   依赖

B.   所有这些

C.   回复

D.   目标变量

16: 您是零售银行的信用风险经理。有关客户的一些信息可用于分析。基于这些数据,您必须决定一个人将是好或坏客户。为此问题选择适当的数据挖掘任务。

A.   分类

B.   回归

C.   分割

17: 分组为关系和偏好的数据项称为:

A.   可预测的集

B.   前线组织

C.   拟合度

D.   集群

18: 什么是决策树?

A.   合格数据科学家生成的复杂报告

B.   可以使用超立方体浏览器创建的层次尺寸

C.   组织未收集的数据,例如从参考书中获得的数据

D.   为数据集的分类生成规则的结构

19: 哪些流行的数据挖掘方法?

A.   关系学习模型

B.   决策树和规则

C.   所有这些

D.   概率图形依赖模型

20: false吗?松散的耦合数据挖掘体系结构主要用于基于内存的数据挖掘系统,这些系统不需要高可扩展性和高性能。

A.   错误的

B.   真的

21: 什么是Crisp-DM?

A.   1980' s开发的决策树,但几乎完全被今天的购物车方法取代

B.   一种预测电子商务购买习惯的六阶段方法

C.   Microsoft' S线性回归算法

D.   数据挖掘的跨行业标准过程

22: 神经网中节点使用的函数将输入数据从任何值域转换为有限值范围的函数,称为A(n):

A.   先例

B.   激活功能

C.   混淆矩阵

D.   卡方

23: 对或错?购物车中的测试总是二进制的。

A.   真的

B.   错误的

24: 两个随机变量一起变化的量度是什么?

A.   二进制标准偏差

B.   协方差

C.   多收入

D.   随机惯性

25: 以下哪一个是顺序模式关系的示例?

A.   利用商业经验和直觉在杂货店设计新的平面图

B.   根据性能分析,重组您的篮球队的首发阵容

C.   将两个经常购买的物品彼此放在架子上

D.   预测基于消费者购买睡袋和远足鞋的可能性的可能性

26: 国际公司的年收入与其他属性(如广告,汇率,通气率等)相关。具有这些价​​值(或明年的可靠估计),该公司必须计算明年的预期收入。为此问题选择适当的数据挖掘任务。

A.   分割

B.   分类

C.   回归

27: 数据挖掘体系结构的前端是什么?

A.   直观且用户友好的用户界面

B.   为保护数据免受恶意来源而建立的防火墙

C.   专门为存储大量数据而设计的硬件

D.   设计在特定采矿项目中使用的软件的程序员团队

28: 超平面是

A.   决策边界分离数据类别

B.   C4.5算法的变体

C.   收集链接的超文本文件

D.   非终止误差条件

29: 组织未收集的数据,例如专有数据库的数据,与组织自己的数据相结合的数据被称为:

A.   覆盖

B.   过度拟合

C.   噪音

D.   不适用的日期

30: 其中哪一个不被视为内部数据因素?

A.   价格

B.   经济低迷

C.   员工技能

D.   产品定位

31: 哪些数据挖掘技术将一组数据集成到预定义的组中?

A.   顺序图案

B.   聚类

C.   分类

D.   游戏化

32: (通常是图形)哪些变量彼此依赖的模型级别。

A.   结构层

B.   定性水平

C.   初级级别

D.   定量水平

33: 为了提高您对整个人群的分类状态表现的信心,您应该:

A.   减小培训数据集的大小

B.   增加培训数据集的大小

C.   增加测试数据集的大小

D.   减小测试数据集的大小

34: 为Google搜索引擎提供动力的算法是:

A.   adaboost

B.   Brin-page方法

C.   GoogleCrawler

D.   网页排名

35: 在两个变量之间的关联中,先决条件与随之而来的差异是什么?

A.   先例始终是一个非常复杂的变量

B.   没事,它们可以互换

C.   先例在右边,因此在左侧。

D.   先例在左侧,右边是

36: 在对时间序列数据的分析中,给定时间段的平均值(通常是过去的某个间隔)称为a(n)

A.   部分平均水平

B.   公正的平均值

C.   复合平均值

D.   移动平均值

37: 什么是回归?

A.   学习将数据项映射到几个预定义组之一中的函数。

B.   语言中描述事实的语言中的表达式E。

C.   一个描述性的任务,它试图确定有限的类别来描述数据。

D.   学习将数据项映射到实价预测变量的函数。

38: 什么是依赖性建模?

A.   修改后涉及数据准备,模式搜索,知识评估和改进的多步骤过程。

B.   学习将数据项映射到几个预定义的组或集群之一中的函数。

C.   查找描述变量之间重要依赖性的模型的过程

D.   一个由数据库中所有变量/字段的联合多变量概率密度函数估算的技术。

39: 哪个不是对层的常见描述?

A.   隐

B.   输入

C.   输出

D.   功能

40: 碎片指的是:

A.   数据库中的噪声的度量

B.   将数据库分配用于在不同服务器上分发

C.   同时通过SSH访问多个对象数据库

D.   以上都不是

41: 什么是变化和偏差检测?

A.   一项重点是从先前测量或规范值发现数据中最重大变化的任务

B.   为数据子集找到紧凑描述的方法。

C.   查找描述变量之间重要依赖性的模型的过程

D.   一个由数据库中所有变量/字段的联合多变量概率密度函数估算的技术。

42: 驱动Amazon.com推荐系统的数据挖掘类型是什么?

A.   模糊逻辑

B.   协会学习

C.   异常检测

D.   聚类算法

43: 以下哪种算法通常适用于无监督的学习任务?

A.   受限的玻尔兹曼机器

B.   信息模糊网络

C.   k-near最邻居

D.   K-均值算法

44: 以下哪些存储解决方案最适合半结构化数据集,其成员并不具有相同的属性?

A.   mongodb

B.   sqlite

C.   mysql

D.   Mariadb

45: 为了在整个人群中估算分类表现,您需要_______

A.   (都不是)

B.   分离训练

C.   测试数据集

D.   分离培训和测试数据集

46: 概括错误是

A.   过度

B.   参数分析

C.   不足

D.   切尔诺夫的定义不佳

47: 以下哪种是进化计算方法?

A.   启发式算法

B.   贝叶斯推论算法

C.   遗传算法

D.   聚类算法

48: 支持向量机比神经网络具有优势,因为SVM是

A.   以上都不是

B.   通过在线学习更容易训练

C.   对局部最小收敛更具抵抗力

D.   参数

49: 以下哪个不是常见的源系统?

A.   节点

B.   SAP源

C.   UDC

D.   DB连接

50: 基于历史数据集中最相似的k记录类的组合,将数据集中的每个记录进行分类的技术是:

A.   最近的邻居

B.   逻辑回归

C.   协会模型查询

D.   决策树

51: 根据统计意义,从数据中提取有用的IF规则是什么?

A.   初步方法映射

B.   规则归纳

C.   模糊逻辑应用程序

D.   动态信息推断

52: 什么是分类?

A.   为数据子集找到紧凑描述的方法。

B.   学习将数据项映射到几个预定义组之一中的函数。

C.   在具有一定程度确定性的新数据上是一种发现的模式,并将其推广到其他数据。

D.   一个描述性的任务,它试图确定有限的类别来描述数据。

53: 以下哪项不是数据仓库的函数?

A.   清洁脏数据

B.   提取数据

C.   清洁数据

D.   存储购买的数据

54: 对或错?火星算法不能产生规则。

A.   真的

B.   错误的

55: 以下哪一项最适合找到最短的朋友链,将两个人彼此朋友的两个人联系起来?

A.   K-均值算法

B.   马尔可夫连锁店

C.   Dijkstra' s算法

D.   神经网络

56: 以下哪项不是KDD过程的共同目标:

A.   描述

B.   表现

C.   预言

57: 什么是遗传算法?

A.   一种搜索算法,使我们能够通过执行人工突变,交叉和选择等操作来处理初始的二进制字符串随机群来找到最佳的二进制字符串。

B.   一种算法估计特定模式(模型及其参数)符合KDD过程的标准的程度。预测准确性(有效性)的评估是基于交叉验证的。描述性质量的评估涉及预测

C.   用于经常项目的经典算法设置了挖掘和关联规则在交易数据库上学习。它通过识别数据库中的频繁单个项目而进行进行,并将它们扩展到越来越大的项目集,只要这些项目S

58: 什么是有趣的?

A.   总体衡量模式值,结合有效性,新颖性,实用性和简单性。

B.   语言中描述事实的语言中的表达式E。

C.   修改后涉及数据准备,模式搜索,知识评估和改进的多步骤过程。

D.   在具有一定程度确定性的新数据上是一种发现的模式,并将其推广到其他数据。

59: 在MapReduce模型中,映射和减少功能直接作用于哪种数据结构?

A.   mysql矩阵

B.   链接列表

C.   关系数据库

D.   钥匙值对

60: 在自然语言处理中,词汇分析仪的作用是什么?

A.   检查令牌的有效性

B.   将输入字符的流分开为令牌

C.   生成无上下文的语法

D.   处理解析树的语义意义

61: 什么是聚类?

A.   一个由数据库中所有变量/字段的联合多变量概率密度函数估算的技术。

B.   一个描述性的任务,它试图确定有限的类别来描述数据。

C.   学习将数据项映射到几个预定义的组或集群之一中的函数。

D.   查找描述变量之间重要依赖性的模型的过程

62: DBMS通过

A.   利用数据字典

B.   解偶联程序和数据

C.   用重复数据最小化隔离文件

D.   执行参考完整性

63: 通常使用的Kohonen特征图是哪种类型的分析?

A.   描述性建模分析

B.   聚类分析

C.   探索性数据分析

D.   预测分析

64: 哪种followng聚类算法可以优化ojbective函数?

65: 转换的信息以提供有关历史模式和未来趋势的见解,称为:

A.   线性回归

B.   聚类

C.   知识

D.   元数据

66: 以下哪些属性适用于单层感知器?

A.   反向传播

B.   重量的随机杀伤力

C.   连续输出

D.   能够学习非线性分离

67: 以下哪项不是将多个模型组合为集合模型的方法?

A.   表决

B.   堆叠

C.   平均

D.   引导

68: 什么是摘要?

A.   一项重点是从先前测量或规范值发现数据中最重大的变化的任务

B.   一个描述性的任务,它试图确定有限的类别来描述数据。

C.   查找描述变量之间重要依赖性的模型的过程

D.   为数据子集找到紧凑描述的方法。

69: "在五金店的2%购买中,都购买了一个选秀权和铲子,”是一个例子:

A.   验证

B.   支持

C.   监督学习

D.   拓扑

70: 多层神经网络输出中步骤函数的常用替代方案是

A.   逻辑功能

B.   多层NN无法计算连续输出

C.   双曲功能

D.   对数功能

71: 什么是猪

A.   一种编程语言,使Hadoop能够作为数据仓库运行。

B.   都不是

C.   一种简化与Hadoop合作的常见任务的编程语言。

72: 获取多个随机数据的数据并为每个样本构建分类模型,称为:

A.   模糊抽样

B.   binning

C.   提升

D.   聚类

73: 哪个XPATH选择器表达式捕获表单的所有链接元素' http://example.com/profile/12345'在HTML页面中,不包括表单的所有链接' http://example.com/casenumber/12345?

A.   // a/[contains(@href," profile")]

B.   // a/[contains(@href," profile")]/@href

C.   // HREF/个人资料

D.   //配置文件

74: 以下哪种算法产生决策树?

A.   dbscan

B.   ID3

C.   以上都不是

D.   逻辑回归

75: 以下哪个属性是对RESTFEL应用程序的限制?

A.   无状态

B.   线性分开

C.   返回JSON输出

D.   陈述

76: 负责存储元数据的Hadoop分布式文件系统的组件称为

A.   datanode

B.   FS外壳

C.   DFSADMIN

D.   Namenode

77: 如果多个值发生相同的次数,则数据为:

A.   多方面

B.   多叶

C.   多变量

D.   多模式

78: 业务理解阶段的第一步是什么?

A.   坚定地掌握业务目标和需求

B.   通过找出资源,假设,约束等来评估当前情况。

C.   创建数据挖掘目标以实现业务目标

D.   创建一个应用于任务的所有相关算法的列表

79: 什么是卷发?

A.   一个用于检索文件的命令行工具

B.   用于分类数据的隐藏特征的方法

C.   HTTP指定访问权限的一部分

D.   组合无监督的递归学习算法

80: 使用一些数值量表指定依赖项的强度的模型级别。

A.   数字级别

B.   初级级别

C.   依赖水平

D.   定量水平

81: Apriori是一种用于发现频繁项目集的开创性算法:

A.   正常混合模型

B.   候选人一代

C.   过度拟合的方法

D.   都不是

82: 许多重要的Web API使用的身份验证协议称为:

A.   https

B.   PGP

C.   Oauth

D.   SSL

83: 在KDD过程中,哪一个不是一步?

A.   数据集成

B.   数据挖掘

C.   数据清洁

D.   数据量化

84: 以下哪个应用程序通常用于对学生进行分类'表演?

A.   聚类分析

B.   如果...然后...分析

C.   回归分析

D.   市场篮分析

85: 在任何具有有意义平均值的数值数据集中,将落入均值n标准偏差的数据最小比例是多少?

A.   1/n^2

B.   1/n

C.   1-1/n^2

D.   1/2n

86: 以下哪种方法可用于建模分类目标变量?

A.   上述所有的

B.   逻辑回归

C.   阿里玛

D.   非线性回归

E.   回归

87: 以下哪个不是Hadoop还原器的主要阶段?

A.   种类

B.   减少

C.   地图

D.   洗牌

88: 其中哪一个是数据挖掘系统的可能架构?

A.   无耦合

B.   磁耦合

C.   瞬态耦合

D.   快速启动联轴器

89: 对或错?人工神经网络是线性预测模型。

A.   真的

B.   错误的

90: 模型及其预测之间的测量差异称为:

A.   噪音

B.   异常值

C.   范围

D.   不适用的数据

91: 基于哈希的技术,减少交易,分配,抽样和动态项目计数都是什么示例?

A.   提高Apriori算法效率的技术

B.   反复扫描数据库并通过模式匹配检查大量候选者的方法。

C.   生成频繁项目集的方法无候选人生成。

D.   为数据子集找到紧凑描述的方法。

92: 以下哪项是零售客户数据挖掘策略的一部分?

A.   客户推荐

B.   假期出售

C.   退款保证

D.   会员卡

93: 在计算分类树时,哪种决策树方法执行多层拆分?

A.   ID3(迭代二分法3)

B.   C4.5算法

C.   购物车(分类和回归树)

D.   chaid(Chi Square自动互动检测)

94: K-Medoids聚类算法比K-Means聚类(lloyd' s)算法的优点是什么?

A.   使用迭代精致

B.   对异常值的抵抗力更具

C.   上述所有的

D.   按中心代表集群

95: BI服务器的两个主要功能是:

A.   处理和管理

B.   来源和结果

C.   管理和交付

D.   申请和交付

96: 以下哪项不是通过JavaScript/Ajax调用从网站收集数据库的数据的合适工具?

A.   以上所有都是合适的

B.   硒

C.   phantomjs

D.   wget

97: 探索可以帮助识别数据库中值之间关系的数据的描述性方法是:

A.   预测分析

B.   功能激活

C.   链接分析

D.   聚类

98: 您如何衡量关联模式的兴趣?

A.   测量方差

B.   衡量相关性

C.   微不足道的准确性

D.   测量升降机

99: 以下哪项无效JSON?

A.   {"答案":"}"}

B.   {"答案":["]这个"]}

C.   {[" anders":"]这个"]}

D.   所有都是有效的

100: 网站运营商通常可以在哪里找到有关其客户的数据' IP地址?

A.   HTTP请求标头

B.   饼干

C.   服务器日志文件

D.   上述所有的