中文数据分析问题

中文数据分析问题

通过回答 100 多个数据分析 MCQ 来测试您对数据分析主题的理解。
向下滚动开始!

1: 以下哪种时间序列分析旨在分离时间序列中的周期性或周期性组件?

A.   解释分析

B.   光谱分析

C.   预测

D.   描述性分析

2: 以下哪个选项表示关联规则挖掘的正确应用?

A.   目录设计

B.   篮子数据分析

C.   跨营销

D.   损失领导者分析

E.   上述所有的

F.   以上都不是

3: 以下哪个选项是/文本挖掘的正确应用程序?

A.   它可以自动处理消息和电子邮件。

B.   它可以通过爬网站来调查竞争对手。

C.   它可以分析开放式调查响应。

D.   它可以分析保修或保险索赔。

E.   上述所有的。

4: 关于Microsoft神经网络算法。以下哪个选项是代表数据挖掘模型可预测属性值的神经元类型?

A.   输入神经元

B.   隐藏的神经元

C.   输出神经元

D.   以上都不是

5: 关于Microsoft Naive Bayes算法,以下哪个选项是正确的?

A.   它用于计算输入和可预测列之间的条件概率,并假定列是独立的。

B.   它用于执行自动特征选择以限制构建模型时所考虑的值数量。

C.   它由Microsoft SQL Server分析服务提供,用于预测建模。

D.   它用于考虑每对输入属性值和输出属性值。

E.   上述所有的。

6: 关于逻辑回归技术,以下哪个选项正确?

A.   在高度相关变量的情况下,它用于鼓励群体效应。

B.   它用于查找事件的概率=成功和事件=失败。

C.   它用于根据每个步骤的需要添加和删除预测变量。

D.   它用于惩罚回归系数的绝对大小。

7: 在数据挖掘中,关于回归算法正确的以下哪些选项是正确的?

A.   它用于预测一个或多个连续的数字变量;例如。基于数据集中其他属性的损益。

B.   它用于查找数据集中不同属性之间的相关性。

C.   它用于将数据分组为具有相似属性的项目组或群集。

D.   它用于总结数据中的频繁序列或发作。例如。机器维护之前的一系列日志事件。

8: 根据Microsoft协会规则模型。以下哪个选项是正确的查看选项卡,它结合了有关项目集及其相对价值的信息?

A.   LTEMSET

B.   依赖性网络

C.   规则

D.   以上都不是

9: 关于时间序列分析的干预分析类型,以下哪个陈述是正确的?

A.   它用于friend indine事件是否可以导致时间序列的变化。

B.   它用于通过使用图或其他工具在时间序列中使用趋势或模式。

C.   它广泛用于预算。这是基于历史趋势。

D.   它用于研究两个时间序列与它们对另一个时间序列的依赖之间的跨相关性。

10: 以下哪个是Mixhum_itemset_size参数的正确默认值,该值与Microsoft协会规则算法一起使用?

A.   10

B.   3

C.   1

D.   0.4

11: 关于高级统计,以下哪个选项是GLM()函数的正确语法?

A.   glm(公式,family = familyType(link = linkFunction),data =)

B.   glm(公式,data =,method =,控制=)

C.   GLM(向量,start =。end =,频率=)

D.   GLM(BootObject。Conf=,type =)

12: 以下哪个是命令的正确语法,它将验证XLSX软件包的安装并将库加载到R Workspace中?

A.   grepl.any(instasted.packages(“ xlsx”))库(“ xlsx”)

B.   任何(grepl(“ xlsx”,installed.package()))库(“ xlsx”)

C.   Any.grepl(xlsx,installed.package50)| ibrary(xlsx)

D.   grepl(任何(安装了packages(xlsx))))| ibrary(xlsx)

13: 以下哪些文本挖掘技术可用于fri类似内容的文档组?

A.   聚类

B.   分类

C.   可视化

D.   信息提取

14: 在SOL服务器数据挖掘中,以下哪些算法类型预测基于数据集中其他属性的一个或多个离散变量?

A.   细分算法

B.   分类算法

C.   序列分析算法

D.   协会算法

15: 在数据挖掘中,以下哪个选项是关联的正确语法?

A.   匹配关联[as atterat_name]分析{suest(s)}

B.   地雷关联[AS atterat_name]分析分类_attribute_or_dimension

C.   地雷关联[AS [attates_name]] {匹配{metapattern}}

D.   地雷关联[AS tatter_name]分析prediction_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: 以下哪种回归技术尝试使用最少数量的预测变量来最大化预测能力?

A.   逐步回归

B.   多项式回归

C.   线性回归

D.   逻辑回归

17: 以下哪个语句对Microsoft线性回归算法支持的可预测列是正确的?

A.   它支持周期性,钥匙和表内容类型。

B.   它支持密钥,表和有序的内容类型。

C.   它支持连续,钥匙和表内容类型。

D.   它支持连续,周期性和有序的内容类型。

18: 关于Microsoft时间序列算法中使用的Prediction_smooth参数,以下哪个语句正确?

A.   它指定如何混合模型以优化预测。

B.   它指定用于分析和预测的算法。

C.   它指定了检测周期性的0和1之间的数值。

D.   它指定了在每个时间序列树中生成拆分所需的最小时间切片数。

19: 以下哪个是Microsoft时间序列算法使用的不稳定性参数的正确默认值?

A.   0.6

B.   0.1

C.   10

D.   1

20: 关于高级统计,以下哪些选项正确的ARIMAO函数是正确的?

A.   它可用于产生无息的主成分分析。

B.   它可用于产生最大似然因子分析。

C.   它可用于引导结构方程模型。

D.   它可用于frip frate Reotressive Replessive Integrated移动平均模型。

21: 在数据挖掘中,以下哪些选项是正确的。

A.   f -Score =召回 - 精度 +(召回X Precision) / 9

B.   f -Score =召回 +精度 - (召回x精度)i 7

C.   f-Score =召回x precision /(召回 +精度) / 2

D.   F -SCORE =回忆I精密X(回忆 - 精度) / 5

22: Microsoft时间序列算法中使用的参数historing_model_gap的默认值是以下哪个?

A.   10

B.   1

C.   0

D.   5

23: 以下哪些高级统计技术用于识别形成组的潜在变量?

A.   回归分析

B.   方差分析

C.   因子分析

D.   逻辑回归

24: 在数据挖掘中,以下哪些选项正确地防止了精度,用于评估文本检索质量?

A.   精度:l [相关] n [检索] l / l [检索] l

B.   precision = l [检索} u [f-SCORE] l + l [f-SCORE} l

C.   precision = l [召回] / [f-scorejl x l [recali] l

D.   precision = l [f -Score] x [reckjl -l [f - score)l

25: 以下哪些文本检索措施是文档的百分比,该措施与查询相关并实际检索到哪些?

A.   精确

B.   记起

C.   F-SCORE

D.   以上都不是

26: 以下哪项是Microsoft Logistic回归算法的Holdout_percentage参数的正确默认值,该算法用于指定用于计算保留错误的培训数据中的案例百分比?

A.   200

B.   30

C.   255

D.   100

27: 在高级统计数据中,以下哪些陈述正确有关DIRICHLET回归方法?

A.   它用于建模二进制变量。

B.   它用于建模组成数据。

C.   它用于模型级别变量。

D.   它用于模拟计数变量。

28: 在以下哪种文本挖掘方法中,对句子和文档级别进行了分析?

A.   基于短语的方法(PBM)

B.   基于术语的方法(TBM)

C.   模式分类法(PTM)

D.   基于概念的方法(CBM)

29: 在高级统计中。以下哪种回归方法用于模拟(0,1)范围内的变量?

A.   山脊回归

B.   beta回归

C.   黄土回归

D.   等距回归

30: 根据Microsoft协会规则算法,以下哪个参数指定在算法生成规则之前必须包含项目集的最小案例数?

A.   minumum_support

B.   Minimum_probability

C.   minimum_itemset_size

D.   minimum_itemset_count

31: 根据高级统计通用线性模型,以下哪个是高斯家族的默认链接函数?

A.   (link =''身份”)

B.   (link =''iogit”)

C.   (link =''iog”)

D.   (链接=“倒”)

32: 根据Microsoft协会规则算法,以下哪个选项是标量值作为返回类型的预测函数?

A.   lsinNode(DMX)

B.   预测安排(DMX)

C.   预测功能(DMX)

D.   前图(DMX)

33: Microsoft聚类算法使用的默认clustering_method是以下哪个选项?

A.   不可算力的em

B.   可扩展的EM

C.   可扩展的K均值

D.   不可算力的k-均值

34: 以下哪个选项是Microsoft Logistic回归算法使用的预性图(DMX)预测函数的正确返回类型?

A.   布尔类型

B.   集群值

C.   桌子

D.   标量值

35: Microsoft时间序列算法的参数是以下哪个选项,用于控制决策树的生长?

A.   预测_smooth

B.   forecast_method

C.   不稳定性_senitivity

D.   complextity_penalty

36: 关于Microsoft时间序列算法中使用的非空建模标志的以下哪个语句是正确的?

A.   它适用于采矿模型列。

B.   它适用于采矿结构柱。

C.   它适用于采矿型号和采矿结构柱。

D.   它既不适用于采矿模型列,也不适用于采矿结构列。

37: 以下哪种采样方法用于宇宙的异质单元,而不是同质单位,并且只有在知道其人群时才能采用?

A.   简单的随机抽样

B.   分层随机抽样

C.   广泛的采样f

D.   配额抽样

38: 以下哪些陈述在抽样方法上是不正确的?

A.   可以以采样方法更快地收集数据。

B.   一种抽样方法为方便地组织和执行研究工作提供了设施。

C.   这很便宜。

D.   使用采样方法不需要专业知识。

39: 以下哪个陈述对熊猫不正确?

A.   它非常适合具有异质性(类似的列)的表格数据。

B.   只能将标记的数据放入大熊猫数据结构中。

C.   它适用于具有行和列标签的任意矩阵数据(同质键入或异质)。

D.   也可以用熊猫分析有序和无序(不一定是频率)时间序列数据。

40: 用于评估文本检索质量的以下哪项基本措施表示与查询相关的文件的百分比?

A.   记起

B.   F-SCORE

C.   精确

D.   A和C

41: 以下哪种数据挖掘算法应用于包含大量交易并学习关联规则的数据库?

A.   k均值

B.   C45

C.   Em

D.   Apriori

42: 在塔架环境中工作时,不需要进口以下哪些选项?

A.   matplotlib

B.   熊猫

C.   numpy

D.   A和C

43: 在关联规则挖掘中,项目集被认为是在以下哪种情况下关闭的?

A.   当其所有直接超级超集与项目集具有相同的支持时。

B.   当其直接子集都没有与项目集相同的支持时。

C.   当其所有直接子集都具有与项目集相同的支持时。

D.   当其直接的超级集没有与项目集相同的支持时。

44: 鉴于A和B分别是两个具有参数为3,114和2,1/4的独立二项式变量。查找P(A + B 21)。

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: 字袋模型用于以下哪个文本挖掘过程?

A.   特征选择

B.   文本预处理

C.   特征发电

D.   A和B

46: 对于一组12名学生,根据给定的信息,将其科学和数学等级差异的平方和数学的差异为60。找到等级相关系数的值。

A.   0.60

B.   0.79

C.   0.45

D.   0.82

47: 同时计算销售和支出之间的等级相关系数12年。一年排名的差异被错误地认为是9而不是7,结果,等级相关系数的值计算为0.79。如果错误是纠正的,那么等级相关系数的近似正确值是多少?

A.   0.88

B.   0.82

C.   0.95

D.   0.90

48: 以下哪种聚类算法用于基于网格的分区?

A.   桦木

B.   k均值

C.   刺

D.   FCM

49: 鉴于X和Y上有15对读数,因此相关系数为0.87。还鉴于标准偏差为5.60。 X上Y估计值的近似标准误差是多少?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

50: 山姆(Sam)在12张射门中有6次达到目标而受欢迎,而约翰可以在14杆中的8杆中达到同一目标。目标都尝试时会击中目标的概率是多少?

A.   11/14

B.   13/14

C.   1/14

D.   3/14

51: 以下哪项是一种非概率采样方法?

A.   判断抽样

B.   分层随机抽样

C.   整群抽样

D.   多阶段随机抽样

52: 以下哪个陈述对贝叶斯信念网络不正确?

A.   L1在信仰网络中,可以在变量的子集之间定义阶级有条件的独立性。

B.   VJ联合条件概率分布不能由贝叶斯信念网络指定。

C.   VJ不能将训练有素的贝叶斯网络用于分类。

D.   VJ由贝叶斯信念网络提供了进行学习的随意关系的图形模型。

53: 关于判断抽样方法,以下哪个陈述是正确的?

A.   这种方法不可能偏见。

B.   它更准确和可靠。

C.   它主要用于几乎存在类似单位或某些单元太重要的领域中使用的。

D.   这非常贵。

54: 在Baysian模型中,以下哪项是(6,x)的关节密度的正确表示,如果知道给定0,观察到的数据x是PA的实现?

A.   n(xl0)p(x)

B.   n(0)p(x)

C.   n(0)p(xl0)

D.   NL(X)P(0LX)

55:

使用以下哪个命令来观察R对象结构的方式?据说MyData是存储用户数据的变量。

A.   图书馆(mydata)

B.   描述(mydata)

C.   str(mydata)

D.   摘要(mydata)

56: 在以下哪种大数据技术中,将相关的数据管理,分析和报告任务移至数据所在的位置,提高速度以洞察,减少数据移动并促进更好的数据治理?

A.   支持Hadoop

B.   LN内存分析

C.   网格计算

D.   LN数据库处理

57: 以下哪个命令用于在Pylab模式下启动ipython接口,并在PYLAB环境中打开ipython笔记本?

A.   ipython - pylab = in | ine

B.   ipython - pylab =内联 - 注释

C.   ipython =笔记本 - pylab.in | ine

D.   ipython笔记本 - pylab = inline

58: 根据贝叶斯定理的说法,LN数据挖掘挖掘,以下公式在先前概率方面表示后验概率?

A.   p(x/h)= p(h/x)p(h)/p(x)

B.   p(h/x)= p(x/h)p(h)/p(x)

C.   p(h/x)= p(x/h)p(x)/p(h)

D.   p(xih)= p(h/x)/p(h)p(x)

59: 在数据挖掘中,以下哪些语句对C45算法不正确?

A.   它只允许一个结果。

B.   C45使用了源自二项式联合限制的单通算法。

C.   它使用基于信息的标准。

60: 如果用户想了解将贩运人发送到他/她的网站的顶级关键字,那么应该首选以下哪些收购部分?

A.   转介贩运

B.   有机贩运

C.   直接贩运

D.   社会贩运

61: 在Google Analytics(分析工具)中,应执行以下哪些分析以确定用户Web贩运的起源?

A.   获取分析

B.   受众分析

C.   行为分析

D.   转换分析

62: 以下哪种关联采矿发现了比序列数据库中的分钟序列多的子序列?

A.   顺序规则

B.   广义关联规则

C.   顺序模式挖掘

D.   温r

63: 以下哪些因素导致了采样错误的发生?

A.   由于统计措施错误而导致的错误。

B.   汇编错误。

C.   错误问卷的框架。

D.   抽样单元的错误分界。

64: 在数据挖掘中,以下哪项是定义召回的正确语法,用于评估文本检索的质量?

A.   召回= l [相关} u [检索] l l l [相关}!

B.   召回= l [相关} u [检索] | l l {检索] L

C.   召回= l [相关} f‌l {检索} | / l [检索] l

D.   回忆= l [相关} n [检索} l / l [相关ji

65: 以下哪项是基于特定逻辑标准从数据框中选择某些行的正确R语法?

A.   选择(DataFramEname,逻辑表达式)

B.   f‌ilter(逻辑表达式,dataFramEname)

C.   f‌ilter(dataframename,逻辑表达式)

D.   选择(逻辑表达式,dataFramEname)

66: 在生存分析中,以下哪种方法用于模拟一组预测变量的危险函数?

A.   surv()

B.   coxph()

C.   Survdiff()

D.   survf‌it()

67: 以下哪项是数据挖掘涉及的描述功能?

A.   进化分析

B.   预言

C.   异常分析

D.   挖掘协会

68: 以下哪个陈述对数据科学不正确?

A.   它用于将数据转换为动作。

B.   它支持并鼓励演绎推理和归纳推理之间的转移。

C.   为了取得成功。组织需要达到最大的数据科学成熟度。

D.   公司有必要留在背包中并在将来竞争。

69: 以下哪种聚类算法可以处理嘈杂的数据?

A.   治愈

B.   岩石

C.   桦木

D.   变色龙

70: 关于数据仓库的查询驱动方法,以下哪个陈述是正确的?

A.   这种方法需要复杂的集成和滤波过程。

B.   这种方法允许复制数据。处理。融合的。注释。提前在语义数据存储中进行了汇总和重组。

C.   对于需要聚集的查询非常经济。

D.   对于频繁的查询,它效率更高。

71: 鉴于y是泊松变量,满足条件p(y = 4)= p(y = 5)。 y的平均值和标准偏差的值是什么?

A.   平均= 3和标准偏差= /5

B.   平均= 5和标准偏差= /3

C.   平均= 5和标准偏差= /’5

D.   平均= 7和标准偏差= /7

72: 以下哪项功能用于分解具有加性趋势以及季节性和不规则组件的时间序列?

A.   STL0

B.   TSO

C.   Etso

D.   Arimao

73: 在数据挖掘中,以下哪个模型用于预测分类类标签?

A.   分类模型

B.   预测模型

C.   A和B

D.   没有一个也不是B

74: 在哪些关键技术中,用于从大数据中提取业务价值,将数据作为战略进行管理。核心资产具有大数据分析的持续过程控制?

A.   大数据的信息管理

B.   大数据的高性能分析

C.   大数据的灵活部署选项

75: 在关联规则挖掘中,表明该规则被认为是真实的频率的指示是由称为置信度的术语表示的。这个术语如何。信心。代表该规则,a => b?

A.   conf(a => b)= supp(a u b) / supp(a)

B.   conf(a => b)= supp(b) / supp(a)

C.   conf(a => b)= supp(a u b) / supp(a)‘supp(b)

D.   conf(a => b)= supp(a u b) / 1- supp(a)

76: 对于给定的25个项目,X和Y之间的相关系数为0.6。 X和Y的算术平均值的值分别为14和18,X和Y的标准偏差值分别为4和6。如果这对(25. 18)被错误地视为(18,25)。然后找到相关系数的正确值。

A.   0.31

B.   0.42

C.   0.51

D.   0.67

77: 以下哪项是表达人口均值下尾检验的无效假设的正确方法?鉴于UO是真实人口平均值的假设的下限

A.   向上5 ll

B.   p0 = l1

C.   PO 2 p

78: 在数据挖掘中,决策树的以下哪个部分代表了AA测试的结果?

A.   内部节点

B.   叶节点

C.   分店

D.   最上方的节点

79: 以下哪个陈述在SAS区分方面是正确的?

A.   它提供了僵化的体系结构方法。

B.   它一次只能管理和利用一种模型。

C.   它具有独特的位置,可以帮助组织将大数据和大数据分析转变为业务价值。

D.   两个选项A和C都是正确的。

80: 关于数据的分类,以下哪项是正确的?

A.   它以精确和凝结的形式将数据放置。

B.   除分类数据外,所有类型的数据都可以使用LL统计分析。

C.   ii]它不允许在各种特征之间进行比较。

D.   通过消除不必要的详细信息,它可以使数据更容易理解。

81: 在判别函数分析的线性判别函数中,以下方法的函数是什么?

A.   它产生了千斤顶的预测。

B.   它用于获得二次判别函数。

C.   它基于居中但不标准化的变量打印判别函数。

D.   它可以一次显示线性或二次分类的结果,一次具有两个变量。

82: 在数据挖掘中,以下哪个分类模型是由KNN算法构建的?

A.   决策树分类模型

B.   合奏分类模型

C.   超平面分类模型

D.   没有KNN构建的分类模型

83: 在数据挖掘中,以下哪个是箔方法的正确语法,用于修剪规则r的规则修剪的foil_prune?鉴于P是R和N覆盖的正元组的数量,是R所覆盖的负元素的数量。

A.   foil_prune = p -n/p + n

B.   foil_prune = p + n/p -n

C.   foil_prune = p/n

D.   foil_prune = n/p + n

84: 在假设检验中。您将如何称呼其数据分类并且属于离散非重叠类的人群?

A.   单一

B.   二项式

C.   三位一体

D.   多项式

85: 应该执行以下哪项t检验以比较两个不同组的均值?

A.   一个样本t-检验

B.   配对样品t-检验

C.   独立样品t检验

D.   方差分析(方差分析)

86: 在关联规则挖掘中,以下哪个陈述是正确的,关于频繁的两步方法的项目集生成?

A.   仅生成一个支持2分钟的项目集

B.   生成支持5分钟的所有项目集

C.   生成支持5分钟的所有项目集

D.   从每个频繁的项目集中生成高信心规则

87: 用户可以在以下哪个Web Analytics目标的帮助下获取网站的浏览量?

A.   页面/会话目标

B.   持续时间目标

C.   目的地目标

D.   事件目标

88: 如果有一些缺少值的数据,您需要阅读函数的帮助,例如中位数,那么以下哪项是正确的R语法?

A.   中位数

B.   read.median0

C.   #Median

D.   help.median0

89: 在Web Analytics中,在电子商务仪表板中监视以下哪个指标?

A.   浏览器的页面加载时间

B.   产品总销售

C.   通过博客文章转换

D.   实时贩运来源

90: 参数统计模型的给出为:(s,p),p = [p6:e e 9]。根据统计符号,以下哪种是表示A的正确方法?

A.   E G R 0D

B.   a = r2d

C.   O C 2DR

D.   a e drz

91: 如果测试的显着水平为5%,那么如果获得的p值大于0.05,则测试的结果将是什么?

A.   拒绝零假设

B.   无法拒绝零假设

C.   零假设的接受或排斥与p值无关。

92: 以下哪个是Microsoft时间序列算法中使用的参数HLSTORLCAL_MODEL_GAP的默认值?

A.   10

B.   1

C.   0

D.   5

93: 以下哪个是用于指定与任务相关数据的DMQL语法?

A.   使用数据库Database_name

B.   使用数据仓库data_warehouse_name

C.   Database.usedatabase_name

D.   datawarehouse.usedata_warehouse_name

94: _______通过识别和消除冗余来减少文件中的位数

A.   无损压缩

B.   有损压缩

C.   位图

D.   数据可视化

95: 程序员创建的数据类型称为________。

A.   变量

B.   摘要数据类型(ADT)

C.   功能

D.   参数

E.   都不是

96: Diigo和美味是________工具。

A.   社会书签

B.   研究

C.   讨论组

D.   同步通信

97: 脏数据是________。

A.   病毒感染的数据

B.   蠕虫感染的数据

C.   不准确,不完整的数据

D.   被盗数据

98: 工作表的______定义了其外观。

A.   形式

B.   格式

C.   看法

D.   记录

99: ____案例工具为编码和实施阶段提供了支持。

A.   水平的

B.   前端

C.   后端

D.   垂直的

100: ________工具和技术处理数据并进行统计分析以洞察和发现。

A.   企业数据治理

B.   专有信息系统

C.   商业智能

D.   业务流程