Preguntas de Data Analytics en español

Preguntas de Data Analytics en español

Intente responder más de 100 MCQ sobre análisis de datos y pruebe su comprensión del tema del análisis de datos.
¡Desplácese hacia abajo y comencemos!

1: ¿Cuál de los siguientes tipos de análisis de series de tiempo tiene como objetivo separar componentes periódicos o cíclicos en una serie temporal?

A.   Análisis explicativo

B.   Análisis espectral

C.   Pronóstico

D.   Análisis descriptivo

2: ¿Cuáles de las siguientes opciones representan (s) la aplicación correcta de la minería de reglas de asociación?

A.   Diseño del catálogo

B.   Análisis de datos de canasta

C.   Marketing

D.   Análisis de líderes de pérdida

E.   Todo lo anterior

F.   Ninguna de las anteriores

3: ¿Cuál de las siguientes opciones es/son las aplicaciones correctas de la minería de texto?

A.   Puede procesar automáticamente mensajes y correos electrónicos.

B.   Puede investigar a los competidores arrastrando sus sitios web.

C.   Puede analizar respuestas de encuestas abiertas.

D.   Puede analizar la garantía o las reclamaciones de seguro.

E.   Todo lo anterior.

4: Con respecto al algoritmo de red neuronal de Microsoft. ¿Cuál de las siguientes opciones es el tipo de neurona que representa valores de atributo predecibles para un modelo de minería de datos?

A.   Neurona de entrada

B.   Neurona oculta

C.   Neurona de salida

D.   Ninguna de las anteriores

5: ¿Cuál de las siguientes opciones es/es correcta sobre el algoritmo de Microsoft Naive Bayes?

A.   Se utiliza para calcular la probabilidad condicional entre la entrada y las columnas predecibles y supone que las columnas son independientes.

B.   Se utiliza para realizar la selección de características automáticas para limitar el número de valores que se consideran al construir un modelo.

C.   Es proporcionado por Microsoft SQL Server Analysis Services para su uso en modelado predictivo.

D.   Se utiliza para considerar cada par de valores de atributo de entrada y valores de atributo de salida.

E.   Todo lo anterior.

6: ¿Cuál de las siguientes opciones es correcta sobre la técnica de regresión logística?

A.   Se utiliza para fomentar el efecto grupal en caso de variables altamente correlacionadas.

B.   Se utiliza para encontrar la probabilidad de Event = Success y Event = Fails.

C.   Se usa para agregar y eliminar predictores según sea necesario para cada paso.

D.   Se usa para penalizar el tamaño absoluto de los coeficientes de regresión.

7: En la minería de datos, ¿cuál de las siguientes opciones es correcta sobre el algoritmo de regresión?

A.   Se usa para predecir una o más variables numéricas continuas; Por ejemplo. ganancias o pérdidas que se basan en otros atributos en un conjunto de datos.

B.   Se utiliza para encontrar correlaciones entre diferentes atributos en un conjunto de datos.

C.   Se utiliza para dividir datos en grupos o grupos de elementos que tienen propiedades similares.

D.   Se utiliza para resumir secuencias o episodios frecuentes en datos; Por ejemplo. Una serie de eventos de registro que preceden al mantenimiento de la máquina.

8: Según el modelo de reglas de la Asociación de Microsoft. ¿Cuál de las siguientes opciones es la pestaña Visador correcta que combina información sobre los conjuntos de elementos y su valor relativo?

A.   Ltemsets

B.   Red de dependencia

C.   Normas

D.   Ninguna de las anteriores

9: ¿Cuál de las siguientes afirmaciones es correcta sobre el tipo de análisis de intervención del análisis de series de tiempo?

A.   Se usa para flaund si un evento puede conducir a un cambio en una serie temporal.

B.   Se usa para flagar una tendencia o patrón en una serie de tiempo mediante el uso de gráficos u otras herramientas.

C.   Se usa ampliamente en el presupuesto. que se basa en tendencias históricas.

D.   Se utiliza para estudiar la correlación cruzada entre dos series de tiempo y su dependencia de otra.

10: ¿Cuál de los siguientes es el valor predeterminado correcto del parámetro Maximum_ItemSet_Size, que se utiliza con el algoritmo de reglas de la Asociación de Microsoft?

A.   10

B.   3

C.   1

D.   0.4

11: Con respecto a las estadísticas avanzadas, ¿cuál de las siguientes opciones es la sintaxis correcta de la función glm ()?

A.   GLM (Fórmula, Family = FamilyType (Link = LinkFunction), Data =)

B.   GLM (fórmula, data =, método =, control =)

C.   GLM (vector, inicio =. End =, frecuencia =)

D.   GLM (bootobject. conf =, type =)

12: ¿Cuál de las siguientes es la sintaxis correcta del comando que verificará la instalación del paquete XLSX y cargará la biblioteca en el espacio de trabajo R?

A.   Grepl.Aly (instalado.packages ("xlsx")) biblioteca ("xlsx")

B.   cualquier biblioteca ("grepl (" xlsx ", instalada.package ())) (" xlsx ")

C.   Any.GREPL (XLSX, Installed.Package50) | Ibrary (XLSX)

D.   Grepl (Any (instalado.

13: ¿Cuál de las siguientes técnicas de minería de texto se puede utilizar para elaborar grupos de documentos con contenido similar?

A.   Agrupación

B.   Categorización

C.   Visualización

D.   Extracción de información

14: En la minería de datos del servidor SOL, ¿cuál de los siguientes tipos de algoritmo predice una o más variables discretas que se basan en otros atributos en un conjunto de datos?

A.   Algoritmo de segmentación

B.   Algoritmo de clasificación

C.   Algoritmo de análisis de secuencia

D.   Algoritmo de asociación

15: En la minería de datos, ¿cuál de las siguientes opciones es la sintaxis correcta para la asociación?

A.   Las asociaciones de coincidencia [como patrón_name] analizar {medida (s)}

B.   Asociaciones de minas [como Pattern_Name] Analizar clasificando_attribute_or_dimension

C.   Asociaciones de minas [como [Pattern_Name]] {Matching {Metapattern}}

D.   Asociaciones de minas [como Pattern_Name] Analizar predicción_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: ¿Cuál de las siguientes técnicas de regresión intenta maximizar el poder de predicción con un número mínimo de variables predictoras?

A.   Regresión paso a paso

B.   Regresión polinómica

C.   Regresión lineal

D.   Regresión logística

17: ¿Cuál de las siguientes afirmaciones es correcta sobre la columna predecible compatible con el algoritmo de regresión lineal de Microsoft?

A.   Admite los tipos de contenido cíclico, clave y de tabla.

B.   Admite la clave, la tabla y los tipos de contenido ordenados.

C.   Admite los tipos de contenido continuo, clave y de tabla.

D.   Admite los tipos de contenido continuo, cíclico y ordenado.

18: ¿Cuál de las siguientes afirmaciones es correcta sobre el parámetro Prediction_Smoothing utilizado en el algoritmo de la serie temporal de Microsoft?

A.   Especifica cómo se debe mezclar un modelo para optimizar el pronóstico.

B.   Especifica qué algoritmo usar para el análisis y la predicción.

C.   Especifica un valor numérico entre 0 y 1 que detecta la periodicidad.

D.   Especifica el número mínimo de rodajas de tiempo que se requieren para generar una división en cada árbol de la serie temporal.

19: ¿Cuál de los siguientes es el valor predeterminado correcto para el parámetro de inestabilidad_sensibilidad utilizado con el algoritmo de la serie temporal de Microsoft?

A.   0.6

B.   0.1

C.   10

D.   1

20: Con respecto a las estadísticas avanzadas, ¿cuál de las siguientes opciones es correcta sobre la función Arimao?

A.   Se puede utilizar para producir un análisis de componentes principales norados.

B.   Se puede utilizar para producir análisis de factores de máxima probabilidad.

C.   Se puede usar para arrancar el modelo de ecuación estructural.

D.   Se puede usar para encontrar un modelo de promedio móvil integrado autorregresivo.

21: En la minería de datos, ¿cuál de las siguientes opciones es correcta sobre la medida de puntaje F para la recuperación de texto?

A.   F -score = recuperar - precisión + (recuperar x precisión) / 9

B.   F -score = recuperar + precisión - (recuperar x precisión) i 7

C.   F-score = recuperar x precisión / (recuperar + precisión) / 2

D.   F -score = recordar i Precisión x (recuperación - precisión) / 5

22: ¿Cuál de los siguientes es el valor predeterminado del parámetro histórico_model_gap utilizado en el algoritmo de la serie temporal de Microsoft?

A.   10

B.   1

C.   0

D.   5

23: ¿Cuál de las siguientes técnicas de estadísticas avanzadas se utiliza para identificar variables latentes que forman grupos?

A.   Análisis de regresión

B.   Anova

C.   Análisis factorial

D.   Regresión logística

24: En la minería de datos, ¿cuál de las siguientes opciones defádina correctamente la precisión, que se utiliza para evaluar la calidad de la recuperación de texto?

A.   Precisión: l [relevante] n [recuperado] l / l [recuperado] l

B.   Precision = l [recuperado} u [f-score] l + l [f-score} l

C.   Precisión = l [recuperar] / [f-scorejl x l [recali] l

D.   Precisión = l [f -score] x [recordjl - l [f - puntaje) l

25: ¿Cuál de las siguientes medidas de recuperación de texto es el porcentaje de documentos, que son relevantes para la consulta y se recuperaron en realidad?

A.   Precisión

B.   Recordar

C.   Puntaje

D.   Ninguna de las anteriores

26: ¿Cuál de los siguientes es el valor predeterminado correcto del parámetro Holdout_Percentage del algoritmo de regresión logística de Microsoft, que se utiliza para especificar el porcentaje de casos dentro de los datos de entrenamiento utilizados para calcular un error de retención?

A.   200

B.   30

C.   255

D.   100

27: En estadísticas avanzadas, ¿cuál de las siguientes afirmaciones es correcta sobre el método de regresión de Dirichlet?

A.   Se utiliza para modelar variables binarias.

B.   Se utiliza para modelar datos de composición.

C.   Se utiliza para modelar variables de rango.

D.   Se utiliza para modelar variables de conteo.

28: ¿En cuál de los siguientes métodos de minería de texto, los términos se analizan a nivel de oración y documento?

A.   Método basado en frases (PBM)

B.   Método basado en términos (TBM)

C.   Método de taxonomía de patrones (PTM)

D.   Método basado en conceptos (CBM)

29: En estadísticas avanzadas. ¿Cuál de los siguientes métodos de regresión se utiliza para modelar variables dentro del rango (0, 1)?

A.   Regresión de cresta

B.   Regresión beta

C.   Regresión de loess

D.   Regresión isotónica

30: Según el algoritmo de reglas de la Asociación de Microsoft, ¿cuál de los siguientes parámetros especifica el número mínimo de casos que deben contener un conjunto de elementos antes de que el algoritmo genera una regla?

A.   Mínimo_support

B.   Mínimo_probabilidad

C.   Minimum_ItemSet_Size

D.   Minimum_itemset_count

31: Según el modelo lineal generalizado de estadísticas avanzadas, ¿cuál de las siguientes es la función de enlace predeterminada para la familia gaussiana?

A.   (link = '’Identity")

B.   (link = '’iogit")

C.   (enlace = ‘'iog")

D.   (link = "inverse")

32: Según el algoritmo de reglas de asociación de Microsoft, ¿cuál de las siguientes opciones es la función de predicción con el valor escalar como tipo de retorno?

A.   Lsinnode (DMX)

B.   PredictaSociación (DMX)

C.   PredictadJustedProbability (DMX)

D.   Predicthistograma (DMX)

33: ¿Cuál de las siguientes opciones se utiliza el algoritmo de clúster de clúster Microsoft?

A.   EM no escalonable

B.   Em escalable

C.   K-means escalable

D.   K no escalable: significa

34: ¿Cuál de las siguientes opciones es el tipo de retorno correcto de la función de predicción de predicthistogram (DMX) utilizada por el algoritmo de regresión logística de Microsoft?

A.   Tipo booleano

B.   Valor de clúster

C.   Mesa

D.   Valor escalar

35: ¿Cuál de las siguientes opciones es el parámetro del algoritmo de la Serie de Tiempo de Microsoft, que se utiliza para controlar el crecimiento de un árbol de decisión?

A.   Predicción_smoothing

B.   Pronosticar_method

C.   Inestabilidad_sensibilidad

D.   Complejidad_penalty

36: ¿Cuál de las siguientes afirmaciones es correcta sobre el indicador de modelado no nulo utilizado en el algoritmo de series temporales de Microsoft?

A.   Se aplica a las columnas del modelo minero.

B.   Se aplica a las columnas de la estructura minera.

C.   Se aplica tanto a las columnas del modelo de minería como a las columnas de la estructura minera.

D.   No se aplica ni a las columnas del modelo minero ni a las columnas de estructura minera.

37: ¿Cuál de los siguientes métodos de muestreo se usa para unidades heterogéneas del universo en lugar de las unidades homogéneas y solo puede adoptarse cuando se conoce a su población?

A.   Muestreo aleatorio simple

B.   Muestreo aleatorio estratificado

C.   Muestreo extenso F

D.   Muestreo de cuotas

38: ¿Cuál de las siguientes afirmaciones es incorrecta sobre los métodos de muestreo?

A.   Los datos se pueden recopilar más rápido en un método de muestreo.

B.   Un método de muestreo proporciona la instalación para organizar y ejecutar el trabajo de investigación convenientemente.

C.   Es menos costoso.

D.   No se requiere conocimiento especializado para usar un método de muestreo.

39: ¿Cuál de las siguientes afirmaciones no es correcta sobre los pandas?

A.   Es muy adecuado para datos tabulares con columnas heterogéneamente: tipos.

B.   Solo los datos etiquetados se pueden colocar en una estructura de datos de pandas.

C.   Es adecuado para datos de matriz arbitraria (escrito homogéneamente o heterogéneo) con etiquetas de fila y columna.

D.   Los datos de series de tiempo ordenados y desordenados (no necesariamente de frecuencia flazada) también se pueden analizar con PANDAS.

40: ¿Cuál de las siguientes medidas fundamentales utilizadas para evaluar la calidad de la recuperación de texto representa el porcentaje de documentos recuperados relevantes para una consulta?

A.   Recordar

B.   Puntaje

C.   Precisión

D.   Tanto A como C

41: ¿Cuál de los siguientes algoritmos de minería de datos se aplica a una base de datos que contiene una gran cantidad de transacciones y también aprende reglas de asociación?

A.   K-medias

B.   C45

C.   Em

D.   A priori

42: Mientras trabaja en un entorno de pylab, ¿cuál de las siguientes opciones no necesita importarse?

A.   mate

B.   pandas

C.   numpy

D.   Tanto A como C

43: En la minería de reglas de asociación, se considera que un conjunto de elementos está cerrado en cuál de las siguientes situaciones?

A.   Cuando todos sus supersenses inmediatos tienen el mismo soporte que el conjunto de elementos.

B.   Cuando ninguno de sus subconjuntos inmediatos tiene el mismo soporte que el conjunto de elementos.

C.   Cuando todos sus subconjuntos inmediatos tienen el mismo soporte que el conjunto de elementos.

D.   Cuando ninguno de sus supersets inmediatos tiene el mismo soporte que el conjunto de elementos.

44: Se da que A y B son dos variables binomiales independientes que tienen parámetros 3,114 y 2,1/4, respectivamente. Encuentra P (A + B 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: El modelo de la bolsa de palabras se utiliza en ¿cuál de los siguientes procesos de minería de texto?

A.   Selección de características

B.   Preprocesamiento de texto

C.   Generación de características

D.   Tanto a como B

46: Para un grupo de 12 estudiantes, la suma de cuadrados de diferencias en sus filas para ciencias y matemáticas se proporciona como 60. Sobre la base de la información dada. Encuentre el valor del coeficiente de correlación de rango.

A.   0.60

B.   0.79

C.   0.45

D.   0.82

47: Mientras calcula la correlación de rango coeficiente entre las ventas y el gasto por un período de tiempo de 12 años. La diferencia en el rango durante un año se tomó por error como 9 en lugar de 7 y, como resultado, el valor del coeficiente de correlación de rango se calculó como 0.79. Si el error se rectifica, ¿cuál será el valor correcto aproximado de la correlación de rango coeficiente?

A.   0.88

B.   0.82

C.   0.95

D.   0.90

48: ¿Cuál de los siguientes algoritmos de agrupación se usa para la partición basada en la cuadrícula?

A.   ABEDUL

B.   K-medias

C.   PICADURA

D.   FCM

49: Se da que hay 15 pares de lecturas sobre x e y de modo que el coeficiente de correlación es 0.87. También se da que la desviación estándar es 5.60. ¿Cuál será el error estándar aproximado de estimación de y en x?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

A.   14/11

B.   13/14

C.   1/14

D.   3/14

51: ¿Cuál de los siguientes es un método de muestreo no probable?

A.   Muestreo de juicio

B.   Muestreo aleatorio estratificado

C.   Muestreo de clúster

D.   Muestreo aleatorio de etapas de etapas

52: ¿Cuál de las siguientes afirmaciones no es correcta sobre la red de creencias bayesiana?

A.   L1 En una red de creencias, las independencias condicionales de clase se pueden definir entre los subconjuntos de variables.

B.   La distribución de probabilidad condicional conjunta de VJ no puede ser especificada por las redes de creencias bayesianas.

C.   VJ Una red bayesiana capacitada no puede usarse para la clasificación.

D.   VJ Un modelo gráfico de relación casual para realizar el aprendizaje es proporcionado por Bayesian Belief Network.

53: ¿Cuál de las siguientes afirmaciones es correcta sobre el método de muestreo de juicio?

A.   No hay posibilidad de prejuicio personal en este método.

B.   Es más preciso y confiable.

C.   Se usa principalmente en aquellos campos donde existen unidades casi similares o algunas unidades son demasiado importantes para dejarlo fuera de la muestra.

D.   Es muy caro.

54: En el modelo baysiano, ¿cuál de los siguientes es la representación correcta de la densidad articular de (6, x), si se sabe que para un 0 determinado, los datos observados x son una realización de PA?

A.   n (xl0) P (x)

B.   N (0) P (x)

C.   n (0) P (xl0)

D.   NL (x) P (0LX)

55:

¿Cuál de los siguientes comandos se usa para observar la forma en que se estructura un objeto R? Se da que MyData es una variable donde se almacenan los datos de un usuario.

A.   Biblioteca (MyData)

B.   Describe (MyData)

C.   str (mydata)

D.   Resumen (MyData)

56: ¿En cuál de las siguientes tecnologías de Big Data, mover la gestión de datos relevantes, el análisis y las tareas de informes a donde residen los datos, mejora la velocidad de la información, reduce el movimiento de datos y promueve una mejor gobernanza de datos?

A.   Soporte para Hadoop

B.   Análisis de memoria LN

C.   Computación de la cuadrícula

D.   Procesamiento de ln-database

57: ¿Cuál de los siguientes comandos se utiliza para iniciar la interfaz Ipython en el modo Pylab en línea y abrir el cuaderno de Ipython en el entorno Pylab?

A.   ipython —Pylab = en | ine

B.   ipython —Pylab = inline -notebook

C.   ipython = cuaderno —pylab.in | ine

D.   Notebook Ipython —Pylab = Inline

58: LN Minería de datos, según el teorema de Bayes, ¿cuál de las siguientes fórmulas representa la probabilidad posterior en términos de probabilidad previa?

A.   P (x/h) = P (H/X) P (H)/P (x)

B.   P (h/x) = P (x/h) P (H)/P (x)

C.   P (H/X) = P (x/h) P (x)/P (H)

D.   P (xih) = p (h/x)/p (h) p (x)

59: En la minería de datos, ¿cuál de las siguientes afirmaciones no es correcta sobre el algoritmo C45?

A.   Permite solo un resultado.

B.   C45 utiliza un algoritmo de paso único derivado de los límites de conflicto binomial.

C.   Utiliza criterios basados ​​en la información.

60: Si un usuario quiere aprender sobre las principales palabras clave que envían Traff‌ic a su sitio web, ¿cuál de las siguientes segmentos de adquisición debería preferirse?

A.   Referencias trafica

B.   Tráfico orgánico

C.   Tráfico directo

D.   Tráfico social

61: En Google Analytics Tool, ¿cuál de los siguientes análisis debe realizarse para identificar el origen del tráfico web de un usuario?

A.   Análisis de adquisición

B.   Análisis de audiencia

C.   Análisis de comportamiento

D.   Análisis de conversión

62: ¿Cuál de los siguientes tipos de minería de asociación descubre subsecuencias que son comunes a más que las secuencias MinSup en una base de datos de secuencia?

A.   Reglas secuenciales

B.   Reglas de asociación generalizada

C.   Minería de patrones secuencial

D.   Calentamiento

63: ¿Cuál de los siguientes factores es responsable de la ocurrencia de errores de muestreo?

A.   Errores debidos a medidas estadísticas incorrectas.

B.   Errores en la compilación.

C.   Enmarcado de un cuestionario incorrecto.

D.   Demarcación defectuosa de unidades de muestreo.

64: En la minería de datos, ¿cuál de las siguientes es la sintaxis correcta para definir el recuerdo, que se utiliza para evaluar la calidad de la recuperación de texto?

A.   Record = L [relevante} U [recuperado] l l l [relevante}!

B.   Recordar = l [relevante} u [recuperado] | l l {recuperado] l

C.   Recordar = l [relevante} f‌l {recuperado} | / l [recuperado] l

D.   Recordar = l [relevante} n [recuperado} l / l [relevanteji

65: ¿Cuál de las siguientes es la sintaxis R correcta utilizada para seleccionar ciertas filas de un marco de datos, basado en criterios lógicos específicos?

A.   SELECCIONAR (DATAFRAMENAME, Expresión lógica)

B.   f‌ilter (expresión lógica, dataFramename)

C.   f‌ilter (dataFramename, expresión lógica)

D.   Seleccionar (Expresión lógica, DataFrameName)

66: En el análisis de supervivencia, ¿cuál de los siguientes métodos se utiliza para modelar la función de peligro en un conjunto de variables predictoras?

A.   Surv ()

B.   coxph ()

C.   Survdiff ()

D.   Survf‌it ()

67: ¿Cuál de los siguientes es una función descriptiva involucrada en la minería de datos?

A.   Análisis de evolución

B.   Predicción

C.   Análisis atípico

D.   Minería de asociaciones

68: ¿Cuál de las siguientes afirmaciones no es correcta sobre la ciencia de datos?

A.   Se utiliza para convertir los datos en acciones.

B.   Apoya y fomenta el cambio entre el razonamiento deductivo e inductivo.

C.   Para lograr el éxito. Las organizaciones deben alcanzar la máxima vencimiento de la ciencia de datos.

D.   Es necesario que las empresas se queden con el paquete y compitan en el futuro.

69: ¿Cuál de los siguientes algoritmos de agrupación puede manejar datos ruidosos?

A.   CURAR

B.   ROCA

C.   ABEDUL

D.   Camaleón

70: ¿Cuál de las siguientes afirmaciones es correcta sobre el enfoque impulsado por la consulta del almacenamiento de datos?

A.   La integración compleja y los procesos de finalización son requeridos por este enfoque.

B.   Este enfoque permite copiar los datos. procesada. integrado. anotado. resumido y reestructurado en un almacén de datos semántico por adelantado.

C.   Es muy económico para consultas que requieren agregaciones.

D.   Es considerablemente más eficiente para consultas frecuentes.

71: Se da que Y es una variedad de Poisson y satisface la condición P (y = 4) = P (y = 5). ¿Cuáles son los valores de la media y la desviación estándar de Y?

A.   Media = 3 y desviación estándar = /5

B.   Media = 5 y desviación estándar = /3

C.   Media = 5 y desviación estándar = /’5

D.   Media = 7 y desviación estándar = /7

72: ¿Cuál de las siguientes funciones se utiliza para descomponer una serie temporal con tendencia aditiva y componentes estacionales e irregulares?

A.   stl0

B.   TSO

C.   ETSO

D.   Arimao

73: En la minería de datos, ¿cuál de los siguientes modelos es/se usa para predecir las etiquetas de clase categórica?

A.   Modelo de clasificación

B.   Modelo de predicción

C.   Tanto a como B

D.   Ni a ni B

74: En cuál de las tecnologías clave, que se utilizan para extraer el valor comercial de Big Data, los datos se gestionan como estratégicos. ¿Activo central con control de proceso continuo para análisis de big data?

A.   Gestión de la información para big data

B.   Análisis de alto rendimiento para big data

C.   Opciones de implementación flexibles para big data

75: En la minería de reglas de asociación, una indicación de la frecuencia con la que se ha encontrado que la regla es verdadera está representada por un término conocido como confianza. ¿Cómo es este término? confianza. representado para la regla, a => b?

A.   conf (a => b) = Supp (a u b) / supp (a)

B.   conf (a => b) = Supp (b) / Supp (a)

C.   conf (a => b) = Supp (a u b) / supp (a) ‘Supp (b)

D.   conf (a => b) = Supp (A u b) / 1 - Supp (a)

76: Para un conjunto dado de 25 ítems, coeficiente de correlación entre X e Y es 0.6. Los valores de la media aritmética de x e y son 14 y 18, respectivamente, y los valores de la desviación estándar de x e y son 4 y 6. respectivamente. Si la pareja (25. 18) se ha tomado erróneamente como (18, 25). Luego encuentre el valor correcto de la correlación coeficiente.

A.   0.31

B.   0.42

C.   0.51

D.   0.67

77: ¿Cuál de las siguientes es la forma correcta de expresar la hipótesis nula de la prueba de la cola inferior de la media de la población? Se da que UO es un límite inferior hipotético de la verdadera población media

A.   UP 5 ll

B.   P0 = L1

C.   PO 2 P

78: En la minería de datos, ¿cuál de las siguientes partes de un árbol de decisión representa el resultado de una prueba?

A.   Un nodo interno

B.   Un nodo de hoja

C.   Una rama

D.   El nodo más alto

79: ¿Cuál de las siguientes afirmaciones es/son correctas sobre un diferenciador SAS?

A.   Proporciona un enfoque de arquitectura rígida.

B.   Puede administrar y aprovechar solo un modelo a la vez.

C.   Está posicionado exclusivamente para ayudar a las organizaciones a convertir Big Data y Big Data Analytics en valor comercial.

D.   Ambas opciones A y C son correctas.

80: ¿Cuál de los siguientes es correcto sobre la clasificación de datos?

A.   Pone datos en forma precisa y condensada.

B.   El análisis estadístico de LL es posible para todos los tipos de datos, excepto datos clasificados.

C.   II] No permite la comparación entre varias características.

D.   Hace que los datos sean más fácilmente comprensibles eliminando detalles innecesarios.

81: En la función discriminante lineal del análisis de la función discriminante, ¿cuál es la función del siguiente método?

A.   Genera predicciones anunciadas.

B.   Se utiliza para obtener la función discriminante cuadrática.

C.   Imprime funciones discriminantes basadas en variables centradas, pero no estandarizadas.

D.   Puede mostrar los resultados de una clasificación lineal o cuadrática con dos variables a la vez.

82: En la minería de datos, ¿cuál de los siguientes modelos de clasificación está construido por el algoritmo KNN?

A.   Modelo de clasificación de árboles de decisión

B.   Modelo de clasificación de conjunto

C.   Modelo de clasificación de hiperplano

D.   No se construye ningún modelo de clasificación construido por KNN

83: En la minería de datos, ¿cuál de las siguientes es la sintaxis correcta del método Foil, Foil_prune, utilizado para la poda de reglas para una regla R? Se da que P es el número de tuplas positivas cubiertas por R y N es el número de tuplas negativas cubiertas por R.

A.   Foil_prune = p - n/p + n

B.   Foil_prune = p + n/p - n

C.   Foil_prune = P/N

D.   Foil_prune = n/p + n

84: En pruebas de hipótesis. ¿Cómo llamará a una población cuyos datos son categóricos y pertenecen a una colección de clases discretas no superpuestas?

A.   Monomio

B.   Binomio

C.   Trinomial

D.   Multinomial

85: ¿Cuál de las siguientes pruebas t debe realizarse para comparar medias de dos grupos diferentes?

A.   Una muestra t - prueba

B.   Muestras emparejadas t - prueba

C.   Muestras independientes t-test

D.   Análisis de varianza (ANOVA)

86: En la minería de reglas de asociación, ¿cuál de las siguientes afirmaciones es correcta sobre la generación frecuente del conjunto de elementos del enfoque de dos pasos?

A.   Genera solo un conjunto de elementos cuyo soporte 2 minsup

B.   Genera todos los conjuntos de elementos cuyo soporte 5 minsup

C.   Genera todos los conjuntos de elementos cuyo soporte 5 minsup

D.   Genera altas reglas de confianza de cada conjunto de elementos frecuentes

87: ¿Un usuario puede obtener las vistas de página de un sitio web con la ayuda de cuál de los siguientes objetivos de análisis web?

A.   Páginas/meta de sesión

B.   Meta de duración

C.   Objetivo de destino

D.   Objetivos de eventos

88: Si hay algunos datos con valores faltantes y debe leer un f‌ile de ayuda de una función, digamos mediana, ¿cuál de las siguientes opciones es la sintaxis R correcta para hacerlo?

A.   ? Mediana

B.   lectura.median0

C.   #mediana

D.   ayuda.median0

89: En Web Analytics, ¿cuál de las siguientes métricas se monitorea en el tablero de comercio electrónico?

A.   Tiempo de carga de la página por el navegador

B.   Venta total por productos

C.   Conversión por publicación de blog

D.   Fuente de tráfico en tiempo real

90: Se da un modelo estadístico paramétrico como: (S, P) con P = [P6: E E 9]. Según las anotaciones estadísticas, ¿cuál de los siguientes es el método correcto para representar A?

A.   E G R 0D

B.   A = R2D

C.   o c 2dr

D.   A E DRZ

91: Si el nivel de significación de una prueba es del 5%, ¿cuál será el resultado de la prueba si el valor p obtenido es mayor que 0.05?

A.   Rechazar hipótesis nula

B.   No rechazar la hipótesis nula

C.   La aceptación o el rechazo de la hipótesis nula es independiente del valor p.

92: ¿Cuál de los siguientes es el valor predeterminado del parámetro hlstorlcal_model_gap utilizado en el algoritmo de la serie temporal de Microsoft?

A.   10

B.   1

C.   0

D.   5

93: ¿Cuál de las siguientes es la sintaxis DMQL que se usa para especificar datos relevantes para tareas?

A.   Use la base de datos de la base de datos_name

B.   Use Data Warehouse Data_Warehouse_Name

C.   database.usedatabase_name

D.   datawarehouse.usedata_warehouse_name

94: _______ reduce el número de bits en un archivo identificando y eliminando la redundancia

A.   Compresión sin perdidas

B.   Compresión con pérdida

C.   Mapa de bits

D.   Visualización de datos

95: Los tipos de datos creados por el programador se conocen como ________.

A.   Variables

B.   Tipos de datos abstractos (ADTS)

C.   Funciones

D.   Parámetros

E.   Ninguno de esos

96: Diigo y deliciosos son ________ herramientas.

A.   Marcadores sociales

B.   Investigación

C.   Grupo de discusión

D.   Comunicación sincrónica

97: Los datos sucios son ________.

A.   Datos infectados con virus

B.   Datos infectados con gusanos

C.   Datos inexactos e incompletos

D.   Datos robados

98: El ______ de una hoja de trabajo define su apariencia.

A.   Forma

B.   Formato

C.   Vista

D.   Registro

99: ____ Las herramientas de casos proporcionan soporte para las fases de codificación e implementación.

A.   Horizontal

B.   Interfaz

C.   Back-end

D.   Vertical

100: ________ herramientas y técnicas procesa datos y realiza análisis estadísticos para información y descubrimiento.

A.   Gobierno de datos empresariales

B.   Sistemas de información patentados

C.   Inteligencia de Negocio

D.   Procesos de negocios