Questions de Data Analytics en langues françaises

Questions de Data Analytics en langues françaises

Testez votre compréhension des sujets d'analyse de données en répondant à plus de 100 QCM d'analyse de données.
Faites défiler vers le bas pour commencer !

1: Lequel des types de séries chronologiques suivants vise à séparer les composants périodiques ou cycliques dans une série temporelle?

A.   Analyse explicative

B.   Analyse spectrale

C.   Prévision

D.   Analyse descriptive

2: Lesquelles des options suivantes représentent (les) l'application correcte de l'exploitation des règles d'association?

A.   Conception de catalogue

B.   Analyse des données du panier

C.   Marketing croisé

D.   Analyse des leader à perte

E.   Tout ce qui précède

F.   Aucune de ces réponses

3: Laquelle des options suivantes est / sont les bonnes applications de l'exploitation de texte?

A.   Il peut traiter automatiquement les messages et les e-mails.

B.   Il peut enquêter sur les concurrents en rampant leurs sites Web.

C.   Il peut analyser les réponses à l'enquête ouverte.

D.   Il peut analyser la garantie ou les réclamations d'assurance.

E.   Tout ce qui précède.

4: En ce qui concerne l'algorithme de réseau neuronal Microsoft. Laquelle des options suivantes est le type de neurone qui représente les valeurs d'attribut prévisibles pour un modèle d'exploration de données?

A.   Neurone d'entrée

B.   Neurone caché

C.   Neurone de sortie

D.   Aucune de ces réponses

5: Laquelle des options suivantes est / est correcte sur l'algorithme Microsoft Naive Bayes?

A.   Il est utilisé pour calculer la probabilité conditionnelle entre les colonnes d'entrée et prévisibles et il suppose que les colonnes sont indépendantes.

B.   Il est utilisé pour effectuer une sélection de fonctionnalités automatique pour limiter le nombre de valeurs qui sont prises en compte lors de la construction d'un modèle.

C.   Il est fourni par Microsoft SQL Server Analysis Services pour une utilisation dans la modélisation prédictive.

D.   Il est utilisé pour considérer chaque paire de valeurs d'attribut d'entrée et de valeurs d'attribut de sortie.

E.   Tout ce qui précède.

6: Laquelle des options suivantes est correcte concernant la technique de régression logistique?

A.   Il est utilisé pour encourager l'effet de groupe en cas de variables hautement corrélées.

B.   Il est utilisé pour trouver la probabilité d'événement = succès et événement = échec.

C.   Il est utilisé pour ajouter et retirer les prédicteurs au besoin pour chaque étape.

D.   Il est utilisé pour pénaliser la taille absolue des coefficients de régression.

7: Dans l'exploration de données, laquelle des options suivantes est correcte sur l'algorithme de régression?

A.   Il est utilisé pour prédire une ou plusieurs variables numériques continues; Par exemple. bénéfice ou perte basé sur d'autres attributs dans un ensemble de données.

B.   Il est utilisé pour trouver des corrélations entre différents attributs dans un ensemble de données.

C.   Il est utilisé pour diviser les données en groupes ou grappes d'éléments qui ont des propriétés similaires.

D.   Il est utilisé pour résumer des séquences ou des épisodes fréquents dans les données; Par exemple. Une série d'événements de journal précédant la maintenance des machines.

8: Selon le modèle de règles de l'association Microsoft. Laquelle des options suivantes est l'onglet Vue correct qui combine des informations sur les ensembles d'éléments et leur valeur relative?

A.   ltemsets

B.   Réseau de dépendances

C.   Règles

D.   Aucune de ces réponses

9: Laquelle des énoncés suivants est correcte sur le type d'analyse d'intervention de l'analyse des séries chronologiques?

A.   Il est utilisé pour faire la question de savoir si un événement peut entraîner un changement dans une série temporelle.

B.   Il est utilisé pour faire une tendance ou un modèle dans une série temporelle grâce à l'utilisation de graphiques ou d'autres outils.

C.   Il est largement utilisé dans la budgétisation. qui est basé sur les tendances historiques.

D.   Il est utilisé pour étudier la corrélation croisée entre deux séries chronologiques et leur dépendance à l'égard d'un autre.

10: Lequel des éléments suivants est la valeur par défaut correcte du paramètre maximum_itemset_size, qui est utilisé avec l'algorithme de règles d'association Microsoft?

A.   dix

B.   3

C.   1

D.   0.4

11: En ce qui concerne les statistiques avancées, laquelle des options suivantes est la syntaxe correcte de la fonction GLM ()?

A.   GLM (Formule, Family = FamilyType (link = linkFunction), data =)

B.   GLM (formule, données =, méthode =, contrôle =)

C.   glm (vecteur, start =. end =, fréquence =)

D.   glm (bootObject. conf =, type =)

12: Lequel des éléments suivants est la syntaxe correcte de la commande qui vérifiera l'installation du package XLSX et chargera la bibliothèque dans R Workspace?

A.   bibliothèque grel.any (installer.packages ("xlsx")) ("xlsx")

B.   any (grel ("xlsx", installé.package ())) bibliothèque ("xlsx")

C.   any.grepl (xlsx, installé.package50) | Ibrary (xlsx)

D.   grel (any (installé.packages (xlsx))) | ibrary (xlsx)

13: Laquelle des techniques d'extraction de texte suivantes peut être utilisée pour les groupes de documents à référence avec du contenu similaire?

A.   Clustering

B.   Catégorisation

C.   Visualisation

D.   Extraction d'informations

14: Dans Sol Server Data Mining, lequel des types d'algorithmes suivants prédit une ou plusieurs variables discrètes basées sur d'autres attributs dans un ensemble de données?

A.   Algorithme de segmentation

B.   Algorithme de classification

C.   Algorithme d'analyse de séquence

D.   Algorithme d'association

15: Dans l'exploration de données, laquelle des options suivantes est la syntaxe correcte pour l'association?

A.   Associations de correspondance [en tant que patron_name] Analyser {Mesurer (S)}

B.   Associations de mines [en tant que patch_name] Analyser Classification_attribute_or_dimension

C.   Associations de mines [comme [Pattern_name]] {Matching {Metapattern}}

D.   Associations de mines [As Pattern_name] Analyser Prediction_Attribute_or_dimension {set [attribut_or_dimension_i = value_i}]

16: Laquelle des techniques de régression suivantes tente de maximiser le pouvoir de prédiction avec un nombre minimum de variables prédictives?

A.   Régression par étapes

B.   Régression polynomiale

C.   Régression linéaire

D.   Régression logistique

17: Laquelle des affirmations suivantes est correcte à propos de la colonne prévisible prise en charge par l'algorithme de régression linéaire Microsoft?

A.   Il prend en charge les types de contenu cyclique, de clé et de table.

B.   Il prend en charge les types de contenu clé, table et commandés.

C.   Il prend en charge les types de contenu continu, de clé et de table.

D.   Il prend en charge les types de contenu continues, cycliques et ordonnés.

18: Laquelle des instructions suivantes est correcte sur le paramètre Prediction_Smoothing utilisé dans l'algorithme de série temporelle Microsoft?

A.   Il spécifie comment un modèle doit être mélangé pour optimiser les prévisions.

B.   Il spécifie quel algorithme utiliser pour l'analyse et la prédiction.

C.   Il spécifie une valeur numérique comprise entre 0 et 1 qui détecte la périodicité.

D.   Il spécifie le nombre minimum de tranches de temps nécessaires pour générer une scission dans chaque arborescence de séries chronologiques.

19: Lequel des éléments suivants est la valeur par défaut correcte pour le paramètre Instabilité_Sensibilité utilisé avec l'algorithme de série temporelle Microsoft?

A.   0.6

B.   0.1

C.   dix

D.   1

20: En ce qui concerne les statistiques avancées, laquelle des options suivantes est correcte concernant la fonction Arimao?

A.   Il peut être utilisé pour produire une analyse de composants principaux non utilisée.

B.   Il peut être utilisé pour produire une analyse factorielle du maximum de vraisemblance.

C.   Il peut être utilisé pour amorcer le modèle d'équation structurelle.

D.   Il peut être utilisé pour faire un modèle de moyenne mobile intégrée autorégressif.

21: Dans l'exploration de données, laquelle des options suivantes est correcte concernant la mesure F-Score pour la récupération de texte?

A.   F-score = rappel - précision + (rappel x précision) / 9

B.   F-score = rappel + précision - (rappel x précision) i 7

C.   F-score = rappel x précision / (rappel + précision) / 2

D.   F-score = Rappel I Precision X (rappel - précision) / 5

22: Lequel des éléments suivants est la valeur par défaut du paramètre historique_model_gap utilisé dans l'algorithme de séries chronologiques Microsoft?

A.   dix

B.   1

C.   0

D.   5

23: Laquelle des techniques de statistiques avancées suivantes est utilisée pour identifier les variables latentes qui forment des groupes?

A.   Analyse de régression

B.   Anova

C.   Analyse factorielle

D.   Régression logistique

24: Dans l'exploration de données, laquelle des options suivantes déf‌ine la précision, qui est utilisée pour évaluer la qualité de la récupération de texte?

A.   précision: l [pertinent] n [récupéré] l / l [récupéré] l

B.   Précision = l [récupéré} u [f-score] l + l [f-score} l

C.   Précision = l [rappel] / [f-scorejl x l [recali] l

D.   Précision = l [f-score] x [rappeljl - l [f - score) l

25: Laquelle des mesures de récupération de texte suivantes est le pourcentage de documents, qui sont pertinents pour la requête et ont été réalisés?

A.   Précision

B.   Rappel

C.   F-score

D.   Aucune de ces réponses

26: Lequel des éléments suivants est la valeur par défaut correcte du paramètre Holdout_Percentage de l'algorithme de régression logistique Microsoft, qui est utilisé pour spécifier le pourcentage de cas dans les données de formation utilisées pour calculer une erreur de conservation?

A.   200

B.   30

C.   255

D.   100

27: Dans les statistiques avancées, lequel des énoncés suivants est correct concernant la méthode de régression de Dirichlet?

A.   Il est utilisé pour modéliser les variables binaires.

B.   Il est utilisé pour modéliser les données de composition.

C.   Il est utilisé pour modéliser les variables de rang.

D.   Il est utilisé pour modéliser les variables de comptage.

28: Dans laquelle des méthodes d'extraction de texte suivantes, les termes sont analysés au niveau de la phrase et du document?

A.   Méthode basée sur des phrases (PBM)

B.   Méthode basée sur des termes (TBM)

C.   Méthode de taxonomie de modèle (PTM)

D.   Méthode basée sur le concept (CBM)

29: Dans les statistiques avancées. Laquelle des méthodes de régression suivantes est utilisée pour modéliser les variables dans la gamme (0, 1)?

A.   Régression de la crête

B.   Régression bêta

C.   Régression de loess

D.   Régression isotonique

30: Selon l'algorithme de règles de l'association Microsoft, lequel des paramètres suivants spécifie le nombre minimum de cas qui doivent contenir un ensemble d'élément avant que l'algorithme ne génère une règle?

A.   Minimum_support

B.   Minimum_probabilité

C.   Minimum_itemset_size

D.   Minimum_itemset_count

31: Selon le modèle linéaire généralisé des statistiques avancées, lequel des éléments suivants est la fonction de liaison par défaut pour la famille gaussienne?

A.   (link = '' identité ")

B.   (link = '' iogit ")

C.   (link = '' iog ")

D.   (link = "inverse")

32: Selon l'algorithme des règles de l'association Microsoft, laquelle des options suivantes est la fonction de prédiction avec la valeur scalaire comme type de retour?

A.   lsinnode (dmx)

B.   Prédictassociation (DMX)

C.   PredictAdAjusted Probability (DMX)

D.   Predicthistogramme (DMX)

33: Laquelle des options suivantes est le clustering_method par défaut utilisé par l'algorithme de clustering Microsoft?

A.   Em non échecable

B.   Em évolutif

C.   K-means évolutif

D.   K - Sage non échelonable

34: Laquelle des options suivantes est le type de retour correct de la fonction de prédiction de prédicthistogramme (DMX) utilisé par l'algorithme de régression logistique Microsoft?

A.   Type booléen

B.   Valeur de cluster

C.   Tableau

D.   Valeur scalaire

35: Laquelle des options suivantes est le paramètre de l'algorithme de série chronologique Microsoft, qui est utilisé pour contrôler la croissance d'un arbre de décision?

A.   Prediction_smoothing

B.   Prévisé_method

C.   Instabilité_Sensibilité

D.   Complexity_penalty

36: Laquelle des affirmations suivantes est correcte sur l'indicateur de modélisation non nulle utilisé dans l'algorithme de série temporelle Microsoft?

A.   Il s'applique aux colonnes du modèle d'exploitation.

B.   Il s'applique aux colonnes de structure minière.

C.   Il s'applique à la fois aux colonnes du modèle d'exploitation et aux colonnes de structure minière.

D.   Il ne s'applique ni aux colonnes du modèle d'exploitation ni aux colonnes de structure d'exploitation.

37: Laquelle des méthodes d'échantillonnage suivantes est utilisée pour les unités hétérogènes d'univers plutôt que pour les unités homogènes et ne peut être adoptée que lorsque sa population est connue?

A.   Échantillonnage aléatoire simple

B.   Échantillonnage aléatoire stratifié

C.   Échantillonnage complet F

D.   Échantillonnage par quotas

38: Laquelle des énoncés suivants est incorrect concernant les méthodes d'échantillonnage?

A.   Les données peuvent être collectées plus rapidement dans une méthode d'échantillonnage.

B.   Une méthode d'échantillonnage fournit l'installation pour organiser et exécuter les travaux de recherche facilement.

C.   C'est moins cher.

D.   Aucune connaissance spécialisée n'est nécessaire pour utiliser une méthode d'échantillonnage.

39: Laquelle des affirmations suivantes n'est pas correcte à propos des pandas?

A.   Il est bien adapté aux données tabulaires avec des colonnes de type hétérogène.

B.   Seules les données étiquetées peuvent être placées dans une structure de données Pandas.

C.   Il convient aux données matricielles arbitraires (typées de manière homogène ou hétérogènes) avec des étiquettes de lignes et de colonnes.

D.   Les données temporelles ordonnées et non ordonnées (pas nécessairement f‌ixed) peuvent également être analysées avec des pandas.

40: Laquelle des mesures fondamentales suivantes utilisées pour évaluer la qualité de la récupération de texte représente le pourcentage de documents récupérés pertinents pour une requête?

A.   Rappel

B.   F-score

C.   Précision

D.   A et C

41: Lequel des algorithmes d'exploration de données suivants est appliqué à une base de données contenant un grand nombre de transactions et apprend également des règles d'association?

A.   K-means

B.   C45

C.   Em

D.   A priori

42: Tout en travaillant dans un environnement Pylab, lesquelles des options suivantes n'ont pas besoin d'être importées?

A.   matplotlib

B.   pandas

C.   nombant

D.   A et C

43: Dans l'exploitation des règles d'association, un ensemble d'éléments est considéré comme fermé dans laquelle des situations suivantes?

A.   Lorsque tous ses supersets immédiats ont le même support que l'articleset.

B.   Lorsqu'aucun de ses sous-ensembles immédiats n'a le même support que l'articleset.

C.   Lorsque tous ses sous-ensembles immédiats ont le même support que l'articleset.

D.   Lorsqu'aucun de ses supersets immédiats n'a le même support que l'articleset.

44: Il est donné que A et B sont deux variables binomiales indépendantes ayant des paramètres 3 114 et 2,1 / 4, respectivement. Trouvez P (A + B 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: Le modèle du sac de mots est utilisé dans lequel des processus d'extraction de texte suivants?

A.   Sélection des fonctionnalités

B.   Prétraitement du texte

C.   Génération des caractéristiques

D.   Les deux, A et B

46: Pour un groupe de 12 étudiants, la somme des carrés de différences dans leurs rangs pour les sciences et les mathématiques est donnée comme 60. Sur la base des informations données. Trouvez la valeur du coefficient de corrélation de rang.

A.   0,60

B.   0,79

C.   0,45

D.   0,82

47: Tout en calculant le coefficient de corrélation entre les ventes et les dépenses pendant une période de 12 ans. La différence de rang pendant un an a été prise à tort comme 9 au lieu de 7 et, par conséquent, la valeur du coefficient de corrélation de rang a été calculée à 0,79. Si l'erreur est rectifiée, quelle sera la valeur correcte approximative du coefficient de corrélation de rang?

A.   0,88

B.   0,82

C.   0,95

D.   0,90

48: Lequel des algorithmes de clustering suivants est utilisé pour le partitionnement basé sur la grille?

A.   BOULEAU

B.   K-means

C.   PIQUER

D.   FCM

49: Il est donné qu'il existe 15 paires de lectures sur X et Y de telle sorte que le coefficient de corrélation soit de 0,87. Il est également donné que l'écart type sur est de 5,60. Quelle sera l'erreur standard approximative d'estimation de y sur x?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

50: Sam est populaire pour avoir atteint une cible dans 6 tirs sur 12, tandis que John peut atteindre la même cible en 8 tirs sur 14. Quelle sera la probabilité que la cible soit touchée lorsqu'ils essaieront tous les deux?

A.   11/14

B.   13/14

C.   1/14

D.   3/14

51: Lequel des éléments suivants est une méthode d'échantillonnage non probabilité?

A.   Échantillonnage de jugement

B.   Échantillonnage aléatoire stratifié

C.   Échantillonnage en grappes

D.   Échantillonnage aléatoire à plusieurs étages

52: Laquelle des affirmations suivantes n'est pas correcte sur le réseau de croyances bayésien?

A.   L1 Dans un réseau de croyances, les indépendances conditionnelles de la classe peuvent être définies entre les sous-ensembles de variables.

B.   La distribution de probabilité conditionnelle conjointe VJ ne peut pas être spécifiée par les réseaux de croyances bayésiens.

C.   VJ Un réseau bayésien qualifié ne peut pas être utilisé pour la classification.

D.   VJ Un modèle graphique de relation occasionnelle pour effectuer l'apprentissage est fourni par le réseau de croyances bayésien.

53: Laquelle des affirmations suivantes est correcte concernant la méthode d'échantillonnage du jugement?

A.   Il n'y a aucune possibilité de préjugés personnels dans cette méthode.

B.   Il est plus précis et fiable.

C.   Il est principalement utilisé dans les champs où des unités presque similaires existent ou certaines unités sont trop importantes pour être exclues de l'échantillon.

D.   C'est très cher.

54: Dans le modèle baysian, lequel des éléments suivants est la bonne représentation de la densité articulaire de (6, x), si on sait que pour un 0 donné, les données observées x sont une réalisation de PA?

A.   n (xl0) p (x)

B.   n (0) p (x)

C.   n (0) p (xl0)

D.   nl (x) p (0lx)

55:

Laquelle des commandes suivantes est utilisée pour observer la façon dont un objet R est structuré? Il est donné que MyData est une variable où les données d'un utilisateur sont stockées.

A.   bibliothèque (mydata)

B.   décrire (mydata)

C.   str (mydata)

D.   Résumé (Mydata)

56: Dans laquelle des technologies suivantes de Big Data, déplace la gestion des données, l'analyse et les tâches de rapport pertinentes où réside les données, améliore la vitesse à la perspicacité, réduit le mouvement des données et favorise une meilleure gouvernance des données?

A.   Support pour Hadoop

B.   Analyse de la Mémoire LN

C.   Calcul en grille

D.   Traitement LN-Database

57: Laquelle des commandes suivantes est utilisée pour démarrer l'interface IPython en mode Pylab en ligne et ouvrir un ordinateur portable IPython dans un environnement Pylab?

A.   ipython —Pylab = in | Ine

B.   ipython —Pylab = inline -notebook

C.   Ipython = Notebook —Pylab.in | Ine

D.   IPython Notebook —Pylab = Inline

58: LN Data Mining, selon le théorème de Bayes, laquelle des formules suivantes représente la probabilité postérieure en termes de probabilité antérieure?

A.   P (x / h) = p (h / x) p (h) / p (x)

B.   P (h / x) = p (x / h) p (h) / p (x)

C.   P (h / x) = p (x / h) p (x) / p (h)

D.   P (xih) = p (h / x) / p (h) p (x)

59: Dans l'exploration de données, lequel des énoncés suivants n'est pas correct sur l'algorithme C45?

A.   Il n'autorise qu'un seul résultat.

B.   Un algorithme à un seul passage dérivé des limites de confessions binomiales est utilisé par C45.

C.   Il utilise des critères basés sur l'information.

60: Si un utilisateur souhaite en savoir plus sur les meilleurs mots clés qui envoient le trafic à son site Web, alors lequel des segmentations d'acquisition suivantes devrait être préférable?

A.   Trafic de références

B.   Traffing bio

C.   Trafic direct

D.   Trafic social

61: Dans Google Analytics Tool, lequel des analyses suivantes doit être effectué afin d'identifier l'origine du trafic Web d'un utilisateur?

A.   Analyse d'acquisition

B.   Analyse du public

C.   Analyse du comportement

D.   Analyse de conversion

62: Lequel des types suivants de l'exploitation d'association découvre les sous-séquences qui sont communs à plus que les séquences Minsup dans une base de données de séquences?

A.   Règles séquentielles

B.   Règles d'association généralisées

C.   Extraction de motif séquentiel

D.   Chaleur

63: Lequel des facteurs suivants est responsable de la survenue d'erreurs d'échantillonnage?

A.   Erreurs dues à de mauvaises mesures statistiques.

B.   Erreurs de compilation.

C.   Cadrage d'un mauvais questionnaire.

D.   Démarcation défectueuse des unités d'échantillonnage.

64: Dans l'exploration de données, lequel des éléments suivants est la syntaxe correcte pour définir le rappel, qui est utilisé pour évaluer la qualité de la récupération de texte?

A.   Rappel = l [pertinent} u [récupéré] l l l [pertinent}!

B.   Rappel = l [pertinent} u [récupéré] | l l {récupéré] l

C.   Rappel = l [pertinent} f‌l {récupéré} | / l [récupéré] l

D.   Rappel = l [pertinent} n [récupéré} l / l [pertinentji

65: Lequel des éléments suivants est la syntaxe R correcte utilisée pour sélectionner certaines lignes à partir d'un cadre de données, basé sur des critères logiques spécifiques?

A.   SELECT (DataFrameName, expression logique)

B.   f‌ilter (expression logique, dataframename)

C.   f‌ilter (dataframename, expression logique)

D.   SELECT (expression logique, dataframename)

66: Dans l'analyse de survie, laquelle des méthodes suivantes est utilisée pour modéliser la fonction de danger sur un ensemble de variables prédictives?

A.   Surv ()

B.   coxph ()

C.   Survdiff ()

D.   Survf‌it ()

67: Lequel des éléments suivants est une fonction descriptive impliquée dans l'exploration de données?

A.   Analyse de l'évolution

B.   Prédiction

C.   Analyse aberrante

D.   Extraction des associations

68: Laquelle des affirmations suivantes n'est pas correcte sur la science des données?

A.   Il est utilisé pour transformer les données en actions.

B.   Il soutient et encourage le déplacement entre le raisonnement déductif et inductif.

C.   Afin de réussir. Les organisations doivent atteindre la maturité maximale des sciences des données.

D.   Il est nécessaire que les entreprises restent avec le pack et rivalisent à l'avenir.

69: Lequel des algorithmes de clustering suivants peut gérer des données bruyantes?

A.   GUÉRIR

B.   OSCILLER

C.   BOULEAU

D.   Caméléon

70: Laquelle des affirmations suivantes est correcte concernant l'approche de l'entreposage de données axée sur la requête?

A.   L'intégration complexe et les processus f‌iltering sont nécessaires par cette approche.

B.   Cette approche permet de copier les données. traité. intégré. annoté. résumé et restructuré dans un magasin de données sémantique à l'avance.

C.   Il est très économique pour les requêtes qui nécessitent des agrégations.

D.   Il est considérablement plus efficace pour les requêtes fréquentes.

71: Il est donné que y est un Poisson varier et satisfait la condition p (y = 4) = p (y = 5). Quelles sont les valeurs de la moyenne et de l'écart type de Y?

A.   Moyenne = 3 et écart type = / 5

B.   Moyenne = 5 et écart type = / 3

C.   Moyenne = 5 et écart type = / ’5

D.   Moyenne = 7 et écart type = / 7

72: Laquelle des fonctions suivantes est utilisée pour décomposer une série chronologique avec une tendance additive et des composants saisonniers et irréguliers?

A.   STL0

B.   tso

C.   ETSO

D.   arimao

73: Dans l'exploration de données, lequel des modèles suivants est / est utilisé pour prédire les étiquettes de classe catégorielles?

A.   Modèle de classification

B.   Modèle de prédiction

C.   Les deux, A et B

D.   Ni A ni B

74: Dans laquelle des technologies clés, qui sont utilisées pour extraire la valeur commerciale des mégadonnées, les données sont gérées comme stratégiques. Asset de base avec contrôle des processus continu pour l'analyse des mégadonnées?

A.   Gestion de l'information pour les mégadonnées

B.   Analyse haute performance pour les mégadonnées

C.   Options de déploiement flexibles pour les mégadonnées

75: Dans l'exploitation des règles d'association, une indication de la fréquence à laquelle la règle s'est avérée est vraie est représentée par un terme connu sous le nom de confiance. Comment est ce terme. confiance. représenté pour la règle, a => b?

A.   conf (a => b) = supp (a u b) / supp (a)

B.   conf (a => b) = Supp (b) / Supp (a)

C.   conf (a => b) = Supp (a u b) / Supp (a) ‘Supp (b)

D.   conf (a => b) = supp (a u b) / 1 - Supp (a)

76: Pour un ensemble donné de 25 éléments, le coefficient de corrélation entre x et y est de 0,6. Les valeurs de la moyenne arithmétique de X et Y sont respectivement de 14 et 18, et les valeurs de l'écart type de X et Y sont respectivement 4 et 6. Si la paire (25. 18) a été à tort comme (18, 25). Trouvez ensuite la valeur correcte du coefficient de corrélation.

A.   0,31

B.   0,42

C.   0,51

D.   0,67

77: Lequel des énoncés suivants est la bonne façon d'exprimer une hypothèse nulle du test de queue inférieur de la population? Il est donné que l'UO est une limite inférieure supposée de la moyenne de la population

A.   Up 5 ll

B.   P0 = l1

C.   Po 2 P

78: Dans l'exploration de données, laquelle des parties suivantes d'un arbre de décision représente le résultat d'un test?

A.   Un nœud interne

B.   Un nœud de feuille

C.   Une branche

D.   Le nœud le plus haut

79: Laquelle des affirmations suivantes est / est correcte à propos d'un différenciateur SAS?

A.   Il fournit une approche d'architecture rigide.

B.   Il peut gérer et exploiter un seul modèle à la fois.

C.   Il est uniquement placé pour aider les organisations à transformer les mégadonnées et l'analyse des mégadonnées en valeur commerciale.

D.   Les deux options A et C sont correctes.

80: Lequel des éléments suivants est correct concernant la classification des données?

A.   Il met des données sous forme précise et condensée.

B.   L'analyse statistique LL est possible pour tous les types de données sauf les données classifiées.

C.   Ii] Il ne permet pas de comparaison entre diverses caractéristiques.

D.   Il rend les données plus facilement compréhensibles en éliminant les détails inutiles.

81: Dans la fonction discriminante linéaire de l'analyse de la fonction discriminante, quelle est la fonction de la méthode suivante?

A.   Il génère des prédictions jacquées.

B.   Il est utilisé pour obtenir la fonction discriminante quadratique.

C.   Il imprime des fonctions discriminantes basées sur des variables centrées, mais non standardisées.

D.   Il peut afficher les résultats d'une classification linéaire ou quadratique avec deux variables à la fois.

82: Dans l'exploration de données, lequel des modèles de classification suivants est construit par l'algorithme KNN?

A.   Modèle de classification des arbres de décision

B.   Modèle de classification d'ensemble

C.   Modèle de classification hyperplane

D.   Aucun modèle de classification n'est construit par KNN

83: Dans l'exploration de données, lequel des éléments suivants est la syntaxe correcte de la méthode de feuille, Foil_Prune, utilisée pour l'élagage des règles pour une règle R? Il est donné que P est le nombre de tuples positifs couverts par R et N est le nombre de tuples négatifs couverts par R.

A.   Foil_pune = p - n / p + n

B.   Foil_pune = p + n / p - n

C.   Foil_pune = p / n

D.   Foil_pune = n / p + n

84: Dans les tests d'hypothèse. Comment appellerez-vous une population dont les données sont catégoriques et appartiennent à une collection de classes non chevauchantes discrètes?

A.   Monomial

B.   Binôme

C.   Trinôme

D.   Multinomial

85: Lequel des tests t suivants doit être effectué afin de comparer les moyens de deux groupes différents?

A.   Un échantillon t - test

B.   Échantillons appariés t - test

C.   Échantillons indépendants T-test

D.   Analyse de la variance (ANOVA)

86: Dans l'exploitation des règles d'association, laquelle des affirmations suivantes est correcte concernant la génération fréquente de coffre d'élément de l'approche en deux étapes?

A.   Génère un seul élément dont le support 2 minutes

B.   Génère tous les ensembles d'éléments dont le support 5 minutes

C.   Génère tous les ensembles d'éléments dont le support 5 minutes

D.   Génère des règles de confiance élevées à partir de chaque ensemble d'articles fréquents

87: Un utilisateur peut obtenir les pages vues d'un site Web avec l'aide de laquelle des objectifs d'analyse Web suivants?

A.   Pages / objectif de session

B.   Objectif de durée

C.   Objectif de destination

D.   Buts de l'événement

88: S'il y a des données avec des valeurs manquantes et que vous devez lire une aide à une fonction, disons la médiane, alors lequel des éléments suivants est la syntaxe R correcte pour le faire?

A.   ? médian

B.   read.median0

C.   #médian

D.   help.median0

89: Dans Web Analytics, laquelle des mesures suivantes est surveillée dans le tableau de bord du commerce électronique?

A.   Temps de chargement de page par navigateur

B.   Vente totale par produits

C.   Conversion par article de blog

D.   Source du trafic en temps réel

90: Un modèle statistique paramétrique est donné comme suit: (s, p) avec p = [p6: e e 9]. Sur la base des notations statistiques, lequel des éléments suivants est la méthode correcte de représentation A?

A.   e g r 0d

B.   a = r2d

C.   O C 2DR

D.   A e drz

91: Si le niveau de signification d'un test est de 5%, quel sera le résultat du test si la valeur de p obtenue est supérieure à 0,05?

A.   Rejeter l'hypothèse nulle

B.   Ne pas rejeter l'hypothèse nulle

C.   L'acceptation ou le rejet de l'hypothèse nulle est indépendante de la valeur p.

92: Lequel des éléments suivants est la valeur par défaut du paramètre hlstorlcal_model_gap utilisé dans l'algorithme de série temporelle Microsoft?

A.   dix

B.   1

C.   0

D.   5

93: Lequel des éléments suivants est la syntaxe DMQL utilisée pour spécifier les données pertinentes à la tâche?

A.   Utiliser la base de données de la base de données_name

B.   Utiliser Data Warehouse Data_warehouse_name

C.   database.usedatabase_name

D.   datawarehouse.usedata_warehouse_name

94: _______ réduit le nombre de bits dans un fichier en identifiant et en éliminant la redondance

A.   Compression sans perte

B.   La compression avec perte

C.   Bitmap

D.   Visualisation de données

95: Les types de données créés par le programmeur sont appelés ________.

A.   Variables

B.   Types de données abstraits (ADT)

C.   Les fonctions

D.   Paramètres

E.   Aucun d'eux

96: Diigo et délicieux sont des outils ________.

A.   Référencement social

B.   Recherche

C.   Groupe de discussion

D.   Communication synchrone

97: Les données sales sont ________.

A.   Données infectées par le virus

B.   Données infectées par le vers

C.   Données inexactes et incomplètes

D.   Données volées

98: Le ______ d'une feuille de calcul définit son apparence.

A.   Former

B.   Format

C.   Voir

D.   Enregistrer

99: ____ Les outils de cas fournissent une prise en charge des phases de codage et de mise en œuvre.

A.   Horizontal

B.   L'extrémité avant

C.   Back-end

D.   Vertical

100: ________ Les outils et techniques traitent les données et effectuent une analyse statistique pour la perspicacité et la découverte.

A.   Gouvernance des données de l'entreprise

B.   Systèmes d'information propriétaires

C.   L'intelligence d'entreprise

D.   Processus d'affaires