Domande di Data Analytics in lingua italiana

Domande di Data Analytics in lingua italiana

Metti alla prova la tua comprensione degli argomenti di analisi dei dati rispondendo a oltre 100 MCQ di analisi dei dati.
Scorri verso il basso per iniziare!

1: Quale dei seguenti tipi di analisi delle serie temporali mira a separare i componenti periodici o ciclici in una serie temporale?

A.   Analisi esplicativa

B.   Analisi spettrale

C.   Previsione

D.   Analisi descrittiva

2: Quali delle seguenti opzioni rappresentano l'applicazione corretta del mining delle regole dell'associazione?

A.   Design del catalogo

B.   Analisi dei dati del paniere

C.   Marketing incrociato

D.   Analisi del leader perdita

E.   Tutti i precedenti

F.   Nessuna delle precedenti

3: Quali delle seguenti opzioni sono/sono le applicazioni corrette del mining di testo?

A.   Può elaborare automaticamente messaggi ed e -mail.

B.   Può indagare sui concorrenti strisciando i loro siti Web.

C.   Può analizzare le risposte al sondaggio aperto.

D.   Può analizzare la garanzia o i reclami assicurativi.

E.   Tutti i precedenti.

4: Rispetto all'algoritmo di rete neurale Microsoft. Quale delle seguenti opzioni è il tipo di neurone che rappresenta valori di attributo prevedibili per un modello di data mining?

A.   Neurone di ingresso

B.   Neurone nascosto

C.   Neurone di output

D.   Nessuna delle precedenti

5: Quali delle seguenti opzioni sono/sono corrette sull'algoritmo Microsoft Naive Bayes?

A.   Viene utilizzato per calcolare la probabilità condizionale tra ingresso e colonne prevedibili e presuppone che le colonne siano indipendenti.

B.   Viene utilizzato per l'esecuzione della selezione automatica delle caratteristiche per limitare il numero di valori che vengono considerati durante la costruzione di un modello.

C.   È fornito da Microsoft SQL Server Analysis Services per l'uso nella modellazione predittiva.

D.   Viene utilizzato per considerare ogni coppia di valori di attributo di input e valori degli attributi di output.

E.   Tutti i precedenti.

6: Quale delle seguenti opzioni è corretta sulla tecnica di regressione logistica?

A.   È usato per incoraggiare l'effetto di gruppo in caso di variabili altamente correlate.

B.   Viene utilizzato per trovare la probabilità di event = successo e event = fallimento.

C.   Viene utilizzato per l'aggiunta e la rimozione dei predittori secondo necessità per ogni passaggio.

D.   È usato per penalizzare la dimensione assoluta dei coefficienti di regressione.

7: Nel data mining, quale delle seguenti opzioni è corretta sull'algoritmo di regressione?

A.   È usato per prevedere una o più variabili numeriche continue; Per esempio. profitto o perdita che si basa su altri attributi in un set di dati.

B.   Viene utilizzato per trovare correlazioni tra diversi attributi in un set di dati.

C.   Viene utilizzato per dividere i dati in gruppi o cluster di elementi che hanno proprietà simili.

D.   Viene utilizzato per riassumere sequenze o episodi frequenti nei dati; Per esempio. Una serie di eventi di registro che precedono la manutenzione della macchina.

8: Secondo il modello di regole di Associazione Microsoft. Quale delle seguenti opzioni è la scheda Visualizzatore corretta che combina informazioni sugli elementi e sul loro valore relativo?

A.   Ltemset

B.   Rete di dipendenza

C.   Regole

D.   Nessuna delle precedenti

9: Quale delle seguenti affermazioni è corretta sul tipo di analisi di intervento dell'analisi delle serie temporali?

A.   È usato per indicare se un evento può portare a una modifica in una serie temporale.

B.   Viene utilizzato per indicare una tendenza o un modello in una serie temporale attraverso l'uso di grafici o altri strumenti.

C.   Viene ampiamente utilizzato nel budget. che si basa su tendenze storiche.

D.   È usato per studiare la correlazione incrociata tra due serie temporali e la loro dipendenza da un'altra.

10: Quale dei seguenti è il valore predefinito corretto del parametro Maximum_Itemset_Size, che viene utilizzato con l'algoritmo delle regole di Associazione Microsoft?

A.   10

B.   3

C.   1

D.   0.4

11: Per quanto riguarda le statistiche avanzate, quale delle seguenti opzioni è la sintassi corretta della funzione GLM ()?

A.   GLM (Formula, Family = FamilyType (link = linkFunction), data =)

B.   GLM (Formula, Data =, Method =, Control =)

C.   GLM (vettoriale, start =. end =, frequenza =)

D.   GLM (BootObject. Conf =, type =)

12: Quale delle seguenti è la sintassi corretta del comando che verificherà l'installazione del pacchetto XLSX e carichi la libreria in Apazza di lavoro R?

A.   Grepl.any (installato.packages ("xlsx")) libreria ("xlsx")

B.   qualsiasi (Grepl ("xlsx", installato.package ())) libreria ("xlsx")

C.   Any.grepl (xlsx, installato.package50) | ibrary (xlsx)

D.   Grepl (Any (installato.Packages (xlsx)) | ibrary (xlsx)

13: Quale delle seguenti tecniche di estrazione del testo può essere utilizzata per fumare gruppi di documenti con contenuti simili?

A.   Clustering

B.   Categorizzazione

C.   Visualizzazione

D.   Estrazione delle informazioni

14: Nel data mining del server SOL, quale dei seguenti tipi di algoritmo prevede una o più variabili discrete basate su altri attributi in un set di dati?

A.   Algoritmo di segmentazione

B.   Algoritmo di classificazione

C.   Algoritmo di analisi della sequenza

D.   Algoritmo di associazione

15: Nel data mining, quale delle seguenti opzioni è la sintassi corretta per l'associazione?

A.   Match Associations [as pattern_name] analizza {misura (s)}

B.   Mine Associations [as pattern_name] analizza classificati_attribute_or_dimension

C.   Mine Associations [as [pattern_name]] {corrispondente {metapattern}}

D.   Mine Associations [as pattern_name] analizza previsione_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: Quale delle seguenti tecniche di regressione tenta di massimizzare la potenza di previsione con il numero minimo di variabili predittive?

A.   Regressione graduale

B.   Regressione polinomiale

C.   Regressione lineare

D.   Regressione logistica

17: Quale delle seguenti affermazioni è corretta sulla colonna prevedibile supportata dall'algoritmo di regressione lineare Microsoft?

A.   Supporta i tipi di contenuti ciclici, chiave e della tabella.

B.   Supporta i tipi chiave, tabella e contenuto ordinati.

C.   Supporta i tipi di contenuto continuo, chiave e tabella.

D.   Supporta i tipi di contenuto continui, ciclici e ordinati.

18: Quale delle seguenti affermazioni è corretta sul parametro previsione_smoothing utilizzato nell'algoritmo delle serie temporali Microsoft?

A.   Specifica come un modello dovrebbe essere miscelato per l'ottimizzazione delle previsioni.

B.   Specifica quale algoritmo utilizzare per l'analisi e la previsione.

C.   Specifica un valore numerico tra 0 e 1 che rileva la periodicità.

D.   Specifica il numero minimo di fette di tempo necessarie per generare una divisione in ogni albero delle serie temporali.

19: Quale dei seguenti è il valore predefinito corretto per il parametro Instability_Sensity utilizzato con l'algoritmo delle serie temporali Microsoft?

A.   0.6

B.   0.1

C.   10

D.   1

20: Per quanto riguarda le statistiche avanzate, quale delle seguenti opzioni è corretta sulla funzione Arimao?

A.   Può essere utilizzato per produrre un'analisi dei componenti principali non classificati.

B.   Può essere utilizzato per produrre analisi dei fattori di massima probabilità.

C.   Può essere utilizzato per avviarsi il modello di equazione strutturale.

D.   Può essere utilizzato per fuire un modello di media mobile integrato autoregressivo.

21: Nel data mining, quale delle seguenti opzioni è corretta sulla misura del punteggio F per il recupero del testo?

A.   F -SCORE = RICHIAMA - Precision + (RICHIAME X Precision) / 9

B.   F -SCORE = richiamo + precisione - (richiamo x precisione) i 7

C.   F-SCORE = RICHIAME X Precision / (RICHIAME + PRECISION) / 2

D.   F -Score = RICHIAMA I Precision X (RICHIAME - PRECISION) / 5

22: Quale dei seguenti è il valore predefinito del parametro storico_model_gap utilizzato nell'algoritmo delle serie temporali Microsoft?

A.   10

B.   1

C.   0

D.   5

23: Quale delle seguenti tecniche statistiche avanzate viene utilizzata per identificare le variabili latenti che formano gruppi?

A.   Analisi di regressione

B.   Anova

C.   Analisi dei fattori

D.   Regressione logistica

24: Nel data mining, quale delle seguenti opzioni definisce correttamente la precisione, che viene utilizzata per valutare la qualità del recupero del testo?

A.   Precisione: l [pertinente] n [recuperato] l / l [recuperato] l

B.   Precision = L [recuperati} u [f-Score] l + l [f-Score} l

C.   Precision = L [richiamo] / [f-Scorejl x l [recali] l

D.   Precision = L [F -Score] x [richiamojl - l [f - punteggio) l

25: Quale delle seguenti misure di recupero del testo è la percentuale di documenti, che sono rilevanti per la query e sono stati effettivamente recuperati?

A.   Precisione

B.   Richiamare

C.   F-Score

D.   Nessuna delle precedenti

26: Quale dei seguenti è il valore predefinito corretto del parametro HoldOut_PerCentage dell'algoritmo di regressione logistica Microsoft, che viene utilizzato per specificare la percentuale di casi all'interno dei dati di addestramento utilizzati per calcolare un errore di mantenimento?

A.   200

B.   30

C.   255

D.   100

27: Nelle statistiche avanzate, quale delle seguenti affermazioni è corretta sul metodo di regressione di Dirichlet?

A.   Viene utilizzato per modellare le variabili binarie.

B.   Viene utilizzato per modellare i dati compositivi.

C.   Viene utilizzato per modellare le variabili di rango.

D.   Viene utilizzato per modellare le variabili di conteggio.

28: In quale dei seguenti metodi di estrazione del testo, i termini vengono analizzati a livello di frase e documento?

A.   Metodo basato sulle frasi (PBM)

B.   Metodo basato su termini (TBM)

C.   Metodo tassonomia dei modelli (PTM)

D.   Metodo basato su concetti (CBM)

29: In statistiche avanzate. Quale dei seguenti metodi di regressione viene utilizzato per modellare le variabili all'interno dell'intervallo (0, 1)?

A.   Regressione della cresta

B.   Regressione beta

C.   Regressione di Loess

D.   Regressione isotonica

30: Secondo l'algoritmo delle regole di Associazione Microsoft, quale dei seguenti parametri specifica il numero minimo di casi che devono contenere un set di elementi prima che l'algoritmo genera una regola?

A.   MINIMINE_SUPPORT

B.   Minimo_probabilità

C.   MINIMINE_ITEMSET_SIZE

D.   MINIMINE_ITEMSET_COUNT

31: Secondo le statistiche avanzate modello lineare generalizzato, quale dei seguenti è la funzione di collegamento predefinita per la famiglia gaussiana?

A.   (link = '' Identity ")

B.   (link = '' iogit ")

C.   (link = "" iog ")

D.   (link = "inverso")

32: Secondo l'algoritmo delle regole dell'associazione Microsoft, quale delle seguenti opzioni è la funzione di previsione con valore scalare come tipo di restituzione?

A.   lsinnode (dmx)

B.   Predictassociation (DMX)

C.   PredictAdjustedProbability (DMX)

D.   PredicTistogram (DMX)

33: Quale delle seguenti opzioni è il clustering_method predefinito utilizzato dall'algoritmo di clustering Microsoft?

A.   Em non scalabile

B.   Em scalabile

C.   K scalabili K-Means

D.   K-mean non scalabili

34: Quale delle seguenti opzioni è il tipo di restituzione corretto della funzione di previsione di Predicthistogram (DMX) utilizzata dall'algoritmo di regressione logistica Microsoft?

A.   Tipo booleano

B.   Valore del cluster

C.   Tavolo

D.   Valore scalare

35: Quale delle seguenti opzioni è il parametro dell'algoritmo delle serie temporali Microsoft, che viene utilizzato per controllare la crescita di un albero decisionale?

A.   Previsione_smoothing

B.   Forecast_method

C.   Instability_Sensity

D.   Complessità_penalty

36: Quale delle seguenti affermazioni è corretta sul flag di modellazione non nullo utilizzato nell'algoritmo delle serie temporali Microsoft?

A.   Si applica alle colonne del modello di mining.

B.   Si applica alle colonne della struttura mineraria.

C.   Si applica sia alle colonne del modello di mining che alle colonne della struttura mineraria.

D.   Non si applica né alle colonne del modello di mining né alle colonne della struttura mineraria.

37: Quale dei seguenti metodi di campionamento viene utilizzato per le unità eterogenee dell'universo piuttosto che le unità omogenee e può essere adottata solo quando la sua popolazione è nota?

A.   Semplice campionamento casuale

B.   Campionamento casuale stratificato

C.   Vasto campionamento f

D.   Campionamento della quota

38: Quale delle seguenti affermazioni non è corretta sui metodi di campionamento?

A.   I dati possono essere raccolti più velocemente in un metodo di campionamento.

B.   Un metodo di campionamento fornisce la struttura per organizzare ed eseguire comodamente il lavoro di ricerca.

C.   È meno costoso.

D.   Non è necessaria alcuna conoscenza specializzata per utilizzare un metodo di campionamento.

39: Quale delle seguenti affermazioni non è corretta sui panda?

A.   È adatto per dati tabulari con colonne eterogenee.

B.   Solo i dati etichettati possono essere inseriti in una struttura di dati Panda.

C.   È adatto per i dati di matrice arbitraria (tipizzato in modo omogeneo o eterogeneo) con etichette di riga e colonne.

D.   I dati delle serie temporali ordinati e non ordinati (non necessariamente f‌xed-frequenza) possono essere analizzati con i panda.

40: Quale delle seguenti misure fondamentali utilizzate per valutare la qualità del recupero del testo rappresenta la percentuale di documenti recuperati rilevanti per una query?

A.   Richiamare

B.   F-Score

C.   Precisione

D.   Sia A e C

41: Quale dei seguenti algoritmi di data mining è applicato a un database contenente un gran numero di transazioni e apprende anche le regole dell'associazione?

A.   K-Means

B.   C45

C.   Em

D.   A priori

42: Mentre si lavora in un ambiente Pylab, quali delle seguenti opzioni non devono essere importate?

A.   matplotlib

B.   panda

C.   numpy

D.   Sia a che c

43: Nell'estrazione delle regole dell'associazione, un set di articoli è considerato chiuso in quale delle seguenti situazioni?

A.   Quando tutti i suoi superset immediati hanno lo stesso supporto dell'articolo.

B.   Quando nessuno dei suoi sottoinsiemi immediati ha lo stesso supporto dell'articolo.

C.   Quando tutti i suoi sottoinsiemi immediati hanno lo stesso supporto dell'articolo.

D.   Quando nessuno dei suoi superset immediati ha lo stesso supporto dell'articolo.

44: Si è dato che A e B sono due variabili binomiali indipendenti con parametri 3,114 e 2,1/4, rispettivamente. Trova P (A + B 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: Il modello Bag-of Worde viene utilizzato in quale dei seguenti processi di estrazione del testo?

A.   Selezione delle caratteristiche

B.   Preelaborazione del testo

C.   Caratteristiche Generazione

D.   Sia a che B

46: Per un gruppo di 12 studenti, la somma dei quadrati di differenze nei loro ranghi per la scienza e la matematica è data 60. Sulla base delle informazioni fornite. Trova il valore del coefficiente di correlazione dei ranghi.

A.   0.60

B.   0.79

C.   0.45

D.   0.82

47: Durante il calcolo del coefficiente di correlazione dei ranghi tra vendite e spese per un periodo di tempo di 12 anni. La differenza di rango per un anno è stata erroneamente presa come 9 anziché 7 e, di conseguenza, il valore del coefficiente di correlazione dei ranghi è stato calcolato come 0,79. Se l'errore viene rettificato, allora quale sarà il valore corretto approssimativo del coefficiente di correlazione dei ranghi?

A.   0.88

B.   0.82

C.   0.95

D.   0.90

48: Quale dei seguenti algoritmi di clustering viene utilizzato per il partizionamento a base di griglia?

A.   BETULLA

B.   K-Means

C.   PUNTURA

D.   FCM

49: È dato che ci sono 15 coppie di letture su xey in modo tale che il coefficiente di correlazione sia 0,87. È inoltre dato che la deviazione standard è 5,60. Quale sarà l'errore standard approssimativo di stima di y su x?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

50: Sam è popolare per aver colpito un bersaglio in 6 colpi su 12, mentre John può colpire lo stesso bersaglio in 8 su 14 colpi. Quale sarà la probabilità che l'obiettivo venga colpito quando entrambi provano?

A.   11/11

B.   13/14

C.   1/14

D.   3/14

51: Quale delle seguenti è un metodo di campionamento non probabilità?

A.   Campionamento del giudizio

B.   Campionamento casuale stratificato

C.   Campionamento del cluster

D.   Campionamento casuale a più stadi

52: Quali delle seguenti affermazioni non sono corrette sulla rete di credenze bayesiane?

A.   L1 In una rete di credenze, le indipendenti condizionali di classe possono essere definite tra i sottoinsiemi di variabili.

B.   La distribuzione di probabilità condizionale congiunta VJ non può essere specificata dalle reti di credenze bayesiane.

C.   VJ Una rete bayesiana addestrata non può essere utilizzata per la classificazione.

D.   VJ Un modello grafico di relazioni casuali per l'esecuzione dell'apprendimento è fornito da Bayesian Belief Network.

53: Quale delle seguenti affermazioni è corretta sul metodo di campionamento del giudizio?

A.   Non vi è alcuna possibilità di pregiudizio personale in questo metodo.

B.   È più accurato e affidabile.

C.   È principalmente usato in quei campi in cui esistono unità quasi simili o alcune unità sono troppo importanti "per essere lasciate fuori dal campione.

D.   È molto costoso.

54: Nel modello baysiano, quale dei seguenti è la rappresentazione corretta della densità articolare di (6, x), se è noto che per un dato 0, i dati osservati x sono una realizzazione di PA?

A.   n (xl0) p (x)

B.   n (0) p (x)

C.   n (0) p (xl0)

D.   nl (x) p (0lx)

55:

Quale dei seguenti comandi viene utilizzato per osservare il modo in cui un oggetto R è strutturato? È dato che MyData è una variabile in cui vengono archiviati i dati di un utente.

A.   Biblioteca (mydata)

B.   Descrivi (mydata)

C.   str (mydata)

D.   Riepilogo (mydata)

56: In quale delle seguenti tecnologie di Big Data, spostamento della gestione pertinenti dei dati, analisi e compiti di segnalazione su dove risiedono i dati, migliora la velocità per approfondimenti, riduce i movimenti dei dati e promuove una migliore governance dei dati?

A.   Supporto per Hadoop

B.   Analisi della memoria LN

C.   Grid computing

D.   elaborazione del database ln

57: Quale dei seguenti comandi viene utilizzato per l'avvio dell'interfaccia Ipython in modalità Pylab in linea e l'apertura del taccuino Ipython in ambiente Pylab?

A.   ipython —pylab = in | ine

B.   ipython —pylab = inline -notebook

C.   ipython = notebook —pylab.in | ine

D.   Ipython Notebook —Pylab = inline

58: Il data mining LN, secondo il teorema di Bayes, quale delle seguenti formule rappresenta la probabilità posteriore in termini di probabilità precedente?

A.   P (x/h) = p (h/x) p (h)/p (x)

B.   P (h/x) = p (x/h) p (h)/p (x)

C.   P (h/x) = p (x/h) p (x)/p (h)

D.   P (xih) = p (h/x)/p (h) p (x)

59: Nel data mining, quale delle seguenti affermazioni non è corretta sull'algoritmo C45?

A.   Permette un solo risultato.

B.   Un algoritmo a passaggio singolo derivato dai limiti binomiali di configurazione è usato da C45.

C.   Utilizza criteri basati sull'informazione.

60: Se un utente vuole conoscere le parole chiave principali che inviano traffici al suo sito Web, allora quale delle seguenti segmentazioni di acquisizione dovrebbe essere preferita?

A.   Referrals traff‌ic

B.   Traffico organico

C.   Traffico diretto

D.   Traffico sociale

61: In Google Analytics Tool, quale delle seguenti analisi dovrebbe essere eseguita al fine di identificare l'origine del traffico web di un utente?

A.   Analisi di acquisizione

B.   Analisi del pubblico

C.   Analisi del comportamento

D.   Analisi di conversione

62: Quale dei seguenti tipi di mining di associazione scopre le successioni comuni a più delle sequenze MINSUP in un database di sequenza?

A.   Regole sequenziali

B.   Regole di associazione generalizzata

C.   Mining di pattern sequenziali

D.   Warmr

63: Quale dei seguenti fattori è responsabile del verificarsi di errori di campionamento?

A.   Errori dovuti a misure statistiche errate.

B.   Errori nella compilazione.

C.   Inquadratura di un questionario sbagliato.

D.   Demarcazione difettosa delle unità di campionamento.

64: Nel data mining, quale dei seguenti è la sintassi corretta per la definizione del richiamo, che viene utilizzata per valutare la qualità del recupero del testo?

A.   Richiamo = l [pertinente} u [recuperato] l l l [pertinente}!

B.   Richiamo = l [pertinente} u [recuperato] | l l {recuperato] l

C.   Richiamo = l [rilevante} f‌l {recuperato} | / l [recuperato] l

D.   Richiamo = l [pertinente} n [recuperato} l / l [pertinente

65: Quale delle seguenti è la sintassi R corretta utilizzata per la selezione di determinate righe da un frame di dati, in base a criteri logici specifici?

A.   Seleziona (DataFrameName, espressione logica)

B.   f‌ilter (espressione logica, datiFrameName)

C.   f‌ilter (dataframeName, espressione logica)

D.   Seleziona (espressione logica, dataframeMame)

66: Nell'analisi della sopravvivenza, quale dei seguenti metodi viene utilizzato per modellare la funzione di pericolo su un insieme di variabili predittive?

A.   Survit ()

B.   coxph ()

C.   Surviff ()

D.   Survitf‌it ()

67: Quale delle seguenti è una funzione descrittiva coinvolta nel data mining?

A.   Analisi dell'evoluzione

B.   Predizione

C.   Analisi anomalo

D.   Mining of Associations

68: Quale delle seguenti affermazioni non è corretta sulla scienza dei dati?

A.   Viene utilizzato per trasformare i dati in azioni.

B.   Supporta e incoraggia lo spostamento tra ragionamento deduttivo e induttivo.

C.   Al fine di raggiungere il successo. Le organizzazioni devono raggiungere la massima maturità della scienza dei dati.

D.   È necessario che le aziende rimangano con il pacchetto e competere in futuro.

69: Quale dei seguenti algoritmi di clustering può gestire dati rumorosi?

A.   CURA

B.   ROCCIA

C.   BETULLA

D.   Camaleonte

70: Quale delle seguenti affermazioni è corretta sull'approccio guidato alla query del data warehousing?

A.   In questo approccio sono necessari complessi processi di integrazione e infgli è richiesto.

B.   Questo approccio consente di copiare i dati. elaborato. integrato. annotato. Riassunto e ristrutturato in anticipo in un archivio di dati semantici.

C.   È molto economico per le domande che richiedono aggregazioni.

D.   È considerevolmente più efficiente per le domande frequenti.

71: È dato che Y è una variata di Poisson e soddisfa la condizione P (y = 4) = p (y = 5). Quali sono i valori di deviazione media e standard di Y?

A.   Media = 3 e deviazione standard = /5

B.   Media = 5 e deviazione standard = /3

C.   Media = 5 e deviazione standard = /'5

D.   Media = 7 e deviazione standard = /7

72: Quale delle seguenti funzioni viene utilizzata per decomporre una serie temporale con tendenza additiva e componenti stagionali e irregolari?

A.   stl0

B.   Tso

C.   Etso

D.   arimao

73: Nel data mining, quale dei seguenti modelli è/viene utilizzato per prevedere le etichette di classe categorica?

A.   Modello di classificazione

B.   Modello di previsione

C.   Sia a che B

D.   Nè a nè B

74: In quale delle tecnologie chiave, che vengono utilizzate per estrarre il valore aziendale dai big data, i dati sono gestiti come strategici. Asset principale con il controllo di processo in corso per l'analisi dei big data?

A.   Gestione delle informazioni per big data

B.   Analisi ad alte prestazioni per i big data

C.   Opzioni di distribuzione flessibili per i big data

75: Nell'estrazione delle regole dell'associazione, un'indicazione della frequenza con cui è stata trovata la regola è vera è rappresentata da un termine noto come fiducia. Com'è questo termine. fiducia. Rappresentato per la regola, a => b?

A.   conf (a => b) = supp (a u b) / supp (a)

B.   conf (a => b) = supp (b) / supp (a)

C.   conf (a => b) = supp (a u b) / supp (a) "Supp (b)

D.   conf (a => b) = supp (a u b) / 1 - supp (a)

76: Per un determinato set di 25 articoli, il coefficiente di correlazione tra X e Y è 0,6. I valori della media aritmetica di X e Y sono rispettivamente 14 e 18 e i valori di deviazione standard di X e Y sono rispettivamente 4 e 6. Se la coppia (25. 18) è stata erroneamente presa come (18, 25). Quindi trova il valore corretto del coefficiente di correlazione.

A.   0.31

B.   0.42

C.   0,51

D.   0.67

77: Quale delle seguenti è il modo corretto di esprimere ipotesi nulla del test della coda inferiore della popolazione? È dato che UO è un limite inferiore ipotizzato della vera popolazione media

A.   su 5 ll

B.   P0 = L1

C.   PO 2 p

78: Nel data mining, quale delle seguenti parti di un albero decisionale rappresenta il risultato di un test?

A.   Un nodo interno

B.   Un nodo foglia

C.   Un ramo

D.   Il nodo più alto

79: Quale delle seguenti affermazioni è/ha ragione su un differenziatore SAS?

A.   Fornisce un approccio di architettura rigido.

B.   Può gestire e sfruttare solo un modello alla volta.

C.   È posizionato in modo univoco per aiutare le organizzazioni a trasformare i big data e l'analisi dei big data in valore aziendale.

D.   Entrambe le opzioni A e C sono corrette.

80: Quale delle seguenti è corretta sulla classificazione dei dati?

A.   Mette i dati in forma precisa e condensata.

B.   L'analisi statistica LL è possibile per tutti i tipi di dati tranne i dati classificati.

C.   Ii] non consente il confronto tra varie caratteristiche.

D.   Rende i dati più facilmente comprensibili eliminando dettagli inutili.

81: Nella funzione discriminante lineare dell'analisi delle funzioni discriminanti, qual è la funzione del seguente metodo?

A.   Genera previsioni di Jacknifed.

B.   Viene utilizzato per ottenere la funzione discriminante quadratica.

C.   Stampa funzioni discriminanti in base a variabili centrate, ma non standardizzate.

D.   Può visualizzare i risultati di una classificazione lineare o quadratica con due variabili alla volta.

82: Nel data mining, quale dei seguenti modelli di classificazione è costruito dall'algoritmo KNN?

A.   Modello di classificazione dell'albero decisionale

B.   Modello di classificazione dell'ensemble

C.   Modello di classificazione dell'iperplana

D.   Nessun modello di classificazione è costruito da KNN

83: Nel data mining, quale dei seguenti è la sintassi corretta del metodo del foglio, foil_prune, utilizzato per la potatura delle regole per una regola r? Si è dato che P è il numero di tuple positive coperte da r e n è il numero di tuple negative coperte da R.

A.   Foil_prune = p - n/p + n

B.   Foil_prune = p + n/p - n

C.   Foil_prune = p/n

D.   Foil_prune = n/p + n

84: Nei test di ipotesi. Come chiamerai una popolazione i cui dati sono categorici e appartengono a una raccolta di classi non sovrapposte discrete?

A.   Monomiale

B.   Binomiale

C.   Trinomiale

D.   multinomiale

85: Quale dei seguenti test t dovrebbe essere eseguito per confrontare i mezzi di due gruppi diversi?

A.   Un campione t: test

B.   Campioni accoppiati t: test

C.   Campioni indipendenti test t

D.   Analisi della varianza (ANOVA)

86: Nell'estrazione delle regole dell'associazione, quale delle seguenti affermazioni è corretta sulla generazione frequente degli articoli dell'approccio in due fasi?

A.   Genera solo un set di elementi il ​​cui supporto 2 minsup

B.   Genera tutti i set di articoli il cui supporto 5 minsup

C.   Genera tutti i set di articoli il cui supporto 5 minsup

D.   Genera regole di alta fiducia da ciascun set di articoli frequenti

87: Un utente può ottenere le visualizzazioni di pagina di un sito Web con l'aiuto di quale dei seguenti obiettivi di analisi web?

A.   Obiettivo di pagine/sessione

B.   Obiettivo di durata

C.   Obiettivo di destinazione

D.   Obiettivi dell'evento

88: Se ci sono alcuni dati con valori mancanti e devi leggere un aiuto per una funzione, diciamo mediana, allora quale dei seguenti è la sintassi R corretta per farlo?

A.   ? mediana

B.   Leggi.MEDIAN0

C.   #mediano

D.   aiuto.MEDIAN0

89: In Web Analytics, quale delle seguenti metriche è monitorata nella dashboard di eCommerce?

A.   Tempo di caricamento della pagina per browser

B.   Vendita totale per prodotti

C.   Conversione per post sul blog

D.   Fonte di traffico in tempo reale

90: Un modello statistico parametrico è dato come: (s, p) con p = [p6: e e 9]. Sulla base di notazioni statistiche, quale dei seguenti è il metodo corretto per rappresentare un?

A.   e g r 0d

B.   A = R2D

C.   o c 2dr

D.   a e drz

91: Se il livello significativo di un test è del 5%, quale sarà il risultato del test se il valore p ottenuto è maggiore di 0,05?

A.   Rifiutare l'ipotesi nulla

B.   Non riesce a rifiutare l'ipotesi nulla

C.   L'accettazione o il rifiuto dell'ipotesi nulla sono indipendenti dal valore p.

92: Quale dei seguenti è il valore predefinito del parametro hlstorlcal_model_gap utilizzato nell'algoritmo delle serie temporali Microsoft?

A.   10

B.   1

C.   0

D.   5

93: Quale delle seguenti è la sintassi DMQL utilizzata per specificare i dati rilevanti per l'attività?

A.   Utilizzare database database_name

B.   Utilizzare data warehouse data_warehouse_name

C.   Database.usedatabase_name

D.   Datawarehouse.usedata_warehouse_name

94: _______ riduce il numero di bit in un file identificando ed eliminando la ridondanza

A.   Compressione senza perdita

B.   Compressione perdita

C.   Bitmap

D.   Visualizzazione dati

95: I tipi di dati creati dal programmatore sono noti come ________.

A.   Variabili

B.   Tipi di dati astratti (ADTS)

C.   Funzioni

D.   Parametri

E.   Nessuna di queste

96: Diigo e deliziosi sono strumenti ________.

A.   Bookmarking sociale

B.   Ricerca

C.   Gruppo di discussione

D.   Comunicazione sincrona

97: I dati sporchi sono ________.

A.   Dati infetti da virus

B.   Dati infetti da worm

C.   Dati imprecisi e incompleti

D.   Dati rubati

98: Il ______ di un foglio di lavoro definisce il suo aspetto.

A.   Modulo

B.   Formato

C.   Visualizzazione

D.   Documentazione

99: ____ Strumenti di casi forniscono supporto per le fasi di codifica e implementazione.

A.   Orizzontale

B.   Fine frontale

C.   Back-end

D.   Verticale

100: ________ Strumenti e tecniche elaborano i dati e eseguono analisi statistiche per approfondimenti e scoperte.

A.   Governance dei dati aziendali

B.   Sistemi di informazione proprietari

C.   Business intelligence

D.   Processi di business