Questões de Data Analytics em português

Questões de Data Analytics em português

Teste sua compreensão dos tópicos de análise de dados respondendo a mais de 100 MCQs de análise de dados.
Role para baixo para começar!

1: Qual dos seguintes tipos de análise de séries temporais visa separar componentes periódicos ou cíclicos em uma série temporal?

A.   Análise Explanativa

B.   Análise espectral

C.   Previsão

D.   Análise descritiva

2: Quais das seguintes opções representam (s) a aplicação correta da mineração de regras de associação?

A.   Design de catálogo

B.   Análise de dados da cesta

C.   Marketing cruzado

D.   Análise de líderes de perda

E.   Tudo o que precede

F.   Nenhuma das acima

3: Quais das seguintes opções são/são as aplicações corretas da mineração de texto?

A.   Ele pode processar automaticamente mensagens e e -mails.

B.   Ele pode investigar concorrentes rastejando seus sites.

C.   Ele pode analisar as respostas de pesquisa abertas.

D.   Pode analisar reivindicações de garantia ou seguro.

E.   Tudo o que precede.

4: Com relação ao algoritmo de rede neural da Microsoft. Qual das seguintes opções é o tipo de neurônio que representa valores de atributo previsíveis para um modelo de mineração de dados?

A.   Neurônio de entrada

B.   Neurônio oculto

C.   Neurônio de saída

D.   Nenhuma das acima

5: Qual das seguintes opções está/está correta sobre o algoritmo da Microsoft ingen Bayes?

A.   É usado para calcular a probabilidade condicional entre entrada e colunas previsíveis e assume que as colunas são independentes.

B.   É usado para executar a seleção automática de recursos para limitar o número de valores que são considerados ao criar um modelo.

C.   É fornecido pelos serviços de análise do Microsoft SQL Server para uso em modelagem preditiva.

D.   É usado para considerar cada par de valores de atributo de entrada e valores de atributo de saída.

E.   Tudo o que precede.

6: Qual das seguintes opções está correta sobre a técnica de regressão logística?

A.   É usado para incentivar o efeito do grupo em caso de variáveis ​​altamente correlacionadas.

B.   É usado para encontrar a probabilidade de evento = sucesso e evento = falha.

C.   É usado para adicionar e remover preditores, conforme necessário para cada etapa.

D.   É usado para penalizar o tamanho absoluto dos coeficientes de regressão.

7: Na mineração de dados, qual das seguintes opções está correta sobre o algoritmo de regressão?

A.   É usado para prever uma ou mais variáveis ​​numéricas contínuas; por exemplo. Lucro ou perda que se baseia em outros atributos em um conjunto de dados.

B.   É usado para encontrar correlações entre diferentes atributos em um conjunto de dados.

C.   É usado para dividir dados em grupos ou aglomerados de itens que possuem propriedades semelhantes.

D.   É usado para resumir sequências ou episódios frequentes em dados; por exemplo. Uma série de eventos de log precedentes de manutenção da máquina.

8: De acordo com o modelo de regras da Microsoft Association. Qual das seguintes opções é a guia Visualizador correta que combina informações sobre os itens e seu valor relativo?

A.   LTemsets

B.   Rede de dependência

C.   Regras

D.   Nenhuma das acima

9: Qual das seguintes afirmações está correta sobre o tipo de análise de intervenção da análise de séries temporais?

A.   É usado para encontrar se um evento pode levar a uma mudança em uma série temporal.

B.   É usado para encontrar uma tendência ou padrão em uma série temporal através do uso de gráficos ou outras ferramentas.

C.   É usado extensivamente no orçamento. que é baseado em tendências históricas.

D.   É usado para estudar a correlação cruzada entre duas séries temporais e sua dependência de outra.

10: Qual das alternativas a seguir é o valor padrão correto do parâmetro maximum_itemset_size, que é usado com o algoritmo de regras da Microsoft Association?

A.   10

B.   3

C.   1

D.   0,4

11: Com relação às estatísticas avançadas, qual das seguintes opções é a sintaxe correta da função GLM ()?

A.   GLM (Fórmula, Family = FamilyType (Link = LinkFunction), Data =)

B.   GLM (fórmula, dados =, método =, controle =)

C.   GLM (vetor, start =. end =, frequência =)

D.   GLM (bootObject. conf =, tipo =)

12: Qual das alternativas a seguir é a sintaxe correta do comando que verificará a instalação do pacote XLSX e carregará a biblioteca no espaço de trabalho R?

A.   Grepl.any (instalado.packages ("xlsx")) biblioteca ("xlsx")

B.   qualquer biblioteca (GREPL ("XLSX", instalado.package ())) ("xlsx")

C.   any.grepl (xlsx, instalado.package50) | ibrary (xlsx)

D.   GREPL (qualquer (instalado.packages (xlsx))) | ibrary (xlsx)

13: Qual das seguintes técnicas de mineração de texto pode ser usada para grupos de documentos com conteúdo semelhante?

A.   Agrupamento

B.   Categorização

C.   Visualização

D.   Extração de informações

14: Na mineração de dados do Sol Server, qual dos seguintes tipos de algoritmos prevê uma ou mais variáveis ​​discretas baseadas em outros atributos em um conjunto de dados?

A.   Algoritmo de segmentação

B.   Algoritmo de classificação

C.   Algoritmo de análise de sequência

D.   Algoritmo de associação

15: Na mineração de dados, qual das seguintes opções é a sintaxe correta para associação?

A.   Match Associações [AS Pattern_name] Analise {Medida (s)}}

B.   Associações de minas [AS Pattern_Name] Analyze Classify_attribute_or_dimension

C.   Associações de minas [AS [Pattern_Name]] {Matching {metapattern}}

D.   Associações de minas [AS Pattern_Name] Analise Prediction_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: Qual das seguintes técnicas de regressão tenta maximizar o poder de previsão com número mínimo de variáveis ​​preditivas?

A.   Regressão gradual

B.   Regressão polinomial

C.   Regressão linear

D.   Regressão logística

17: Qual das seguintes afirmações está correta sobre a coluna previsível suportada pelo algoritmo de regressão linear da Microsoft?

A.   Ele suporta os tipos de conteúdo cíclico, de chave e tabela.

B.   Ele suporta os tipos de chave, tabela e conteúdo ordenados.

C.   Ele suporta os tipos de conteúdo contínuo, de chave e tabela.

D.   Ele suporta os tipos de conteúdo contínuos, cíclicos e ordenados.

18: Qual das seguintes afirmações está correta sobre o parâmetro previsor_smoothing usado no algoritmo da série temporal do Microsoft?

A.   Especifica como um modelo deve ser misturado para otimizar a previsão.

B.   Ele especifica qual algoritmo usar para análise e previsão.

C.   Especifica um valor numérico entre 0 e 1 que detecta periodicidade.

D.   Especifica o número mínimo de fatias de tempo necessárias para gerar uma divisão em cada árvore da série temporal.

19: Qual das alternativas a seguir é o valor padrão correto para o parâmetro Instability_sensitivity usado com o algoritmo da série temporal do Microsoft?

A.   0,6

B.   0.1

C.   10

D.   1

20: Com relação às estatísticas avançadas, qual das seguintes opções está correta sobre a função arimao?

A.   Pode ser usado para produzir uma análise de componentes principais não rotacionados.

B.   Pode ser usado para produzir análise fatorial de máxima verossimilhança.

C.   Pode ser usado para inicializar o modelo de equação estrutural.

D.   Ele pode ser usado para obter um modelo de média móvel integrada autoregressiva.

21: Na mineração de dados, qual das seguintes opções está correta sobre a medida de pontuação F para recuperação de texto?

A.   F -score = Recall - Precision + (Recall x Precision) / 9

B.   F -score = Recall + Precision - (Recall x Precision) I 7

C.   F-score = Recall x Precision / (Recall + Precision) / 2

D.   F -score = Recorno I Precision X (Recall - Precision) / 5

22: Qual das alternativas a seguir é o valor padrão do parâmetro histórico_model_gap usado no algoritmo da série temporal do Microsoft?

A.   10

B.   1

C.   0

D.   5

23: Qual das seguintes técnicas de estatística avançada é usada para identificar variáveis ​​latentes que formam grupos?

A.   Análise de regressão

B.   ANOVA

C.   Análise fatorial

D.   Regressão logística

24: Na mineração de dados, qual das seguintes opções define corretamente a precisão, que é usada para avaliar a qualidade da recuperação de texto?

A.   Precisão: l [relevante] n [recuperado] l / l [recuperado] l

B.   Precisão = l [recuperado} u [f-score] l + l [f-score} l

C.   Precision = L [Recall] / [f-scorejl x L [recali] l

D.   Precision = L [F -Score] X [RecallJl - L [f - Score) l

25: Qual das seguintes medidas de recuperação de texto é a porcentagem de documentos, que são relevantes para a consulta e foram realmente recuperados?

A.   Precisão

B.   Lembrar

C.   F-score

D.   Nenhuma das acima

26: Qual das alternativas a seguir é o valor padrão correto do parâmetro Holdout_Percentage do algoritmo de regressão logística da Microsoft, que é usado para especificar a porcentagem de casos dentro dos dados de treinamento usados ​​para calcular um erro de espera?

A.   200

B.   30

C.   255

D.   100

27: Nas estatísticas avançadas, qual das seguintes afirmações está correta sobre o método de regressão de Dirichlet?

A.   É usado para modelar variáveis ​​binárias.

B.   É usado para modelar dados de composição.

C.   É usado para modelar variáveis ​​de classificação.

D.   É usado para modelar variáveis ​​de contagem.

28: Em qual dos seguintes métodos de mineração de texto, os termos são analisados ​​no nível da frase e do documento?

A.   Método baseado em frase (PBM)

B.   Método baseado em termos (TBM)

C.   Método de taxonomia padrão (PTM)

D.   Método baseado em conceito (CBM)

29: Em estatísticas avançadas. Qual dos seguintes métodos de regressão é usado para modelar variáveis ​​dentro da faixa (0, 1)?

A.   Regressão de cume

B.   Regressão beta

C.   Regressão loess

D.   Regressão isotônica

30: De acordo com o algoritmo de regras da Microsoft Association, qual dos seguintes parâmetros especifica o número mínimo de casos que devem conter um conjunto de itens antes que o algoritmo gerem uma regra?

A.   Minimum_support

B.   Minimum_probabilidade

C.   Minimum_itemset_size

D.   Minimum_itemset_count

A.   (link = '' identidade ")

B.   (link = '' iogit ")

C.   (link = ‘'iog")

D.   (link = "inverso")

32: De acordo com o algoritmo de regras da Microsoft Association, qual das seguintes opções é a função de previsão com o valor escalar como o tipo de retorno?

A.   LsinNode (DMX)

B.   Preditassociation (DMX)

C.   PredictAdjustedProbability (DMX)

D.   PITTHISTOGRAMA (DMX)

33: Qual das seguintes opções é o clustering_method padrão usado pelo algoritmo de cluster da Microsoft?

A.   EM não escalável

B.   Em escalável

C.   K-means escaláveis

D.   K não escalável-Meia

34: Qual das seguintes opções é o tipo de retorno correto do Função de previsão de predicistograma (DMX) usada pelo algoritmo de regressão logística do Microsoft?

A.   Tipo booleano

B.   Valor do cluster

C.   Mesa

D.   Valor escalar

35: Qual das seguintes opções é o parâmetro do algoritmo da série temporal da Microsoft, que é usado para controlar o crescimento de uma árvore de decisão?

A.   Prediction_smoothing

B.   Prevision_method

C.   Instabilidade_sensitivity

D.   Complexity_penalty

36: Qual das seguintes afirmações está correta sobre o sinalizador de modelagem não nula usado no algoritmo da série temporal do Microsoft?

A.   Aplica -se a colunas de modelo de mineração.

B.   Aplica -se às colunas da estrutura de mineração.

C.   Aplica -se a colunas de modelo de mineração e colunas de estrutura de mineração.

D.   Ele não se aplica a colunas de modelo de mineração nem a colunas da estrutura de mineração.

37: Qual dos seguintes métodos de amostragem é usado para unidades heterogêneas do universo, e não para as unidades homogêneas e só podem ser adotadas quando sua população é conhecida?

A.   Amostragem aleatória simples

B.   Amostragem aleatória estratificada

C.   Amostragem extensa f

D.   Amostragem de cotas

38: Qual das seguintes afirmações está incorreta sobre os métodos de amostragem?

A.   Os dados podem ser coletados mais rapidamente em um método de amostragem.

B.   Um método de amostragem fornece a instalação para organizar e executar o trabalho de pesquisa convenientemente.

C.   É mais barato.

D.   Nenhum conhecimento especializado é necessário para usar um método de amostragem.

39: Qual das seguintes afirmações não está correta sobre os pandas?

A.   É adequado para dados tabulares com colunas timbadas heterogeneamente.

B.   Somente dados rotulados podem ser colocados em uma estrutura de dados de pandas.

C.   É adequado para dados da matriz arbitrária (digitados homogeneamente ou heterogêneos) com rótulos de linha e coluna.

D.   Os dados de séries temporais ordenados e não ordenados (não necessariamente F‌ixed-Frequência) também podem ser analisados ​​com pandas.

40: Qual das seguintes medidas fundamentais usadas para avaliar a qualidade da recuperação de texto representa (s) a porcentagem de documentos recuperados relevantes para uma consulta?

A.   Lembrar

B.   F-score

C.   Precision

D.   A e C

41: Qual dos seguintes algoritmos de mineração de dados é aplicado a um banco de dados contendo um grande número de transações e também aprende regras de associação?

A.   K-means

B.   C45

C.   Em

D.   A priori

42: Enquanto trabalha em um ambiente Pylab, quais das seguintes opções não precisam ser importadas?

A.   matplotlib

B.   Pandas

C.   Numpy

D.   A e C

43: Na mineração de regras de associação, um conjunto de itens é considerado fechado em qual das situações a seguir?

A.   Quando todos os seus superconjuntos imediatos têm o mesmo suporte que o item.

B.   Quando nenhum dos seus subconjuntos imediatos tem o mesmo suporte que o item.

C.   Quando todos os seus subconjuntos imediatos têm o mesmo suporte que o item.

D.   Quando nenhum de seus superconjuntos imediatos tem o mesmo suporte que o item.

44: É dado que A e B são duas variáveis ​​binomiais independentes com parâmetros 3,114 e 2,1/4, respectivamente. Encontre p (a + b 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: O modelo de saco de palavras é usado em qual dos seguintes processos de mineração de texto?

A.   Seleção de recursos

B.   Pré -processamento de texto

C.   Recursos geração

D.   Ambos a e B

46: Para um grupo de 12 estudantes, a soma de quadrados de diferenças em suas fileiras para ciência e matemática é dada como 60. Com base nas informações fornecidas. Encontre o valor do coeficiente de correlação de classificação.

A.   0,60

B.   0,79

C.   0,45

D.   0,82

47: Ao calcular o coeficiente de correlação de classificação entre vendas e despesas por um período de 12 anos. A diferença de classificação por um ano foi tomada por engano como 9 em vez de 7 e, como resultado, o valor do coeficiente de correlação de classificação foi calculado como 0,79. Se o erro for corrigido, qual será o valor correto aproximado do coeficiente de correlação de classificação?

A.   0,88

B.   0,82

C.   0,95

D.   0,90

48: Qual dos seguintes algoritmos de agrupamento é usado para particionamento baseado em grade?

A.   BÉTULA

B.   K-means

C.   PICADA

D.   Fcm

49: É dado que existem 15 pares de leituras em x e y, de modo que o coeficiente de correlação seja de 0,87. Também é dado que o desvio padrão é 5,60. Qual será o erro padrão aproximado de estimativa de y em x?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

A.   11/14

B.   13/14

C.   1/14

D.   3/14

51: Qual das alternativas a seguir é um método de amostragem de não probabilidade?

A.   Amostragem de julgamento

B.   Amostragem aleatória estratificada

C.   Amostras agrupadas

D.   Amostragem aleatória de vários estágios

52: Quais das seguintes afirmações não estão corretas sobre a rede de crenças bayesianas?

A.   L1 Em uma rede de crenças, as independências condicionais de classe podem ser definidas entre os subconjuntos de variáveis.

B.   VJ A distribuição de probabilidade condicional articular não pode ser especificada pelas redes de crenças bayesianas.

C.   VJ Uma rede bayesiana treinada não pode ser usada para classificação.

D.   VJ Um modelo gráfico de relacionamento casual para realizar a aprendizagem é fornecido pela Rede de Crenças Bayesianas.

53: Qual das seguintes afirmações está correta sobre o método de amostragem de julgamento?

A.   Não há possibilidade de preconceito pessoal neste método.

B.   É mais preciso e confiável.

C.   É usado principalmente nos campos onde existem unidades quase semelhantes ou algumas unidades são muito importantes 'para ficar de fora da amostra.

D.   É muito caro.

54: No modelo BAYSIAN, qual das alternativas a seguir é a representação correta da densidade articular de (6, x), se for sabido que, para um dado 0, os dados observados x são uma realização de PA?

A.   n (xl0) p (x)

B.   n (0) p (x)

C.   n (0) p (xl0)

D.   nl (x) p (0lx)

55:

Quais dos seguintes comandos são usados ​​para observar a maneira como um objeto R é estruturado? É dado que o mydata é uma variável onde os dados de um usuário são armazenados.

A.   Biblioteca (mydata)

B.   descrever (mydata)

C.   str (mydata)

D.   Resumo (mydata)

56: Em qual das seguintes tecnologias de Big Data, mover o gerenciamento relevante de dados, análises e tarefas de relatórios para onde os dados residem, melhora a velocidade da insight, reduz o movimento dos dados e promove uma melhor governança de dados?

A.   Apoio ao Hadoop

B.   Ln-Memory Analytics

C.   Computação de grade

D.   Ln-Database Processing

57: Quais dos seguintes comandos são usados ​​para iniciar a interface ipython no modo Pylab em linha e abrir notebook IPython no ambiente Pylab?

A.   ipython - pylab = in | ine

B.   ipython -pylab = inline -notebook

C.   ipython = notebook —pylab.in |

D.   Notebook Ipython - Pylab = Inline

58: A mineração de dados de LN, de acordo com o teorema de Bayes, qual das seguintes fórmulas representa a probabilidade posterior em termos de probabilidade prévia?

A.   P (x/h) = p (h/x) p (h)/p (x)

B.   P (h/x) = p (x/h) p (h)/p (x)

C.   P (h/x) = p (x/h) p (x)/p (h)

D.   P (xih) = p (h/x)/p (h) p (x)

59: Na mineração de dados, qual das seguintes afirmações não está correta sobre o algoritmo C45?

A.   Permite apenas um resultado.

B.   Um algoritmo de passagem única derivada de limites de conf‌idência binomial é usada por C45.

C.   Ele usa critérios baseados em informações.

60: Se um usuário deseja aprender sobre as principais palavras -chave que enviam o tráfico para o site, qual das seguintes segmentações de aquisição deve ser preferida?

A.   Referências tráfego

B.   Tráfego orgânico

C.   Trafico direto

D.   Tráfego social

61: Na ferramenta do Google Analytics, qual das seguintes análises deve ser realizada para identificar a origem do tráfego da web de um usuário.

A.   Análise de aquisição

B.   Análise do público

C.   Análise de comportamento

D.   Análise de conversão

62: Qual dos seguintes tipos de mineração de associação descobre subsequências comuns a mais do que as seqüências de Minsup em um banco de dados de sequência?

A.   Regras seqüenciais

B.   Regras de Associação Generalizada

C.   Mineração de padrões seqüenciais

D.   Warmr

63: Qual dos seguintes fatores é responsável pela ocorrência de erros de amostragem?

A.   Erros devido a medidas estatísticas incorretas.

B.   Erros na compilação.

C.   Enquadramento de um questionário errado.

D.   Demarcação defeituosa de unidades de amostragem.

64: Na mineração de dados, qual das alternativas a seguir é a sintaxe correta para definir o recall, que é usado para avaliar a qualidade da recuperação de texto?

A.   Recall = l [relevante} u [recuperado] l l [relevante}!

B.   Recall = L [relevante} u [recuperado] | l l {recuperado] l

C.   Recall = l [relevante} f‌l {recuperado} | / l [recuperado] l

D.   Recall = l [relevante} n [recuperado} l / l [relevanteji

65: Qual das alternativas a seguir é a sintaxe R correta usada para selecionar certas linhas de um quadro de dados, com base em critérios lógicos específicos?

A.   Selecione (DataFrameName, expressão lógica)

B.   f‌ilter (expressão lógica, nome de dados)

C.   F‌ilter (DataFrameName, expressão lógica)

D.   Selecione (expressão lógica, DataFremename)

66: Na análise de sobrevivência, quais dos seguintes métodos são usados ​​para modelar a função de perigo em um conjunto de variáveis ​​preditivas?

A.   Sobreviver ()

B.   coxph ()

C.   Survdiff ()

D.   Survf‌it ()

67: Qual das alternativas a seguir é uma função descritiva envolvida na mineração de dados?

A.   Análise da evolução

B.   Predição

C.   Análise externa

D.   Mineração de associações

68: Qual das seguintes afirmações não está correta sobre a ciência de dados?

A.   É usado para transformar dados em ações.

B.   Ele apóia e incentiva a mudança entre raciocínio dedutivo e indutivo.

C.   Para alcançar o sucesso. As organizações precisam atingir o máximo de maturidade da ciência de dados.

D.   É necessário que as empresas permaneçam com o pacote e competam no futuro.

69: Qual dos seguintes algoritmos de cluster pode lidar com dados barulhentos?

A.   CURA

B.   PEDRA

C.   BÉTULA

D.   Camaleão

70: Qual das seguintes afirmações está correta sobre a abordagem orientada à consulta do data warehousing?

A.   Processos complexos de integração e alerção são necessários por essa abordagem.

B.   Essa abordagem permite que os dados sejam copiados. processado. integrado. anotado. resumido e reestruturado em um armazenamento de dados semântico com antecedência.

C.   É muito econômico para consultas que requerem agregações.

D.   É consideravelmente mais eficiente para consultas frequentes.

71: É dado que Y é um Poisson variar e satisfaz a condição p (y = 4) = p (y = 5). Quais são os valores da média e o desvio padrão de Y?

A.   Média = 3 e desvio padrão = /5

B.   Média = 5 e desvio padrão = /3

C.   Média = 5 e desvio padrão = /'5

D.   Média = 7 e desvio padrão = /7

72: Qual das seguintes funções é usada para decompor uma série temporal com tendência aditiva e componentes sazonais e irregulares?

A.   stl0

B.   TSO

C.   Etso

D.   ARIMAO

73: Na mineração de dados, qual dos seguintes modelos é/é usado para prever os rótulos de classe categórica?

A.   Modelo de Classificação

B.   Modelo de previsão

C.   Ambos a e B

D.   Nem A nem B

74: Em qual das principais tecnologias, que são usadas para extrair valor comercial do Big Data, os dados são gerenciados como estratégicos. O principal ativo com o controle contínuo do processo para análise de big data?

A.   Gerenciamento de informações para big data

B.   Análise de alto desempenho para big data

C.   Opções de implantação flexíveis para big data

75: Na mineração de regras de associação, uma indicação de com que frequência a regra foi verdadeira é representada por um termo conhecido como confiança. Como é esse termo. confiança. representado para a regra, a => b?

A.   conf (a => b) = supion (a u b) / supion (a)

B.   conf (a => b) = supion (b) / supion (a)

C.   conf (a => b) = supion (a u b) / supion (a) ‘supion (b)

D.   conf (a => b) = supion (a u b) / 1 - supion (a)

76: Para um determinado conjunto de 25 itens, o coeficiente de correlação entre x e y é 0,6. Os valores da média aritmética de x e y são 14 e 18, respectivamente, e os valores de desvio padrão de x e y são 4 e 6. respectivamente. Se o par (25. 18) foi considerado erroneamente (18, 25). Em seguida, encontre o valor correto do coeficiente de correlação.

A.   0,31

B.   0,42

C.   0,51

D.   0,67

77: Qual das alternativas a seguir é a maneira correta de expressar hipótese nula do teste de cauda inferior da média da população? É dado que o UO é um limite inferior hipotético da verdadeira população média

A.   up 5 ll

B.   P0 = L1

C.   PO 2 p

78: Na mineração de dados, qual das seguintes partes de uma árvore de decisão representa o resultado de um teste?

A.   Um nó interno

B.   Um nó foliar

C.   Um ramo

D.   O nó superior

79: Qual das seguintes afirmações está/está correta sobre um diferencial do SAS?

A.   Ele fornece abordagem de arquitetura rígida.

B.   Ele pode gerenciar e aproveitar apenas um modelo de cada vez.

C.   Está posicionado exclusivamente para ajudar as organizações a transformar Big Data e Big Data Analytics em valor comercial.

D.   As opções A e C estão corretas.

80: Qual das alternativas a seguir está correta sobre a classificação dos dados?

A.   Ele coloca dados em forma precisa e condensada.

B.   LL A análise estatística é possível para todos os tipos de dados, exceto dados classificados.

C.   Ii] não permite comparação entre várias características.

D.   Isso torna os dados mais facilmente compreensíveis, eliminando detalhes desnecessários.

81: Na função discriminante linear da análise de função discriminante, qual é a função do método a seguir?

A.   Gera previsões de jacknifed.

B.   É usado para obter a função discriminante quadrática.

C.   Ele imprime funções discriminantes com base em variáveis ​​centralizadas, mas não padronizadas.

D.   Ele pode exibir os resultados de uma classificação linear ou quadrática com duas variáveis ​​por vez.

82: Na mineração de dados, qual dos seguintes modelos de classificação é construído pelo algoritmo KNN?

A.   Modelo de classificação de árvore de decisão

B.   Modelo de classificação do conjunto

C.   Modelo de classificação de hiperplano

D.   Nenhum modelo de classificação é construído por KNN

83: Na mineração de dados, qual das alternativas a seguir é a sintaxe correta do método da folha, FOIL_PRUNE, usada para a poda de regra para uma regra r? É dado que P é o número de tuplas positivas cobertas por R e N é o número de tuplas negativas cobertas por R.

A.   Foil_prune = p - n/p + n

B.   FOIL_PRUNE = P + N/P - N

C.   FOIL_PRUNE = P/N

D.   FOIL_PRUNE = N/P + N

84: No teste de hipóteses. Como você chamará uma população cujos dados são categóricos e pertencem a uma coleção de classes discretas que não sobrecarregam?

A.   Monômio

B.   Binomial

C.   Trinômio

D.   multinomial

85: Quais dos seguintes testes t devem ser realizados para comparar meios de dois grupos diferentes?

A.   Uma amostra t - teste

B.   Amostras emparelhadas t - teste

C.   Amostras independentes T-teste t

D.   Análise de variância (ANOVA)

86: Na mineração de regras de associação, qual das seguintes afirmações está correta sobre a geração frequente de itens da abordagem em duas etapas?

A.   Gera apenas um conjunto de itens cujo suporte 2 minsup

B.   Gera todos os sets itens cujo suporte 5 minsup

C.   Gera todos os sets itens cujo suporte 5 minsup

D.   Gera regras de alta confiança de cada conjunto de itens frequentes

87: Um usuário pode obter as visualizações de página de um site com a ajuda de quais das seguintes metas da Web Analytics?

A.   Páginas/meta de sessão

B.   Meta de duração

C.   Objetivo de destino

D.   Objetivos do evento

88: Se houver alguns dados com valores ausentes e você precisar ler uma ajuda de uma função, digamos mediana, qual das seguintes opções é a sintaxe R correta para fazê -lo?

A.   ? Mediana

B.   read.median0

C.   #mediana

D.   help.median0

89: Na Web Analytics, qual das seguintes métricas é monitorada no painel de comércio eletrônico?

A.   Página carrega tempo de tempo por navegador

B.   Venda total por produtos

C.   Conversão por postagem do blog

D.   Fonte de tráfego em tempo real

90: Um modelo estatístico paramétrico é dado como: (s, p) com p = [p6: e e 9]. Com base em notações estatísticas, qual das alternativas a seguir é o método correto de representar A?

A.   e g r 0d

B.   a = r2d

C.   o c 2dr

D.   um e drz

91: Se o nível de significado de um teste for de 5%, qual será o resultado do teste se o valor p obtido for maior que 0,05?

A.   Rejeitar hipótese nula

B.   Não rejeitar a hipótese nula

C.   A aceitação ou rejeição da hipótese nula é independente do valor p.

92: Qual das alternativas a seguir é o valor padrão do parâmetro hlstorlcal_model_gap usado no algoritmo da série temporal do Microsoft?

A.   10

B.   1

C.   0

D.   5

93: Qual das alternativas a seguir é a sintaxe DMQL usada para especificar dados relevantes para tarefas?

A.   Use o banco de dados do banco de dados

B.   Use o data warehouse data_warehouse_name

C.   DATABASE.USUSTATABASE_NAME

D.   DataWarehouse.usedata_warehouse_name

94: _______ reduz o número de bits em um arquivo, identificando e eliminando redundância

A.   Compressão sem perdas

B.   Compressão com perda

C.   Bitmap

D.   Visualização de dados

95: Os tipos de dados criados pelo programador são conhecidos como ________.

A.   Variáveis

B.   Tipos de dados abstratos (ADTS)

C.   Funções

D.   Parâmetros

E.   Nenhum desses

96: Diigo e Delicious são ________ ferramentas.

A.   Livro social

B.   Pesquisar

C.   Grupo de discussão

D.   Comunicação síncrona

97: Os dados sujos são ________.

A.   Dados infectados com vírus

B.   Dados infectados por vermes

C.   Dados imprecisos e incompletos

D.   Dados roubados

98: O ______ de uma planilha define sua aparência.

A.   Forma

B.   Formato

C.   Visualizar

D.   Registro

99: ____ Ferramentas de caso fornecem suporte para as fases de codificação e implementação.

A.   Horizontal

B.   Front-end

C.   Processo interno

D.   Vertical

100: ________ Ferramentas e técnicas processam dados e fazem análise estatística para insight e descoberta.

A.   Governança de dados corporativos

B.   Sistemas de informação proprietários

C.   Inteligência de negócios

D.   Processos de negócios