Questões de Data Mining em Língua Portuguesa

Questões de Data Mining em Língua Portuguesa

Essas perguntas e respostas de múltipla escolha sobre mineração de dados ajudarão você a entender melhor os tópicos de mineração de dados. Prepare-se para o seu próximo exame ou entrevista com essas mais de 100 coleções de dados MCQ.
Role para baixo para começar a responder.

1: Qual indústria pode se beneficiar da mineração de dados?

A.   Todos esses

B.   Varejo

C.   Fabricação

D.   Finanças/bancos

2: Com qual dessas camadas inicia uma rede neural?

A.   Camada de saída

B.   Camada oculta

C.   Camada transparente

D.   Camada de entrada

3: Alterações nas partes de um código podem levar ao problema dos dados ______________.

A.   inconsistente

B.   sujo

C.   não integrado

D.   granular

4: Em uma rede neural, o que a topologia se refere?

A.   A gama de variáveis ​​em um conjunto

B.   O número de nós utilizados

C.   A visualização gráfica dos dados

D.   O número de camadas e o número de nós em cada camada

5: Qual dos seguintes algoritmos de agrupamento pode encontrar grupos de forma arbitrária?

A.   Único link

B.   Dsbscan

C.   Ambos estes

D.   Nenhum desses

6: As árvores de decisão são capazes de lidar com valores ausentes sem usar qualquer transformação de impacto. Verdadeiro ou falso?

A.   Falso

B.   Verdadeiro

7: Um algoritmo (n) _____ cria regras que descrevem com que frequência os eventos ocorrem juntos.

A.   CHAID

B.   artificial

C.   podando

D.   Associativa

8: Qual das alternativas a seguir é XML válida?

A.   & lt; Resposta do corpo = " válido " & gt; este & lt;/body & gt;

B.   & lt; válido & gt; este & lt;/válido & gt;

C.   & lt; válido & gt; " este " & lt;/válido & gt;

D.   Todos são válidos

9: Qual das alternativas a seguir não é um banco de dados relacional?

A.   Tudo o que precede

B.   Apache Cassandra

C.   Tabela grande do Google

D.   MongoDB

10: O que é visualização de dados?

A.   O termo técnico para o ato de dados que estão sendo armazenados em um servidor

B.   Uma previsão estruturada e desenvolvida dos resultados dos dados

C.   A interpretação visual de relacionamentos complexos em dados multidimensionais

11: O que é um processo KDD?

A.   Decripção diferencial

B.   Hardness Knoop medido através da dimensão de alto impacto

C.   Descoberta de conhecimento em bancos de dados

D.   Descoberta de dados K-Mean

12: Quais destes não são tipos de software analítico:

A.   Todos são tipos válidos

B.   Rede neural

C.   Estatística

D.   Aprendizado de máquina

13: Verdadeiro ou falso? Indicadores econômicos são fatores de dados externos.

A.   Falso

B.   Verdadeiro

14: Qual das seguintes disciplinas se sobrepõe à mineração de dados?

A.   Tudo o que precede

B.   Inteligência artificial

C.   Estatisticas

D.   Linguística

15: Em modelos preditivos, os valores ou classes a serem previstos são chamados de:

A.   Dependente

B.   Todos esses

C.   Resposta

D.   Variáveis ​​de destino

16: Você é um gerente de risco de crédito de um banco de varejo. Algumas informações sobre os clientes estão disponíveis para análise. Com base nesses dados, você deve decidir que uma pessoa será um cliente bom ou ruim. Escolha a tarefa de mineração de dados apropriada para esses problemas de negócios.

A.   Classificação

B.   Regressão

C.   Segmentação

17: Os itens de dados agrupados em relacionamentos e preferências são conhecidos como:

A.   Conjuntos previsíveis

B.   Organizações pungentes

C.   Graus de ajuste

D.   Clusters

18: O que são árvores de decisão?

A.   Relatórios complexos gerados por um cientista de dados qualificado

B.   Dimensões hierárquicas que podem ser criadas com um navegador hiper -cubo

C.   Dados não coletados pela organização, como dados disponíveis em um livro de referência

D.   Estruturas que geram regras para a classificação de um conjunto de dados

19: Quais são os métodos populares de mineração de dados?

A.   Modelos de aprendizado relacional

B.   Árvores de decisão e regras

C.   Todos esses

D.   Modelos probabilísticos de dependência gráfica

20: Verdadeiro de falso? A arquitetura de mineração de dados de acoplamento solta é principalmente para sistemas de mineração de dados baseados em memória que não requerem alta escalabilidade e alto desempenho.

A.   Falso

B.   Verdadeiro

21: O que é Crisp-DM?

A.   Uma árvore de decisão desenvolvida nos anos 1980, mas quase totalmente substituída pelo método do carrinho hoje

B.   Um método de seis fases para prever hábitos de compra de comércio eletrônico

C.   Algoritmo de regressão linear da Microsoft

D.   Um processo padrão entre indústrias para mineração de dados

22: Uma função usada por um nó em uma rede neural para transformar dados de entrada de qualquer domínio de valores em uma gama finita de valores é conhecida como (n):

A.   Antecedente

B.   Função de ativação

C.   Matriz de confusão

D.   Qui-quadrado

23: Verdadeiro ou falso? Os testes no carrinho são sempre binários.

A.   Verdadeiro

B.   Falso

24: Qual é a medida de quanto duas variáveis ​​aleatórias mudam juntas?

A.   Desvio padrão binário

B.   covariância

C.   Policonvergência

D.   inércia estocástica

25: Qual destes é um exemplo de uma relação de padrão seqüencial?

A.   Usando a experiência de negócios e instinto intestinal para projetar um novo plano de piso em um supermercado

B.   Reorganizando a equipe inicial do seu time de basquete com base em uma análise do desempenho

C.   Colocando dois itens comprados com frequência um ao lado do outro na prateleira

D.   Prevendo a probabilidade de uma mochila ser comprada com base na compra de sacos de dormir e sapatos de caminhada

26: A receita anual de uma empresa internacional está correlacionada com outros atributos, como anúncio, taxa de câmbio, taxa de inflação etc. com esses valores (ou suas estimativas confiáveis ​​para o próximo ano) a empresa deve calcular sua receita esperada para o próximo ano. Escolha a tarefa de mineração de dados apropriada para esse problema de negócios.

A.   Segmentação

B.   Classificação

C.   Regressão

27: Qual é a camada front -end da arquitetura de mineração de dados?

A.   Uma interface de usuário intuitiva e amigável

B.   Firewalls estabelecidos para proteger dados de fontes maliciosas

C.   O hardware projetado especificamente para armazenamento de grandes quantidades de dados

D.   A equipe de programadores que criaram o software utilizado em um determinado projeto de mineração

28: Um hiperplano é um

A.   Limite de decisão Separando classes de dados

B.   variante do algoritmo C4.5

C.   Coleção de arquivos de hipertexto vinculados

D.   condição de erro não terminante

29: Dados não coletados pela organização, como dados de um banco de dados proprietários, que são combinados com os próprios dados da organização são conhecidos como:

A.   Sobreposição

B.   Sobreajuste

C.   Barulho

D.   Data não aplicável

30: Quais destes não são considerados fatores de dados internos?

A.   Preço

B.   Crise econômica

C.   Habilidades da equipe

D.   Posicionamento de produto

31: Qual técnica de mineração de dados organiza conjuntos de dados em grupos predefinidos?

A.   Padronização seqüencial

B.   Clustering

C.   Classificação

D.   Gamificação

32: O nível do modelo que especifica (geralmente graficamente) quais variáveis ​​são dependentes localmente uma da outra.

A.   Nível estrutural

B.   Nível qualitativo

C.   Nível primário

D.   Nível quantitativo

33: Para aumentar a confiança do seu desempenho no estado de classificação em toda a população, você deve:

A.   Diminuir o tamanho do conjunto de dados de treinamento

B.   Aumente o tamanho do conjunto de dados de treinamento

C.   Aumente o tamanho do conjunto de dados de teste

D.   Diminuir o tamanho do conjunto de dados de teste

34: O algoritmo que alimenta o mecanismo de pesquisa do Google é:

A.   Adaboost

B.   O método de Brin-Page

C.   GoogleCrawler

D.   Ranking da página

35: Na associação entre duas variáveis, qual é a diferença entre o antecedente e o consequente?

A.   O antecedente é sempre uma variável muito complexa

B.   Nada, eles são intercambiáveis

C.   O antecedente está à direita, o consequente está à esquerda.

D.   O antecedente está à esquerda, o conseqüente à direita

36: Na análise dos dados de séries temporais, o valor médio em um determinado período de tempo (geralmente algum intervalo no passado até o presente) é chamado de (n)

A.   média parcial

B.   média imparcial

C.   média composta

D.   Média móvel

37: O que é regressão?

A.   Aprender uma função que mapeia um item de dados em um dos vários grupos predefinidos.

B.   Uma expressão e em um idioma l descrevendo fatos em um subconjunto Fe de F.

C.   Uma tarefa descritiva em que se procura identificar um conjunto finito de categorias para descrever os dados.

D.   Aprender uma função que mapeia um item de dados para uma variável de previsão com valor real.

38: O que é modelagem de dependência?

A.   Um processo de várias etapas envolvendo preparação de dados, pesquisa de padrões, avaliação de conhecimento e refinamento com iteração após modificação.

B.   Aprender uma função que mapeia um item de dados em um dos vários grupos ou clusters predefinidos.

C.   O processo de encontrar um modelo que descreve dependências significativas entre variáveis ​​

D.   Uma tarefa que consiste em técnicas para estimar, a partir de dados, a função de densidade de probabilidade multi-variada de todas as variáveis/campos no banco de dados.

39: Qual destes não é uma descrições comuns de camadas?

A.   Escondido

B.   Entrada

C.   Saída

D.   Funcional

40: Sharding refere -se a:

A.   Uma medida do ruído em um conteúdo de um banco de dados

B.   Partioning um banco de dados para distribuição em diferentes servidores

C.   Acessando simultaneamente vários bancos de dados de objetos sobre SSH

D.   nenhuma das acima

41: O que é a detecção de mudança e desvio?

A.   Uma tarefa focada em descobrir as mudanças mais significativas nos dados de valores medidos ou normativos anteriormente

B.   Métodos para encontrar uma descrição compacta para um subconjunto de dados.

C.   O processo de encontrar um modelo que descreve dependências significativas entre variáveis

D.   Uma tarefa que consiste em técnicas para estimar, a partir de dados, a função de densidade de probabilidade multi-variada de todas as variáveis/campos no banco de dados.

42: Qual é o tipo de mineração de dados que impulsiona o sistema de recomendação da Amazon.com?

A.   Lógica difusa

B.   Aprendizagem de associação

C.   Detecção de anomalia

D.   Algoritmos de agrupamento

43: Qual dos seguintes algoritmos geralmente é adequado para tarefas de aprendizagem não supervisionadas?

A.   Máquina Boltzmann restrita

B.   Redes de informações sobre informações

C.   vizinho mais antigo

D.   Algoritmo K-Means

44: Qual das seguintes soluções de armazenamento é mais apropriada para um conjunto de dados semiestruturado cujos membros nem todos têm os mesmos atributos?

A.   MONGODB

B.   Sqlite

C.   Mysql

D.   Mariadb

45: Para estimar o desempenho da classificação em uma população inteira, você precisa _______

A.   (Nenhum desses)

B.   Treinamento desarticulado

C.   Conjuntos de dados de teste

D.   Disjuntar conjuntos de dados de treinamento e teste

46: Erro de generalização é uma conseqüência de

A.   Sobreajuste

B.   Análise paramétrica

C.   Underfit

D.   Chernoff pouco definido

47: Quais destes são métodos computacionais evolutivos?

A.   Algoritmos heurísticos

B.   Algoritmos de inferência bayesiana

C.   Algorítmos genéticos

D.   Algoritmos de agrupamento

48: As máquinas vetoriais de suporte têm uma vantagem sobre as redes neurais porque SVM são

A.   nenhuma das acima

B.   mais fácil de treinar via aprendizado online

C.   mais resistente à convergência mínima local

D.   paramétrico

49: Qual das alternativas a seguir não é um sistema de origem comum?

A.   Nó

B.   Fonte de seiva

C.   UDC

D.   DB Connect

50: Uma técnica que classifica cada registro em um conjunto de dados com base em uma combinação das classes do (s) K Record (s) mais semelhante a ele em um conjunto de dados histórico é:

A.   Vizinho mais próximo

B.   Regressão logística

C.   Consulta do modelo de associação

D.   Árvore de decisão

51: Qual é a extração de regras úteis se-then dos dados com base na significância estatística?

A.   Mapeamento de métodos preliminares

B.   Indução de regra

C.   Aplicativo lógico difuso

D.   Inferência de informação dinâmica

52: O que é classificação?

A.   Métodos para encontrar uma descrição compacta para um subconjunto de dados.

B.   Aprender uma função que mapeia um item de dados em um dos vários grupos predefinidos.

C.   Um padrão descoberto que é verdadeiro em novos dados com algum grau de certeza e generaliza para outros dados.

D.   Uma tarefa descritiva em que se procura identificar um conjunto finito de categorias para descrever os dados.

53: Qual das alternativas a seguir não é uma função dos data warehouses?

A.   Limpando dados sujos

B.   Extraindo dados

C.   Dados de limpeza

D.   Armazenando dados adquiridos

54: Verdadeiro ou falso? O algoritmo de Marte não pode produzir regras.

A.   Verdadeiro

B.   Falso

55: Qual das alternativas a seguir é mais apropriada para encontrar a cadeia mais curta de amigos que liga duas pessoas em um gráfico social que não são amigas?

A.   Algoritmo K-Means

B.   Correntes de Markov

C.   Algoritmo de Dijkstra '

D.   Redes neurais

56: Qual das alternativas a seguir não é um objetivo comum do processo KDD:

A.   Descrição

B.   Desempenho

C.   Predição

57: O que é um algoritmo genético?

A.   Um algoritmo de pesquisa que nos permite localizar a sequência binária ideal, processando uma população aleatória inicial de cordas binárias, realizando operações como mutação artificial, cruzamento e seleção.

B.   Um algoritmo que estima o quão bem um padrão específico (um modelo e seus parâmetros) atende aos critérios do processo KDD. A avaliação da precisão preditiva (validade) é baseada na validação cruzada. A avaliação da qualidade descritiva envolve um preditivo de

C.   Um algoritmo clássico para conjunto de itens frequentes e aprendizado de regras de associação sobre bancos de dados transacionais. Ele prossegue identificando os itens individuais frequentes no banco de dados e estendendo -os a conjuntos de itens cada vez maiores, desde que os itens s

58: O que é interessante?

A.   Uma medida geral do valor do padrão, combinando validade, novidade, utilidade e simplicidade.

B.   Uma expressão e em um idioma l descrevendo fatos em um subconjunto Fe de F.

C.   Um processo de várias etapas envolvendo preparação de dados, pesquisa de padrões, avaliação de conhecimento e refinamento com iteração após modificação.

D.   Um padrão descoberto que é verdadeiro em novos dados com algum grau de certeza e generaliza para outros dados.

59: No modelo MapReduce, as funções de mapa e redução atuam diretamente sobre qual tipo de estrutura de dados?

A.   Matrizes MySQL

B.   Listas vinculadas

C.   bancos de dados relacionais

D.   par de valores-chave

60: No processamento de linguagem natural, qual é o papel de um analisador lexical?

A.   verifica a validade de um token

B.   divide o fluxo de caracteres de entrada em tokens

C.   gera uma gramática sem contexto

D.   processa a árvore de análise para significado semântico

61: O que é agrupamento?

A.   Uma tarefa que consiste em técnicas para estimar, a partir de dados, a função de densidade de probabilidade multi-variada de todas as variáveis/campos no banco de dados.

B.   Uma tarefa descritiva em que se procura identificar um conjunto finito de categorias para descrever os dados.

C.   Aprender uma função que mapeia um item de dados em um dos vários grupos ou clusters predefinidos.

D.   O processo de encontrar um modelo que descreve dependências significativas entre variáveis

62: Um DBMS reduz a redundância e inconsistência de dados por

A.   Utilizando um dicionário de dados

B.   Programa de desacoplamento e dados

C.   Minimizar arquivos isolados com dados repetidos

D.   Aplicação da integridade referencial

63: Em que tipo de análise um mapa de recursos Kohonen normalmente empregado?

A.   Análise de modelagem descritiva

B.   Análise de cluster

C.   Análise exploratória de dados

D.   Análise preditiva

64: Qual dos algoritmos de cluster de folheto pode otimizar uma função de Ojbective?

65: Informações convertidas para fornecer informações sobre padrões históricos e tendências futuras são conhecidas como:

A.   Regressão linear

B.   Clustering

C.   Conhecimento

D.   META-DADA

66: Qual das seguintes propriedades se aplica aos perceptrons de camada única?

A.   backpropagation

B.   Infitalização aleatória de pesos

C.   saída contínua

D.   capaz de aprender separações não lineares

67: Qual das alternativas a seguir não é um método de combinar vários modelos em um modelo de conjunto?

A.   Votação

B.   Empilhamento

C.   Média

D.   Bootstrapping

68: O que é resumo?

A.   Uma tarefa com foco em descobrir as mudanças mais significativas nos dados de valores medidos ou normativos anteriormente

B.   Uma tarefa descritiva em que se procura identificar um conjunto finito de categorias para descrever os dados.

C.   O processo de encontrar um modelo que descreve dependências significativas entre variáveis

D.   Métodos para encontrar uma descrição compacta para um subconjunto de dados.

69: " em 2% das compras na loja de ferragens, tanto uma escolha quanto uma pá foram compradas ”, é um exemplo de:

A.   Validação

B.   Apoiar

C.   Aprendizado supervisionado

D.   Topologia

70: Uma alternativa contínua comumente usada à função de etapa na saída de rede neural de várias camadas é o

A.   Função logística

B.   NN de várias camadas não pode calcular a saída contínua

C.   Função hiperbólica

D.   Função logarítmica

71: O que é porco

A.   Uma linguagem de programação que permite que o Hadoop opere como um data warehouse.

B.   Nenhum desses

C.   Uma linguagem de programação que simplifica as tarefas comuns de trabalhar com o Hadoop.

72: Tomar várias amostras aleatórias de dados e criar um modelo de classificação para cada um é conhecido como:

A.   Amostragem difusa

B.   Binning

C.   Impulsionando

D.   Clustering

A.   // a/[contém (@href, " perfil ")]

B.   // a/[contém (@href, " perfil ")]/@href

C.   // href/perfil

D.   //um perfil

74: Qual dos seguintes algoritmos produz árvores de decisão?

A.   Dbscan

B.   Id3

C.   nenhuma das acima

D.   Regressão logística

75: Qual das seguintes propriedades é uma restrição em um aplicativo repousante?

A.   apátrida

B.   linearmente separável

C.   Retorna a saída JSON

D.   Estado

76: O componente do Hadoop distribuiu o sistema de arquivos responsável pelo armazenamento de metadados é chamado

A.   DataNode

B.   Fs shell

C.   Dfsadmin

D.   Namenode

77: Se mais de um valor ocorrer o mesmo número de vezes, os dados são:

A.   Multifacetado

B.   Multi-folhas

C.   Multivariado

D.   multimodal

78: Qual é o primeiro passo na fase de entendimento dos negócios?

A.   Entender firmemente os objetivos e necessidades de negócios

B.   Avalie a situação atual, descobrindo os recursos, suposições, restrições etc.

C.   Crie metas de mineração de dados para alcançar os objetivos de negócios

D.   Crie uma lista de todos os algoritmos relevantes a serem aplicados à tarefa

79: O que é Curl?

A.   Uma ferramenta de linha de comando para recuperar arquivos

B.   Uma metodologia para classificar os recursos ocultos dos dados

C.   A parte do HTTP que especifica a permissão de acesso

D.   Algoritmo de aprendizado recursivo não supervisionado não supervisionado

80: O nível do modelo que especifica os pontos fortes das dependências usando alguma escala numérica.

A.   Nível numérico

B.   Nível primário

C.   Nível de dependência

D.   Nível quantitativo

81: Apriori é um algoritmo seminal para encontrar conjuntos de itens frequentes usando:

A.   Modelos de mistura normal

B.   Geração candidata

C.   Métodos de excesso de ajuste

D.   Nenhum desses

82: O protocolo de autenticação usado por muitas APIs significativas da Web é chamado:

A.   Https

B.   Pgp

C.   Oauth

D.   Ssl

83: Qual destes não é um passo no processo KDD?

A.   Integração de dados

B.   Mineração de dados

C.   Limpeza de dados

D.   Quantificação de dados

84: Qual dos seguintes aplicativos geralmente é usada para classificar os alunos ' Performances?

A.   Análise de Cluster

B.   Se ... então ... Análise

C.   Análise de regressão

D.   Análise de cestas de mercado

85: Em qualquer conjunto de dados numéricos com um valor médio significativo, qual é a fração mínima de dados que se enquadram em n desvios padrão da média?

A.   1/n^2

B.   1/n

C.   1-1/n^2

D.   1/2n

86: Qual dos seguintes métodos pode ser usado para modelar uma variável de destino categórica?

A.   Tudo o que precede

B.   Regressão logística

C.   ARIMA

D.   Regressão não linear

E.   Regressão

87: Qual das alternativas a seguir não é uma fase primária de um redutor do Hadoop?

A.   Organizar

B.   Reduzir

C.   Mapa

D.   Embaralhar

88: Qual destes é uma possível arquitetura de um sistema de mineração de dados?

A.   Sem acoplamento

B.   Acoplamento magnético

C.   Acoplamento transitivo

D.   Acoplamento rápido

89: Verdadeiro ou falso? As redes neurais artificiais são modelos preditivos lineares.

A.   Verdadeiro

B.   Falso

90: As diferenças medidas entre um modelo e suas previsões são conhecidas como:

A.   Barulho

B.   Outliers

C.   Faixa

D.   Dados não aplicáveis

91: Técnica baseada em hash, redução de transações, porção, amostragem e contagem de itens dinâmicos são exemplos de quê?

A.   Técnicas para melhorar a eficiência de um algoritmo apiori

B.   Método para digitalizar repetidamente a varredura no banco de dados e verifique um grande conjunto de candidatos por correspondência de padrões.

C.   Métodos para gerar conjuntos de itens frequentes sem geração de candidatos.

D.   Métodos para encontrar uma descrição compacta para um subconjunto de dados.

92: Qual das alternativas a seguir faz parte de uma estratégia de mineração de dados de clientes de varejo?

A.   Depoimentos de clientes

B.   venda de férias

C.   garantia de devolução de dinheiro

D.   cartões de fidelidade

93: Qual método de árvore de decisão realiza divisões de vários níveis ao calcular árvores de classificação?

A.   ID3 (Dicotomiser iterativo 3)

B.   C4.5 Algoritmo

C.   Carrinho (árvores de classificação e regressão)

D.   CHAID (detecção de interação automática do Chi Square)

94: Qual é a vantagem do algoritmo de agrupamento de k-medóides sobre o algoritmo K-Means Clustering (Lloyd ' s)?

A.   usa refinamento iterativo

B.   mais resistente a outliers

C.   tudo o que precede

D.   representa grupos por centro

95: As duas principais funções dos servidores de BI são:

A.   Processamento e gerenciamento

B.   Fonte e resultados

C.   Gerenciamento e entrega

D.   Aplicação e entrega

96: Qual das alternativas a seguir não é uma ferramenta apropriada para a colheita de dados de um site que acessa seu banco de dados através de chamadas JavaScript/Ajax?

A.   Todos os itens acima são apropriados

B.   Selênio

C.   Phantomjs

D.   wget

97: Uma abordagem descritiva para explorar dados que podem ajudar a identificar relacionamentos entre valores em um banco de dados é:

A.   Análise preditiva

B.   Ativação da função

C.   Análise de link

D.   Clustering

98: Como você mede a interessante nos padrões de associação?

A.   medir variação

B.   medir relevância

C.   precisão de medição

D.   Medir elevação

99: Qual das alternativas a seguir não é válida JSON?

A.   {" Resposta ":#34; Este "}

B.   {" Resposta ": [" este "]}

C.   {[" Resposta ": " este "]}

D.   Todos são válidos

100: Onde uma operadora de sites geralmente encontra dados sobre seus clientes ' Endereços IP?

A.   Cabeçalhos de solicitação HTTP

B.   biscoitos

C.   servidor logfiles

D.   tudo o que precede