Data-Mining-Fragen in deutschen Sprachen

Data-Mining-Fragen in deutschen Sprachen

Diese Multiple-Choice-Fragen und -Antworten zum Data Mining helfen Ihnen, Data Mining-Themen besser zu verstehen. Bereiten Sie sich mit diesen über 100 MCQ-Datensammlungen auf Ihre nächste Prüfung oder Ihr nächstes Vorstellungsgespräch vor.
Scrollen Sie nach unten, um mit der Antwort zu beginnen.

1: Welche Branche kann vom Data Mining profitieren?

A.   Alle von denen

B.   Einzelhandel

C.   Herstellung

D.   Finanzen/Bankgeschäfte

2: Mit welcher dieser Schichten beginnt ein neuronales Netzwerk?

A.   Ausgangsschicht

B.   Versteckte Schicht

C.   Transparente Schicht

D.   Eingangsschicht

3: Änderungen an Teilen eines Codes können zum Problem der ______________ -Daten führen.

A.   inkonsistent

B.   schmutzig

C.   nicht integriert

D.   körnig

4: Was bezieht sich in einem neuronalen Netz auf Topologie?

A.   Der Bereich der Variablen in einem Satz

B.   Die Anzahl der verwendeten Knoten

C.   Die grafische Visualisierung der Daten

D.   Die Anzahl der Schichten und die Anzahl der Knoten in jeder Schicht

5: Welcher der folgenden Clustering -Algorithmen kann Cluster in willkürlicher Form finden?

A.   Einzelne Verbindung

B.   DSBSCAN

C.   Beide

D.   Keine von diesen

6: Entscheidungsbäume können fehlende Werte ohne eine Impute -Transformation bewältigen. Richtig oder falsch?

A.   FALSCH

B.   WAHR

7: A (n) _____ Algorithmus erstellt Regeln, die beschreiben, wie oft Ereignisse zusammengetragen sind.

A.   Chaid

B.   künstlich

C.   Beschneidung

D.   assoziativ

8: Welche der folgenden Aussagen ist gültig XML?

A.   & lt; Body Antwort = " gültig " & gt; dieses eine & lt;/body & gt;

B.   & lt; gültig & gt; dieses eine & lt;/gültig & gt;

C.   & lt; gültig & gt; " dieses eine " & lt;/gültig & gt;

D.   Alle sind gültig

9: Welche der folgenden Aussagen ist keine relationale Datenbank?

A.   Alles das oben Genannte

B.   Apache Cassandra

C.   Google Big Table

D.   MongoDb

10: Was ist die Datenvisualisierung?

A.   Der technische Begriff für den Datenakt von Daten, die auf einem Server gespeichert werden

B.   Eine strukturierte und entwickelte Vorhersage von Datenergebnissen

C.   Die visuelle Interpretation komplexer Beziehungen in mehrdimensionalen Daten

11: Was ist ein KDD -Prozess?

A.   Differentielle Entschlüsselung

B.   Knoop-Hartness gemessen durch hochwirksame Dimension

C.   Wissensentdeckung in Datenbanken

D.   K-Mean-Datenentdeckung

12: Welche davon sind keine Arten von analytischer Software:

A.   Alle sind gültige Typen

B.   Neurales Netzwerk

C.   Statistisch

D.   Maschinelles Lernen

13: Richtig oder falsch? Wirtschaftsindikatoren sind externe Datenfaktoren.

A.   FALSCH

B.   WAHR

14: Welcher der folgenden Disziplinen überschneidet Data Mining?

A.   Alles das oben Genannte

B.   Künstliche Intelligenz

C.   Statistiken

D.   Linguistik

15: In Vorhersagemodellen werden die zu vorhergesagten Werte oder Klassen als: als:

A.   Abhängig

B.   Alle von denen

C.   Antwort

D.   Zielvariablen

16: Sie sind ein Kreditrisikomanager einer Einzelhandelsbank. Einige Informationen zu Kunden stehen Analysen zur Verfügung. Basierend auf diesen Daten müssen Sie entscheiden, dass eine Person ein guter oder schlechter Kunde ist. Wählen Sie für diese Geschäftsprobleme die entsprechende Data Mining -Aufgabe.

A.   Klassifizierung

B.   Regression

C.   Segmentierung

17: Datenelemente, die in Beziehungen und Vorlieben gruppiert sind, werden als:

A.   Vorhersehbare Sets

B.   Mitteilende Organisationen

C.   Fitgrade

D.   Cluster

18: Was sind Entscheidungsbäume?

A.   Komplexe Berichte, die von einem qualifizierten Datenwissenschaftler erstellt wurden

B.   Hierarchische Dimensionen, die mit einem Hyper -Würfelbrowser erstellt werden können

C.   Daten, die nicht von der Organisation gesammelt wurden, z. B. Daten, die aus einem Nachschlagewerk verfügbar sind

D.   Strukturen, die Regeln für die Klassifizierung eines Datensatzes generieren

19: Welches sind beliebte Data Mining -Methoden?

A.   Relationale Lernmodelle

B.   Entscheidungsbäume und Regeln

C.   Alle von denen

D.   Probabilistische grafische Abhängigkeitsmodelle

20: Richtig für Falsch? Lose Copping Data Mining Architecture erfolgt hauptsächlich für Speicher-basierte Data Mining-Systeme, die keine hohe Skalierbarkeit und hohe Leistung erfordern.

A.   FALSCH

B.   WAHR

21: Was ist Crisp-DM?

A.   Ein Entscheidungsbaum, der in den 1980er Jahren entwickelt wurde, aber heute fast ausschließlich durch die CART -Methode ersetzt wurde

B.   Eine sechs Phasenmethode zur Vorhersage von E-Commerce-Kaufgewohnheiten

C.   Microsoft linearer Regressionsalgorithmus

D.   Ein branchenübergreifender Standardprozess für Data Mining

22: Eine Funktion, die von einem Knoten in einem neuronalen Netz verwendet wird, um Eingabedaten aus einer beliebigen Wertedomäne in einen endlichen Wertebereich zu transformieren, wird als (n) bezeichnet:

A.   Vorgezogen

B.   Aktivierungsfunktion

C.   Verwirrung Matrix

D.   Chi-Quadrat

23: Richtig oder falsch? Tests im Karren sind immer binär.

A.   WAHR

B.   FALSCH

24: Was ist das Maß dafür, wie viele zwei zufällige Variablen zusammen verändern?

A.   Binäre Standardabweichung

B.   Kovarianz

C.   Polykonvergenz

D.   Stochastische Trägheit

25: Welches davon ist ein Beispiel für eine sequentielle Musterbeziehung?

A.   Nutzung von Geschäftserfahrungen und Darminstinkt, um einen neuen Grundriss in einem Lebensmittelgeschäft zu entwerfen

B.   Umstrukturierung der Startaufstellung Ihres Basketballteams basierend auf einer Leistungsanalyse

C.   Zwei häufig gekaufte Artikel nebeneinander im Regal platzieren

D.   Vorhersage der Wahrscheinlichkeit, dass ein Rucksack auf der Grundlage des Kaufs von Schlafsäcken und Wanderschuhen durch den Verbraucher gekauft wird

26: Der jährliche Umsatz eines internationalen Unternehmens korreliert mit anderen Attributen wie Werbung, Wechselkurs, Inflationsrate usw. mit diesen Werten (oder deren zuverlässige Schätzungen für das nächste Jahr). Das Unternehmen muss seine erwarteten Einnahmen für das nächste Jahr berechnen. Wählen Sie für dieses Geschäftsproblem die entsprechende Data Mining -Aufgabe.

A.   Segmentierung

B.   Einstufung

C.   Regression

27: Was ist die Front -End -Schicht der Data Mining Architecture?

A.   Eine intuitive und benutzerfreundliche Benutzeroberfläche

B.   Firewalls eingerichtet, um Daten vor böswilligen Quellen zu schützen

C.   Die Hardware, die speziell für die Speicherung von massiven Datenmengen entwickelt wurde

D.   Das Programm von Programmierern, die die in einem bestimmten Bergbauprojekt verwendete Software entwickelt haben

28: Eine Hyperebene ist a

A.   Entscheidungsgrenze trennende Datenklassen

B.   Variante des C4.5 -Algorithmus

C.   Sammlung von verknüpften Hypertextdateien

D.   Nicht terminierende Fehlerbedingung

29: Daten, die nicht von der Organisation gesammelt wurden, wie beispielsweise Daten aus einer proprietären Datenbank, die mit den eigenen Daten der Organisation kombiniert werden, werden bezeichnet als:

A.   Overlay

B.   Übertreffen

C.   Lärm

D.   Nicht anwendbares Datum

30: Welche davon werden nicht als interne Datenfaktoren angesehen?

A.   Preis

B.   Wirtschaftliche Abschwung

C.   Personalfähigkeiten

D.   Produktplatzierung

31: Welche Data Mining -Technik organisiert Datensätze in vordefinierte Gruppen?

A.   Sequentielle Strukturierung

B.   Clustering

C.   Klassifizierung

D.   Gamification

32: Die Ebene des Modells, das (oft grafisch) angibt, welche Variablen lokal voneinander abhängen.

A.   Strukturelle Ebene

B.   Qualitative Ebene

C.   Grundstufe

D.   Quantitativer Ebene

33: Um das Vertrauen Ihres Zustands der Klassifizierungsleistung in der gesamten Bevölkerung zu erhöhen, sollten Sie:

A.   Verringern Sie die Größe des Trainingsdatensatzes

B.   Erhöhen Sie die Größe des Trainingsdatensatzes

C.   Erhöhen Sie die Größe des Testdatensatzes

D.   Verringern Sie die Größe des Testdatensatzes

34: Der Algorithmus, der die Google -Suchmaschine betreibt, lautet:

A.   Adaboost

B.   Die Binsseitenmethode

C.   Googlecrawler

D.   Seitenrang

35: Was ist in der Assoziation zwischen zwei Variablen der Unterschied zwischen dem Antezedenz und dem Konsequenz?

A.   Der Vorgänger ist immer eine sehr komplexe Variable

B.   Nichts, sie sind austauschbar

C.   Der Vorgänger liegt rechts, die Konsequenz ist links.

D.   Der Vorgänger liegt links, die Konsequenz nach rechts

36: Bei der Analyse von Zeitreihendaten wird der Mittelwert über einen bestimmten Zeitraum (normalerweise ein gewisses Intervall in der Vergangenheit bis heute) als (n) bezeichnet.

A.   teilweise Durchschnitt

B.   unvoreingenommener Mittel

C.   zusammengestoßen

D.   gleitender Durchschnitt

37: Was ist Regression?

A.   Erlernen einer Funktion, die ein Datenelement in eine von mehreren vordefinierten Gruppen abbildet.

B.   Ein Ausdruck E in einer Sprache l, die Fakten in einer Untergruppe von F von F beschreibt.

C.   Eine beschreibende Aufgabe, bei der man versucht, eine endliche Reihe von Kategorien zu identifizieren, um die Daten zu beschreiben.

D.   Erlernen einer Funktion, die ein Datenelement einer realwerten Vorhersagevariablen ordnet.

38: Was ist Abhängigkeitsmodellierung?

A.   Ein mehrstufiger Prozess, der Datenvorbereitung, Mustersuche, Wissensbewertung und Verfeinerung der Iteration nach der Änderung beinhaltet.

B.   Lernen Sie eine Funktion, die ein Datenelement in eine von mehreren vordefinierten Gruppen oder Clustern abbildet.

C.   Der Prozess des Auffindens eines Modells, das signifikante Abhängigkeiten zwischen Variablen beschreibt

D.   Eine Aufgabe, die aus Techniken zur Schätzung der Daten aus Daten der gemeinsamen Multi-Variate-Wahrscheinlichkeitsdichtefunktion aller Variablen/Felder in der Datenbank besteht.

39: Welche davon ist keine häufige Beschreibungen von Schichten?

A.   Versteckt

B.   Eingang

C.   Ausgang

D.   Funktional

40: Sharding bezieht sich auf:

A.   Ein Maß für das Rauschen in einem Datenbankinhalt

B.   Parionierung einer Datenbank für die Verteilung über verschiedene Server

C.   gleichzeitig auf mehrere Objektdatenbanken über SSH zugreifen

D.   nichts des oben Genannten

41: Was ist Veränderungs- und Abweichungserkennung?

A.   Eine Aufgabe, die sich darauf konzentriert, die bedeutendsten Änderungen in den Daten aus zuvor gemessenen oder normativen Werten zu ermitteln

B.   Methoden zum Suche nach einer kompakten Beschreibung für eine Teilmenge von Daten.

C.   Der Prozess des Auffindens eines Modells, das signifikante Abhängigkeiten zwischen Variablen beschreibt

D.   Eine Aufgabe, die aus Techniken zur Schätzung der Daten aus Daten der gemeinsamen Multi-Variate-Wahrscheinlichkeitsdichtefunktion aller Variablen/Felder in der Datenbank besteht.

42: Was ist die Art des Data Mining, der das Empfehlungssystem von Amazon.com ansteigt?

A.   Fuzzy Logic

B.   Assoziationslernen

C.   Anomalieerkennung

D.   Clustering -Algorithmen

43: Welcher der folgenden Algorithmen ist im Allgemeinen für unbeaufsichtigte Lernaufgaben geeignet?

A.   Eingeschränkte Boltzmann -Maschine

B.   Infuzy-Netzwerke

C.   K-nearest Nachbar

D.   K-Means-Algorithmus

44: Welche der folgenden Speicherlösungen eignet sich für einen semi-strukturierten Datensatz am besten, dessen Mitglieder nicht alle die gleichen Attribute haben?

A.   MongoDb

B.   Sqlite

C.   Mysql

D.   Mariadb

45: Um die Klassifizierungsleistung für eine ganze Bevölkerung abzuschätzen, benötigen Sie _______

A.   (Keine von diesen)

B.   Disjunktes Training

C.   Datensätze testen

D.   Disjunkte Trainings- und Testdatensätze

46: Der Verallgemeinerungsfehler ist eine Folge von

A.   Überfit

B.   Parametrische Analyse

C.   Unterfit

D.   Schlecht definierte Chernoff -gebunden

47: Welche davon sind evolutionäre Rechenmethoden?

A.   Heuristische Algorithmen

B.   Bayes'sche Inferenzalgorithmen

C.   Genetische Algorythmen

D.   Clustering -Algorithmen

48: Support Vector -Maschinen haben einen Vorteil gegenüber neuronalen Netzwerken, da SVMs sind

A.   nichts des oben Genannten

B.   Einfacher zu trainieren über Online -Lernen

C.   mehr Widerstand gegen lokale Minima -Konvergenz

D.   parametrisch

49: Welche der folgenden Aussagen ist kein gemeinsames Quellsystem?

A.   Knoten

B.   Saftquelle

C.   UDC

D.   DB Connect

50: Eine Technik, die jeden Datensatz in einem Datensatz basierend auf einer Kombination der Klassen der K -Datensatz (en) in einem historischen Datensatz basiert, lautet:

A.   Nächster Nachbar

B.   Logistische Regression

C.   Assoziationsmodellabfrage

D.   Entscheidungstaum

51: Was ist die Extraktion nützlicher If-dann-Regeln aus Daten, die auf statistischer Signifikanz beruhen?

A.   Vorläufige Methodenzuordnung

B.   Regeleinführung

C.   Fuzzy Logic Application

D.   Dynamische Informationsschlüsseln

52: Was ist Klassifizierung?

A.   Methoden zum Suche nach einer kompakten Beschreibung für eine Teilmenge von Daten.

B.   Erlernen einer Funktion, die ein Datenelement in eine von mehreren vordefinierten Gruppen abbildet.

C.   Ein entdecktes Muster, das auf neue Daten mit einem gewissen Grad an Sicherheit zutrifft und auf andere Daten verallgemeinert wird.

D.   Eine beschreibende Aufgabe, bei der man versucht, eine endliche Reihe von Kategorien zu identifizieren, um die Daten zu beschreiben.

53: Welche der folgenden Funktionen ist keine Funktion von Data Warehouses?

A.   Dreckige Daten reinigen

B.   Daten extrahieren

C.   Daten reinigen

D.   Kaufdaten speichern

54: Richtig oder falsch? Der Mars -Algorithmus kann keine Regeln ergeben.

A.   WAHR

B.   FALSCH

55: Welche der folgenden Aussagen ist am besten geeignet, um die kürzeste Kette von Freunden zu finden, die zwei Personen in einer sozialen Grafik verbinden, die nicht miteinander befreundet sind?

A.   K-Means-Algorithmus

B.   Markov -Ketten

C.   Dijkstra Algorithmus

D.   Neuronale Netze

56: Welche der folgenden Aussagen ist kein gemeinsames Ziel des KDD -Prozesss:

A.   Beschreibung

B.   Leistung

C.   Vorhersage

57: Was ist ein genetischer Algorithmus?

A.   Ein Suchalgorithmus, der es uns ermöglicht, eine optimale binäre Zeichenfolge durch Verarbeitung einer anfänglichen zufälligen Population von binären Zeichenfolgen durch Ausführung von Operationen wie künstlicher Mutation, Crossover und Selektion zu lokalisieren.

B.   Ein Algorithmus, der schätzt, wie gut ein bestimmtes Muster (ein Modell und seine Parameter) die Kriterien des KDD -Prozesses erfüllt. Die Bewertung der Vorhersagegenauigkeit (Gültigkeit) basiert auf der Kreuzvalidierung. Die Bewertung der deskriptiven Qualität beinhaltet Vorhersage a

C.   Ein klassischer Algorithmus für das Lernen von Bergbau- und Verbandsregel über transaktionaler Datenbanken für häufige Elemente. Es erfolgt durch die Identifizierung der häufigen einzelnen Elemente in der Datenbank und erweitert sie auf immer größere Elementsätze, so lange

58: Was ist interessant?

A.   Ein Gesamtmaß für den Musterwert, die Kombination von Gültigkeit, Neuheit, Nützlichkeit und Einfachheit.

B.   Ein Ausdruck E in einer Sprache l, die Fakten in einer Untergruppe von F von F beschreibt.

C.   Ein mehrstufiger Prozess, der Datenvorbereitung, Mustersuche, Wissensbewertung und Verfeinerung der Iteration nach der Änderung beinhaltet.

D.   Ein entdecktes Muster, das auf neue Daten mit einem gewissen Grad an Sicherheit zutrifft und auf andere Daten verallgemeinert wird.

59: Im MapReduce -Modell wirken und reduzieren Sie im MapReduce -Modell direkt auf welche Art von Datenstruktur?

A.   Mysql Matrizen

B.   verlinkte Listen

C.   relationale Datenbanken

D.   Schlüsselwertpaar

60: Welche Rolle spielt in der Verarbeitung natürlicher Sprache die Rolle eines lexikalischen Analysators?

A.   Überprüft die Gültigkeit eines Tokens

B.   teilt den Strom der Eingabebereich in Tokens auf

C.   erzeugt eine kontextfreie Grammatik

D.   verarbeitet den Parse Tree für semantische Bedeutung

61: Was ist Clustering?

A.   Eine Aufgabe, die aus Techniken zur Schätzung der Daten aus Daten der gemeinsamen Multi-Variate-Wahrscheinlichkeitsdichtefunktion aller Variablen/Felder in der Datenbank besteht.

B.   Eine beschreibende Aufgabe, bei der man versucht, eine endliche Reihe von Kategorien zu identifizieren, um die Daten zu beschreiben.

C.   Lernen Sie eine Funktion, die ein Datenelement in eine von mehreren vordefinierten Gruppen oder Clustern abbildet.

D.   Der Prozess des Auffindens eines Modells, das signifikante Abhängigkeiten zwischen Variablen beschreibt

62: Ein DBMS reduziert die Redundanz und Inkonsistenz der Daten durch

A.   Verwendung eines Datenwörterbuchs

B.   Programm und Daten entkoppeln

C.   Minimieren von isolierten Dateien mit wiederholten Daten

D.   Durchsetzung der Referenzintegrität

63: In welcher Art der Analyse wird eine Kohonen -Feature -Karte normalerweise verwendet?

A.   Beschreibende Modellierungsanalyse

B.   Clusteranalyse

C.   Explorationsdatenanalyse

D.   Vorhersageanalyse

64: Welcher der Followng -Clustering -Algorithmen kann eine ojbektive Funktion optimieren?

A.   Lineare Regression

B.   Clustering

C.   Wissen

D.   Meta-Daten

66: Welche der folgenden Eigenschaften gilt für einschichtige Perzeptrons?

A.   Backpropagation

B.   zufällige Initalisierung von Gewichten

C.   kontinuierliche Ausgabe

D.   in der Lage, nichtlineare Trennungen zu lernen

67: Welche der folgenden Methoden ist keine Methode, um mehrere Modelle in ein Ensemble -Modell zu kombinieren?

A.   Wählen

B.   Stapelung

C.   Mittelung

D.   Bootstrapping

68: Was ist Zusammenfassung?

A.   Eine Aufgabe, die sich darauf konzentriert, die bedeutendsten Änderungen der Daten aus zuvor gemessenen oder normativen Werten zu ermitteln

B.   Eine beschreibende Aufgabe, bei der man versucht, eine endliche Reihe von Kategorien zu identifizieren, um die Daten zu beschreiben.

C.   Der Prozess des Auffindens eines Modells, das signifikante Abhängigkeiten zwischen Variablen beschreibt

D.   Methoden zum Suche nach einer kompakten Beschreibung für eine Teilmenge von Daten.

69: " In 2% der Einkäufe im Baumarkt wurden sowohl eine Auswahl als auch eine Schaufel gekauft “, ist ein Beispiel für:

A.   Validierung

B.   Unterstützung

C.   Überwachtes Lernen

D.   Topologie

70: Eine häufig verwendete kontinuierliche Alternative zur Schrittfunktion in mehrschichtiger neuronaler Netzwerkausgabe ist die

A.   logistische Funktion

B.   Mehrschichtiger NN kann die kontinuierliche Ausgabe nicht berechnen

C.   Hyperbolische Funktion

D.   logarithmische Funktion

71: Was ist Schwein

A.   Eine Programmiersprache, die es Hadoop ermöglicht, als Data Warehouse zu arbeiten.

B.   Keine von diesen

C.   Eine Programmiersprache, die die gängigen Aufgaben der Arbeit mit Hadoop vereinfacht.

72: Das Aufnehmen mehrerer zufälliger Datenproben und das Erstellen eines Klassifizierungsmodells für jeden wird bezeichnet als:

A.   Fuzzy -Probenahme

B.   Klasseneinteilung

C.   Erhöhen

D.   Clustering

A.   // a/[enthält (@href, " Profil ")]

B.   // a/[containes (@href, " Profil ")]/@href

C.   // href/Profil

D.   //Ein Profil

74: Welche der folgenden Algorithmen produziert Entscheidungsbäume?

A.   DBSCAN

B.   Id3

C.   nichts des oben Genannten

D.   logistische Regression

75: Welche der folgenden Eigenschaften ist eine Einschränkung für eine erholsame Bewerbung?

A.   staatenlos

B.   linear separabel

C.   Gibt die JSON -Ausgabe zurück

D.   Staatsbürgerlich

76: Die Komponente des Hadoop -verteilten Dateisystemsystems, das für die Speicherung von Metadaten verantwortlich ist

A.   Datanode

B.   FS Shell

C.   Dfsadmin

D.   Namenode

77: Wenn mehr als ein Wert die gleiche Häufigkeit auftritt, lautet die Daten:

A.   Facettenreich

B.   Mehrblatt

C.   Multivariiert

D.   Multimodal

78: Was ist der erste Schritt in der Phase des Geschäftsverständnisses?

A.   Ergänzende Geschäftsziele und -bedürfnisse fest erfassen

B.   Bewerten Sie die aktuelle Situation, indem Sie die Ressourcen, Annahmen, Einschränkungen usw. herausfinden.

C.   Erstellen Sie Data Mining -Ziele, um die Geschäftsziele zu erreichen

D.   Erstellen Sie eine Liste aller relevanten Algorithmen, die auf die Aufgabe angewendet werden sollen

79: Was ist Curl?

A.   Ein Befehlszeilen-Tool zum Abrufen von Dateien

B.   Eine Methodik zur Klassifizierung versteckter Datenmerkmale von Daten

C.   Der Teil von HTTP, der die Zugriffserlaubnis angibt

D.   Kombinatorischer unbeaufsichtigter rekursiver Lernalgorithmus

80: Die Ebene des Modells, die die Stärken der Abhängigkeiten anhand einer numerischen Skala angibt.

A.   Numerische Ebene

B.   Grundstufe

C.   Abhängigkeitsstufe

D.   Quantitative Ebene

81: APRIORI ist ein Samenalgorithmus, um häufige Artikelsätze zu finden.

A.   Normale Mischmodelle

B.   Kandidat Generation

C.   Überanpassungsmethoden

D.   Keine von diesen

82: Das von vielen signifikante Web -APIs verwendete Authentifizierungsprotokoll heißt:

A.   Https

B.   PGP

C.   Oauth

D.   SSL

83: Welches davon ist kein Schritt im KDD -Prozess?

A.   Datenintegration

B.   Data Mining

C.   Datenreinigung

D.   Datenquantifizierung

84: Welche der folgenden Anwendungen werden normalerweise verwendet, um die Schüler zu klassifizieren? Aufführungen?

A.   Clusteranalyse

B.   Wenn ... dann ... Analyse

C.   Regressionsanalyse

D.   Marktkorbanalyse

85: Was ist in einem numerischen Datensatz mit einem aussagekräftigen Mittelwert der minimale Anteil der Daten, die in N -Standardabweichungen des Mittelwerts fallen?

A.   1/n^2

B.   1/n

C.   1-1/n^2

D.   1/2n

86: Welche der folgenden Methoden kann zur Modellierung einer kategorialen Zielvariablen verwendet werden?

A.   Alles das oben Genannte

B.   Logistische Regression

C.   Arima

D.   Nichtlineare Regression

E.   Regression

87: Welche der folgenden Aussagen ist keine primäre Phase eines Hadoop -Reduzierers?

A.   Sortieren

B.   Reduzieren

C.   Karte

D.   Mischen

88: Welche davon ist eine mögliche Architektur eines Data Mining -Systems?

A.   No-Copping

B.   Magnetische Kopplung

C.   Transitive Kopplung

D.   QuickStart -Kopplung

89: Richtig oder falsch? Künstliche neuronale Netze sind lineare Vorhersagemodelle.

A.   WAHR

B.   FALSCH

90: Die gemessenen Unterschiede zwischen einem Modell und seinen Vorhersagen werden bezeichnet als:

A.   Lärm

B.   Ausreißer

C.   Bereich

D.   Nicht anwendbare Daten

91: Hash -basierte Technik, Transaktionsreduzierung, Anteilung, Stichproben und dynamische Elementzählungen sind alle Beispiele für was?

A.   Techniken zur Verbesserung der Effizienz eines Apriori -Algorithmus

B.   Methode zum wiederholten Scannen der Datenbank und überprüfen Sie einen großen Satz von Kandidaten durch Musteranpassung.

C.   Methoden zur Erzeugung häufiger Artikelsätze ohne Kandidatenerzeugung.

D.   Methoden zum Suche nach einer kompakten Beschreibung für eine Teilmenge von Daten.

92: Welche der folgenden Aussagen ist Teil einer Strategie für Datenabbau von Einzelhandelskunden?

A.   Kundenempfehlung

B.   Feiertagsverkauf

C.   Geld-Zurück-Garantie

D.   Kundenkarten

93: Welche Entscheidungsbaummethode führt bei der Berechnung von Klassifizierungsbäumen mehrstufige Spaltungen durch?

A.   ID3 (iterative Dichotomiser 3)

B.   C4.5 Algorithmus

C.   Wagen (Klassifizierung und Regressionsbäume)

D.   Chaid (CHI Square Automatic Interaction Detection)

94: Was ist der Vorteil der K-Medoide Clustering-Algorithmus gegenüber dem K-Means-Clustering (Lloyd ' s) -Algorithmus?

A.   Verwendet iterative Verfeinerung

B.   resistenter gegen Ausreißer

C.   Alles das oben Genannte

D.   repräsentiert Cluster nach der Mitte

95: Die beiden Hauptfunktionen von BI -Servern sind:

A.   Verarbeitung und Verwaltung

B.   Quelle und Ergebnisse

C.   Management und Lieferung

D.   Anwendung und Lieferung

96: Welche der folgenden Aussagen ist kein geeignetes Instrument zur Ernte von Daten von einer Website, die über JavaScript/Ajax -Anrufe auf seine Datenbank zugreift?

A.   Alle oben genannten sind angemessen

B.   Selen

C.   Phantomjs

D.   wget

97: Ein beschreibender Ansatz zur Erforschung von Daten, die dazu beitragen können, die Beziehungen zwischen Werten in einer Datenbank zu identifizieren, ist:

A.   Vorhersageanalyse

B.   Funktionsaktivierung

C.   Linkanalyse

D.   Clustering

98: Wie messen Sie Interessantheit in Assoziationsmustern?

A.   Varianz messen

B.   Relevanz messen

C.   Genauigkeit von Meaure

D.   Messen Sie den Auftrieb

99: Welche der folgenden Aussagen ist kein gültiges JSON?

A.   {" Antwort " ;: " Dieser eine "}

B.   {" Antwort ": [" Dies ist "]}

C.   {[" Antwort " ;: " Dieser eine "]}

D.   Alle sind gültig

100: Wo kann ein Website -Betreiber im Allgemeinen Daten zu ihren Kunden finden ' IP -Adressen?

A.   HTTP -Anfrage -Header

B.   Kekse

C.   Server -Protokolldateien

D.   Alles das oben Genannte