Fragen zur Datenanalyse in deutscher Sprache

Fragen zur Datenanalyse in deutscher Sprache

Testen Sie Ihr Verständnis von Datenanalysethemen, indem Sie über 100 Datenanalyse-MCQs beantworten.
Scrollen Sie nach unten, um loszulegen!

1: Welche der folgenden Arten von Zeitreihenanalysen zielt darauf ab, periodische oder zyklische Komponenten in einer Zeitreihe zu trennen?

A.   Erläuterungsanalyse

B.   Spektralanalyse

C.   Vorhersage

D.   Beschreibende Analyse

2: Welche der folgenden Optionen repräsentieren (en) die korrekte Anwendung des Assoziationsregel -Mining?

A.   Katalogdesign

B.   Korbdatenanalyse

C.   Cross-Marketing

D.   Verlustladeranalyse

E.   Alles das oben Genannte

F.   Nichts des oben Genannten

3: Welche der folgenden Optionen ist/sind die richtigen Anwendungen des Textminens?

A.   Es kann automatisch Nachrichten und E -Mails verarbeiten.

B.   Es kann Wettbewerber untersuchen, indem sie ihre Websites kriechen.

C.   Es kann offene Umfrageantworten analysieren.

D.   Es kann Garantie- oder Versicherungsansprüche analysieren.

E.   Alles das oben Genannte.

4: In Bezug auf Microsoft Neural Network Algorithmus. Welche der folgenden Optionen ist der Neuronentyp, der vorhersehbare Attributwerte für ein Data Mining -Modell darstellt?

A.   Eingabeneuron

B.   Verstecktes Neuron

C.   Ausgangsneuron

D.   Nichts des oben Genannten

5: Welche der folgenden Optionen ist/sind korrekt für den Microsoft Naive Bayes -Algorithmus?

A.   Es wird zur Berechnung der bedingten Wahrscheinlichkeit zwischen Eingangs- und vorhersehbaren Spalten verwendet und wird davon ausgegangen, dass die Spalten unabhängig sind.

B.   Es wird zur Durchführung der automatischen Feature -Auswahl verwendet, um die Anzahl der Werte zu begrenzen, die beim Erstellen eines Modells berücksichtigt werden.

C.   Es wird von Microsoft SQL Server Analysis Services zur Verwendung in der Vorhersagemodellierung bereitgestellt.

D.   Es wird verwendet, um jedes Paar Eingabeattributwerte und Ausgangsattributwerte zu berücksichtigen.

E.   Alles das oben Genannte.

6: Welche der folgenden Optionen ist für die logistische Regressionstechnik korrekt?

A.   Es wird zur Förderung des Gruppeneffekts bei stark korrelierten Variablen verwendet.

B.   Es wird verwendet, um die Wahrscheinlichkeit eines Ereignisses zu finden = Erfolg und Ereignis = Misserfolg.

C.   Es wird zum Hinzufügen und Entfernen von Prädiktoren bei Bedarf für jeden Schritt verwendet.

D.   Es wird verwendet, um die absolute Größe der Regressionskoeffizienten zu bestrafen.

7: Welche der folgenden Optionen ist im Data Mining für den Regressionsalgorithmus richtig?

A.   Es wird zur Vorhersage eines oder mehreren kontinuierlichen numerischen Variablen verwendet; Zum Beispiel. Gewinn oder Verlust, der auf anderen Attributen in einem Datensatz basiert.

B.   Es wird verwendet, um Korrelationen zwischen verschiedenen Attributen in einem Datensatz zu finden.

C.   Es wird verwendet, um Daten in Gruppen oder Cluster von Elementen mit ähnlichen Eigenschaften aufzuteilen.

D.   Es wird verwendet, um häufige Sequenzen oder Episoden in Daten zusammenzufassen. Zum Beispiel. Eine Reihe von Protokollereignissen vor der Maschinenwartung.

8: Gemäß dem Microsoft Association Rules -Modell. Welche der folgenden Optionen ist die Registerkarte Richtiger Zuschauer, die Informationen zu ElementsSets und ihrem relativen Wert kombiniert?

A.   ltemsets

B.   Abhängigkeitsnetzwerk

C.   Regeln

D.   Nichts des oben Genannten

9: Welche der folgenden Aussagen ist für den Typ der Interventionsanalyse der Zeitreihenanalyse korrekt?

A.   Es wird verwendet, um festzustellen, ob ein Ereignis zu einer Änderung einer Zeitreihe führen kann.

B.   Es wird verwendet, um einen Trend oder ein Muster in einer Zeitreihe durch die Verwendung von Diagrammen oder anderen Tools zu erstellen.

C.   Es wird ausgiebig bei der Budgetierung verwendet. das basiert auf historischen Trends.

D.   Es wird zur Untersuchung der Kreuzkorrelation zwischen zwei Zeitreihen und ihrer Abhängigkeit von einem anderen verwendet.

10: Welche der folgenden Aussagen ist der korrekte Standardwert des Parameters maximum_itemset_size, der mit dem Microsoft Association Rules -Algorithmus verwendet wird?

A.   10

B.   3

C.   1

D.   0,4

11: Welche der folgenden Optionen ist in Bezug auf fortschrittliche Statistiken die richtige Syntax der GLM () -Funktion?

A.   GLM (Formel, familie = familientyp (link = linkFunction), Daten =)

B.   GLM (Formel, Daten =, Methode =, Kontrolle =)

C.   GLM (Vektor, Start =. End =, Frequenz =)

D.   GLM (BootObject. Conf =, Typ =)

12: Welche der folgenden Aussagen ist die korrekte Syntax des Befehls, die die Installation des XLSX -Pakets überprüfen und die Bibliothek in den R -Arbeitsbereich lädt?

A.   Grepl.any (installed.packages ("xlsx")) Bibliothek ("xlsx")

B.   beliebig (Grepl ("xlsx", installed.package ()) bibliothek ("xlsx")

C.   any.grepl (xlsx, installiert.package50) | Ibrary (xlsx)

D.   Grepl (alle (installiert.packages (xlsx))) | Ibrary (xlsx)

13: Welche der folgenden Text -Mining -Techniken kann verwendet werden, um Gruppen von Dokumenten mit ähnlichem Inhalt zu erfassen?

A.   Clustering

B.   Kategorisierung

C.   Visualisierung

D.   Informationsextraktion

14: Welche der folgenden Algorithmus -Typen prognostiziert im SOL Server Data Mining eine oder mehrere diskrete Variablen, die auf anderen Attributen in einem Datensatz basieren?

A.   Segmentierungsalgorithmus

B.   Klassifizierungsalgorithmus

C.   Sequenzanalysealgorithmus

D.   Assoziationsalgorithmus

15: Welche der folgenden Optionen ist im Data Mining die richtige Syntax für die Assoziation?

A.   Übereinstimmung Assoziationen [als mustername] analysieren {mess (s)}

B.   Mine Assoziationen [als mustername] analysieren klassifizing_attribute_or_dimension

C.   Mine Assoziationen [als [MUSTER_NAME]] {Matching {metapattern}}

D.   Mine Assoziationen [als mustername] Analysieren Sie die prediction_attribute_or_dimension {set [Attribute_or_dimension_i = value_i}]

16: Welche der folgenden Regressionstechniken versucht, die Vorhersageleistung mit minimaler Anzahl von Prädiktorvariablen zu maximieren?

A.   Schrittweise Regression

B.   Polynomregression

C.   Lineare Regression

D.   Logistische Regression

17: Welche der folgenden Aussagen ist richtig für die vorhersehbare Spalte, die vom Microsoft Linear Regressionsalgorithmus unterstützt wird?

A.   Es unterstützt die zyklischen, Schlüssel- und Tabelleninhaltstypen.

B.   Es unterstützt den Schlüssel, die Tabelle und den geordneten Inhaltstypen.

C.   Es unterstützt die kontinuierlichen, Schlüssel- und Tabelleninhaltstypen.

D.   Es unterstützt die kontinuierlichen, zyklischen und geordneten Inhaltstypen.

18: Welche der folgenden Aussagen ist richtig für den Parameter Prediction_Smoothing, der im Microsoft Time Sery -Algorithmus verwendet wird?

A.   Es spezifiziert, wie ein Modell zur Optimierung der Prognose gemischt werden sollte.

B.   Es gibt an, welchen Algorithmus zur Analyse und Vorhersage verwendet werden soll.

C.   Es spezifiziert einen numerischen Wert zwischen 0 und 1, der Periodizität erfasst.

D.   Es spezifiziert die minimale Anzahl von Zeitscheiben, die erforderlich sind, um einen Aufteil in jedem Zeitreihenbaum zu erzeugen.

19: Welche der folgenden Aussagen ist der korrekte Standardwert für den Parameter Instability_sensitivity, der mit dem Microsoft Time -Series -Algorithmus verwendet wird?

A.   0,6

B.   0,1

C.   10

D.   1

20: Welche der folgenden Optionen ist in Bezug auf fortschrittliche Statistiken in Bezug auf die Arimao -Funktion korrekt?

A.   Es kann verwendet werden, um eine unbehandelte Hauptkomponentenanalyse zu erstellen.

B.   Es kann verwendet werden, um eine maximale Wahrscheinlichkeitsanalyse zu erstellen.

C.   Es kann verwendet werden, um das Strukturgleichungsmodell zu starten.

D.   Es kann verwendet werden, um ein autoregressives integriertes gleitendes Durchschnittsmodell zu fördern.

21: Welche der folgenden Optionen ist im Data Mining für die F-Score-Maßnahme für das Abrufen von Text korrekt?

A.   F -Score = Rückruf - Präzision + (Rückruf x Präzision) / 9

B.   F -Score = Rückruf + Präzision - (Rückruf x Präzision) i 7

C.   F-Score = Rückruf x Präzision / (Rückruf + Präzision) / 2

D.   F -score = rechnen i precision X (Rückruf - Präzision) / 5

22: Welche der folgenden Aussagen ist der Standardwert des Parameter Historical_Model_GAP, der im Microsoft -Zeitreihenalgorithmus verwendet wird?

A.   10

B.   1

C.   0

D.   5

23: Welche der folgenden erweiterten Statistiktechniken wird zur Identifizierung latenter Variablen verwendet, die Gruppen bilden?

A.   Regressionsanalyse

B.   Anova

C.   Faktorenanalyse

D.   Logistische Regression

24: Welche der folgenden Optionen hat in der Data Mining die Präzision korrekt definiert, die zur Beurteilung der Qualität des Textabrufs verwendet werden?

A.   Präzision: l [relevant] n [abgerufen] l / l [abgerufen] l

B.   Precision = l [abgerufen} u [f-score] l + l [f-score} l

C.   Precision = l [rechnen] / [f-scorejl x l [recali] l

D.   Precision = l [f -score] x [relastjl - l [f - score) l

25: Welche der folgenden Maßnahmen zur Abrufen von Text ist der Prozentsatz der Dokumente, die für die Abfrage relevant sind und tatsächlich abgerufen wurden?

A.   Präzision

B.   Abrufen

C.   F-Score

D.   Nichts des oben Genannten

26: Welcher der folgenden Aussagen ist der korrekte Standardwert des Parameters von Holdout_percentage des Microsoft Logistic Regressionsalgorithmus, der zum Angeben des Prozentsatzes der Fälle innerhalb der Trainingsdaten verwendet wird, die zur Berechnung eines Holdout -Fehlers verwendet werden?

A.   200

B.   30

C.   255

D.   100

27: Welche der folgenden Aussagen ist in fortgeschrittenen Statistiken über die Dirichlet -Regressionsmethode korrekt?

A.   Es wird verwendet, um binäre Variablen zu modellieren.

B.   Es wird verwendet, um Zusammensetzungsdaten zu modellieren.

C.   Es wird verwendet, um Rangvariablen zu modellieren.

D.   Es wird verwendet, um Zählvariablen zu modellieren.

28: In welcher der folgenden Textmining -Methoden werden Begriffe auf Satz- und Dokumentebene analysiert?

A.   Phrase-basierte Methode (PBM)

B.   Term-basierte Methode (TBM)

C.   Muster -Taxonomiemethode (PTM)

D.   Konzeptbasierte Methode (CBM)

29: In fortgeschrittenen Statistiken. Welche der folgenden Regressionsmethoden wird verwendet, um Variablen innerhalb des Bereichs (0, 1) zu modellieren?

A.   Ridge Regression

B.   Beta -Regression

C.   Lösungsregression

D.   Isotonische Regression

30: Welche der folgenden Parameter enthält gemäß dem Microsoft Association Rules -Algorithmus die Mindestanzahl von Fällen, die eine Elementen enthalten müssen, bevor der Algorithmus eine Regel generiert?

A.   Minimum_support

B.   Minimum_Probability

C.   Minimum_itemset_size

D.   Minimum_itemset_count

31: Welche der folgenden Linksfunktionen für die Gaußsche Familie lautet gemäß Advanced Statistics Generalized Linearmodell?

A.   (Link = '' Identität ")

B.   (link = '' iogit ")

C.   (link = '' iog ")

D.   (link = "inverse")

32: Welche der folgenden Optionen ist laut Microsoft Association Rules -Algorithmus die Vorhersagefunktion mit dem Skalarwert als Rückgabeart?

A.   Lsiinnode (DMX)

B.   Predictassociation (DMX)

C.   PredictAdjustedProbability (DMX)

D.   Prädikthistogramm (DMX)

33: Welche der folgenden Optionen ist der Standard -Clustering_Method, der vom Microsoft -Clustering -Algorithmus verwendet wird?

A.   Nicht skalierbare Em

B.   Skalierbare em

C.   Skalierbares K-Mittel

D.   Nicht skalierbare K-Means

34: Welche der folgenden Optionen ist der korrekte Rückgabetyp der Vorhersagefunktion des PredicThistogram (DMX), die vom Microsoft Logistic Regression Algorithmus verwendet wird?

A.   Boolescher Typ

B.   Clusterwert

C.   Tisch

D.   Skalarwert

35: Welche der folgenden Optionen ist der Parameter des Microsoft Time Series -Algorithmus, der zur Kontrolle des Wachstums eines Entscheidungsbaums verwendet wird?

A.   Vorhersage_Smoothing

B.   Procesast_method

C.   Instability_sensitivität

D.   Komplexität_Penalty

36: Welche der folgenden Aussagen ist richtig für das Not Null -Modellierungsflag, das im Microsoft Time Series -Algorithmus verwendet wird?

A.   Es gilt für Mining -Modellspalten.

B.   Es gilt für Bergbaustrukturspalten.

C.   Es gilt sowohl für Spalten des Bergbaummodells als auch für Spalten der Bergbaustruktur.

D.   Es gilt weder für Bergbau -Modellsäulen noch für Bergbaustruktursäulen.

37: Welche der folgenden Stichprobenmethoden wird eher für heterogene Einheiten des Universums als für homogene Einheiten verwendet und kann nur dann übernommen werden, wenn seine Bevölkerung bekannt ist?

A.   Einfache zufällige Stichprobe

B.   Geschichtete zufällige Stichprobe

C.   Umfangreiche Probenahme f

D.   Quotenstrichprobenerhebung

38: Welche der folgenden Aussagen ist falsch über Stichprobenmethoden?

A.   Daten können in einer Stichprobenmethode schneller erfasst werden.

B.   Eine Stichprobenmethode bietet der Einrichtung, um die Forschungsarbeiten bequem zu organisieren und auszuführen.

C.   Es ist günstiger.

D.   Für die Verwendung einer Stichprobenmethode ist kein spezialisiertes Wissen erforderlich.

39: Welche der folgenden Aussagen ist in Pandas nicht korrekt?

A.   Es ist gut für tabellarische Daten mit heterogenen Spalten geeignet.

B.   Nur gekennzeichnete Daten können in eine PANDAS -Datenstruktur aufgenommen werden.

C.   Es ist für willkürliche Matrixdaten (homogen typisiert oder heterogen) mit Zeilen- und Säulenetiketten geeignet.

D.   Bestellte und nicht ordnungsgemäße (nicht unbedingt F‌iXD-Frequenz) Zeitreihendaten können auch mit Pandas analysiert werden.

40: Welche der folgenden grundlegenden Maßnahmen zur Beurteilung der Qualität des Textabrufs repräsentiert den Prozentsatz der für eine Abfrage relevanten abgerufenen Dokumente?

A.   Abrufen

B.   F-Score

C.   Präzision

D.   Sowohl a als auch c

41: Welcher der folgenden Data Mining -Algorithmen wird auf eine Datenbank mit einer großen Anzahl von Transaktionen angewendet und lernt auch Assoziationsregeln?

A.   K-Means

B.   C45

C.   Em

D.   Apriori

42: Welche der folgenden Optionen müssen während der Arbeit in einer Pylab -Umgebung nicht importiert werden?

A.   Matplotlib

B.   Pandas

C.   Numpy

D.   Sowohl a als auch c

43: In welchem ​​der folgenden Situationen wird in welchem ​​der folgenden Situationen eine Gegenstände als geschlossen angesehen?

A.   Wenn alle unmittelbaren Supersets die gleiche Unterstützung wie die Itemset haben.

B.   Wenn keiner seiner unmittelbaren Untergruppen die gleiche Unterstützung wie die Itemset hat.

C.   Wenn alle unmittelbaren Untergruppen die gleiche Unterstützung wie die Itemset haben.

D.   Wenn keiner seiner unmittelbaren Supersets die gleiche Unterstützung wie die Itemset hat.

44: Es wird angegeben, dass A und B zwei unabhängige binomiale Variablen mit Parametern 3.114 bzw. 2,1/4 sind. Finden Sie P (A + B 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: Das Modell der Wörter wird in welchem ​​der folgenden Textminingprozesse verwendet?

A.   Features Auswahl

B.   Textvorverarbeitung

C.   Features Generation

D.   Sowohl A als auch B

46: Für eine Gruppe von 12 Schülern wird die Summe der Quadrate der Unterschiede in ihren Reihen für Wissenschaft und Mathematik als 60 angegeben. Auf der Grundlage der angegebenen Informationen. Ermitteln Sie den Wert des Rangkorrelationskoeffizienten.

A.   0,60

B.   0,79

C.   0,45

D.   0,82

47: Berechnung der Rangkorrelationskoeffizienten zwischen Umsatz und Ausgaben für einen Zeitraum von 12 Jahren. Der Rangunterschied für ein Jahr wurde fälschlicherweise als 9 anstelle von 7 angenommen, und als Ergebnis wurde der Wert des Rangkorrelationskoeffizienten mit 0,79 berechnet. Wenn der Fehler behoben wird, was ist dann der ungefähre korrekte Wert des Rangkorrelationskoeffizienten?

A.   0,88

B.   0,82

C.   0,95

D.   0,90

48: Welcher der folgenden Clustering-Algorithmen wird zur Aufteilung basierender auf Gitterbasis verwendet?

A.   BIRKE

B.   K-Means

C.   STACHEL

D.   Fcm

49: Es wird angegeben, dass es 15 Werte von Werten auf X und Y gibt, so dass der Korrelationskoeffizient 0,87 beträgt. Es wird auch angegeben, dass die Standardabweichung auf 5,60 beträgt. Was wird der ungefähre Standardfehler der Schätzung von y auf x sein?

A.   2.5

B.   2.8

C.   3.2

D.   3.4

50: Sam ist beliebt, weil er in 6 von 12 Schüssen ein Ziel erreicht hat, während John das gleiche Ziel in 8 von 14 Schüssen erreichen kann. Wie wird die Wahrscheinlichkeit sein, dass das Ziel getroffen wird, wenn sie beide versuchen?

A.   11/14

B.   13/14

C.   1/14

D.   3/14