Analisis Data MCQ (Pertanyaan Pilihan Bebas)

1: Manakah dari jenis analisis deret waktu berikut yang bertujuan memisahkan komponen berkala atau siklus dalam rangkaian waktu?

A. Analisis Penjelasan

B. Analisis Spektral

C. Peramalan

D. Analisis deskriptif

2: Manakah dari opsi berikut yang mewakili aplikasi penambangan aturan asosiasi yang benar?

A. Desain Katalog

B. Analisis Data Keranjang

C. Pemasaran silang

D. Analisis Loss-Leader

E. Semua yang di atas

F. Bukan dari salah satu di atas

3: Manakah dari opsi berikut ini yang merupakan aplikasi penambangan teks yang benar?

A. Ini dapat secara otomatis memproses pesan dan email.

B. Ini dapat menyelidiki pesaing dengan merangkak situs web mereka.

C. Ini dapat menganalisis tanggapan survei terbuka.

D. Itu dapat menganalisis garansi atau klaim asuransi.

E. Semua yang di atas.

4: Sehubungan dengan algoritma Microsoft Neural Network. Manakah dari opsi berikut ini adalah tipe neuron yang mewakili nilai atribut yang dapat diprediksi untuk model penambangan data?

A. Input neuron

B. Neuron tersembunyi

C. Output Neuron

D. Bukan dari salah satu di atas

5: Manakah dari opsi berikut ini yang benar tentang algoritma Microsoft Naive Bayes?

A. Ini digunakan untuk menghitung probabilitas bersyarat antara input dan kolom yang dapat diprediksi dan mengasumsikan bahwa kolom tersebut independen.

B. Ini digunakan untuk melakukan pemilihan fitur otomatis untuk membatasi jumlah nilai yang dipertimbangkan saat membangun model.

C. Ini disediakan oleh Layanan Analisis Microsoft SQL Server untuk digunakan dalam pemodelan prediktif.

D. Ini digunakan untuk mempertimbangkan setiap pasangan nilai atribut input dan nilai atribut output.

E. Semua yang di atas.

6: Manakah dari opsi berikut yang benar tentang teknik regresi logistik?

A. Ini digunakan untuk mendorong efek kelompok jika terjadi variabel yang sangat berkorelasi.

B. Ini digunakan untuk menemukan probabilitas peristiwa = keberhasilan dan peristiwa = kegagalan.

C. Ini digunakan untuk menambah dan menghapus prediktor sesuai kebutuhan untuk setiap langkah.

D. Ini digunakan untuk menghukum ukuran absolut dari koefisien regresi.

7: Dalam penambangan data, manakah dari opsi berikut yang benar tentang algoritma regresi?

A. Ini digunakan untuk memprediksi satu atau lebih variabel numerik kontinu; Misalnya. laba atau rugi yang didasarkan pada atribut lain dalam dataset.

B. Ini digunakan untuk menemukan korelasi antara atribut yang berbeda dalam dataset.

C. Ini digunakan untuk membagi data menjadi kelompok atau kelompok item yang memiliki sifat serupa.

D. Ini digunakan untuk merangkum urutan atau episode yang sering dalam data; Misalnya. serangkaian acara log sebelum pemeliharaan mesin.

8: Sesuai model aturan Microsoft Association. Manakah dari opsi berikut yang merupakan tab Viewer yang benar yang menggabungkan informasi tentang item dan nilai relatifnya?

A. ltemsets

B. Jaringan ketergantungan

C. Aturan

D. Bukan dari salah satu di atas

9: Manakah dari pernyataan berikut yang benar tentang jenis analisis intervensi dari analisis rangkaian waktu?

A. Ini digunakan untuk mengikat apakah suatu peristiwa dapat menyebabkan perubahan dalam rangkaian waktu.

B. Ini digunakan untuk melakukan tren atau pola dalam rangkaian waktu melalui penggunaan grafik atau alat lainnya.

C. Ini digunakan secara luas dalam penganggaran. yang didasarkan pada tren sejarah.

D. Ini digunakan untuk mempelajari korelasi silang antara dua deret waktu dan ketergantungan mereka pada yang lain.

10: Manakah dari berikut ini yang merupakan nilai default yang benar dari parameter maksimum_itemset_size, yang digunakan dengan algoritma aturan asosiasi Microsoft?

A. 10

B. 3

C. 1

D. 0.4

11: Sehubungan dengan statistik canggih, manakah dari opsi berikut yang merupakan sintaks yang benar dari fungsi GLM ()?

A. GLM (rumus, keluarga = familyType (tautan = linkfunction), data =)

B. GLM (rumus, data =, metode =, kontrol =)

C. GLM (vektor, start =. end =, frekuensi =)

D. GLM (bootobject. conf =, type =)

12: Manakah dari berikut ini yang merupakan sintaks yang benar dari perintah yang akan memverifikasi pemasangan paket XLSX dan memuat pustaka ke ruang kerja R?

A. grepl.any (installed.packages ("xlsx")) pustaka ("xlsx")

B. Perpustakaan apa pun (grepl ("xlsx", installed.package ())) ("xlsx")

C. any.grepl (xlsx, installed.package50) | ibrary (xlsx)

D. grepl (apapun (installed.packages (xlsx))) | ibrary (xlsx)

13: Manakah dari teknik penambangan teks berikut yang dapat digunakan untuk kelompok dokumen yang mengikat dengan konten yang sama?

A. Clustering

B. Kategorisasi

C. Visualisasi

D. Ekstraksi informasi

14: Dalam penambangan data server SOL, manakah dari jenis algoritma berikut yang memprediksi satu atau lebih variabel diskrit yang didasarkan pada atribut lain dalam dataset?

A. Algoritma Segmentasi

B. Algoritma Klasifikasi

C. Algoritma Analisis Urutan

D. Algoritma Asosiasi

15: Dalam penambangan data, manakah dari opsi berikut yang merupakan sintaks yang benar untuk asosiasi?

A. Cocokkan Asosiasi [as Pattern_Name] Analisis {Measure (S)}

B. Asosiasi Tambang [As Pattern_Name] Analisis Classifying_attribute_or_Dimension

C. Asosiasi Tambang [AS [POLA_NAME]] {pencocokan {metapatern}}

D. Asosiasi Tambang [AS POLAT_NAME] Analisis prediksi_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: Manakah dari teknik regresi berikut yang mencoba memaksimalkan kekuatan prediksi dengan jumlah minimum variabel prediktor?

A. Regresi bertahap

B. Regresi polinomial

C. Regresi linier

D. Regresi logistik

17: Manakah dari pernyataan berikut yang benar tentang kolom yang dapat diprediksi yang didukung oleh algoritma regresi linier Microsoft?

A. Ini mendukung jenis konten siklus, kunci dan tabel.

B. Ini mendukung kunci, tabel, dan jenis konten yang dipesan.

C. Ini mendukung jenis konten kontinu, kunci, dan tabel.

D. Ini mendukung tipe konten kontinu, siklus, dan yang dipesan.

18: Manakah dari pernyataan berikut yang benar tentang parameter prediksi_smoothing yang digunakan dalam algoritma Microsoft Time Series?

A. Ini menentukan bagaimana model harus dicampur untuk mengoptimalkan peramalan.

B. Ini menentukan algoritma mana yang akan digunakan untuk analisis dan prediksi.

C. Ini menentukan nilai numerik antara 0 dan 1 yang mendeteksi periodisitas.

D. Ini menentukan jumlah minimum irisan waktu yang diperlukan untuk menghasilkan perpecahan di setiap pohon seri waktu.

19: Manakah dari berikut ini yang merupakan nilai default yang benar untuk parameter Instability_Sensitivity yang digunakan dengan algoritma Microsoft Time Series?

A. 0.6

B. 0.1

C. 10

D. 1

20: Sehubungan dengan statistik lanjutan, manakah dari opsi berikut yang benar tentang fungsi ARIMAO?

A. Ini dapat digunakan untuk menghasilkan analisis komponen utama yang tidak ditulis.

B. Ini dapat digunakan untuk menghasilkan analisis faktor kemungkinan maksimum.

C. Ini dapat digunakan untuk bootstrap model persamaan struktural.

D. Ini dapat digunakan untuk melakukan model rata -rata bergerak terintegrasi autoregresif.

21: Dalam penambangan data, mana dari opsi berikut yang benar tentang ukuran f-score untuk pengambilan teks?

A. F -score = recall - precision + (recall x precision) / 9

B. F -score = recall + precision - (recall x precision) i 7

C. F-score = recall x precision / (recall + precision) / 2

D. F -score = recall i precision x (recall - precision) / 5

22: Manakah dari berikut ini yang merupakan nilai default dari parameter historical_model_gap yang digunakan dalam algoritma Microsoft Time Series?

A. 10

B. 1

C. 0

D. 5

23: Manakah dari teknik statistik canggih berikut yang digunakan untuk mengidentifikasi variabel laten yang membentuk kelompok?

A. Analisis regresi

B. ANOVA

C. Analisis faktor

D. Regresi logistik

24: Dalam penambangan data, manakah dari opsi berikut ini dengan benar menentukan presisi, yang digunakan untuk menilai kualitas pengambilan teks?

A. presisi: l [relevan] n [diambil] l / l [diambil] l

B. Precision = l [diambil} u [f-score] l + l [f-score} l

C. Presisi = l [ingat] / [f-scorejl x l [recali] l

D. Presisi = l [f -score] x [recalljl - l [f - score) l

25: Manakah dari langkah -langkah pengambilan teks berikut ini adalah persentase dokumen, yang relevan dengan permintaan dan benar -benar diambil?

A. Presisi

B. Mengingat

C. F-score

D. Bukan dari salah satu di atas

26: Manakah dari berikut ini yang merupakan nilai default yang benar dari parameter holdout_percentage dari algoritma regresi logistik Microsoft, yang digunakan untuk menentukan persentase kasus dalam data pelatihan yang digunakan untuk menghitung kesalahan penahanan?

A. 200

B. 30

C. 255

D. 100

27: Dalam statistik lanjutan, manakah dari pernyataan berikut yang benar tentang metode regresi Dirichlet?

A. Ini digunakan untuk memodelkan variabel biner.

B. Ini digunakan untuk memodelkan data komposisi.

C. Ini digunakan untuk memodelkan variabel peringkat.

D. Ini digunakan untuk memodelkan variabel penghitungan.

28: Di mana dari metode penambangan teks berikut, istilah yang dianalisis pada tingkat kalimat dan dokumen?

A. Metode berbasis frasa (PBM)

B. Metode berbasis istilah (TBM)

C. Metode Taksonomi Pola (PTM)

D. Metode Berbasis Konsep (CBM)

29: Dalam statistik lanjutan. Manakah dari metode regresi berikut yang digunakan untuk memodelkan variabel dalam kisaran (0, 1)?

A. Regresi punggungan

B. Regresi beta

C. Regresi loess

D. Regresi isotonik

30: Sesuai algoritma Aturan Asosiasi Microsoft, manakah dari parameter berikut yang menentukan jumlah minimum kasus yang harus berisi itemset sebelum algoritma menghasilkan aturan?

A. Minimum_support

B. Minimum_probability

C. Minimum_itemset_size

D. Minimum_itemset_count

31: Menurut statistik lanjutan model linier umum, manakah dari berikut ini yang merupakan fungsi tautan default untuk keluarga Gaussian?

A. (tautan = 'identitas ")

B. (link = '’iogit")

C. (link = ‘'IOG")

D. (tautan = "invers")

32: Sesuai algoritma Aturan Asosiasi Microsoft, manakah dari opsi berikut ini yang merupakan fungsi prediksi dengan nilai skalar sebagai tipe pengembalian?

A. Lsinnode (DMX)

B. PredictAssociation (DMX)

C. PredictAdJustedProbability (DMX)

D. Predicthistogram (DMX)

33: Manakah dari opsi berikut yang merupakan clustering_method default yang digunakan oleh algoritma clustering Microsoft?

A. Em

B. Em yang dapat diskalakan

C. Scalable k-means

D. K-berarti yang tidak dapat ditentukan

34: Manakah dari opsi berikut ini adalah jenis pengembalian yang benar dari fungsi prediksi predicthistogram (DMX) yang digunakan oleh algoritma regresi logistik Microsoft?

A. Tipe boolean

B. Nilai cluster

C. Meja

D. Nilai skalar

35: Manakah dari opsi berikut ini adalah parameter algoritma Microsoft Time Series, yang digunakan untuk mengendalikan pertumbuhan pohon keputusan?

A. Prediksi_smoothing

B. Forecast_method

C. Ketidakstabilan_sensitivity

D. Complexity_penalty

36: Manakah dari pernyataan berikut yang benar tentang bendera pemodelan bukan nol yang digunakan dalam algoritma Microsoft Time Series?

A. Ini berlaku untuk kolom model penambangan.

B. Ini berlaku untuk kolom struktur penambangan.

C. Ini berlaku untuk kolom model penambangan dan kolom struktur pertambangan.

D. Ini tidak berlaku untuk kolom model penambangan atau untuk kolom struktur penambangan.

37: Manakah dari metode pengambilan sampel berikut yang digunakan untuk unit alam semesta yang heterogen daripada unit homogen dan dapat diadopsi hanya ketika populasinya diketahui?

A. Contoh acak sederhana

B. Pengambilan sampel acak bertingkat

C. Pengambilan sampel yang luas f

D. Pengambilan Sampel Kuota

38: Manakah dari pernyataan berikut yang salah tentang metode pengambilan sampel?

A. Data dapat dikumpulkan lebih cepat dalam metode pengambilan sampel.

B. Metode pengambilan sampel menyediakan fasilitas untuk mengatur dan menjalankan pekerjaan penelitian dengan mudah.

C. Itu lebih murah.

D. Tidak diperlukan pengetahuan khusus untuk menggunakan metode pengambilan sampel.

39: Manakah dari pernyataan berikut yang tidak benar tentang panda?

A. Ini sangat cocok untuk data tabular dengan kolom yang heterogen - tipe.

B. Hanya data berlabel yang dapat ditempatkan ke dalam struktur data panda.

C. Ini cocok untuk data matriks sewenang -wenang (diketik secara homogen atau heterogen) dengan label baris dan kolom.

D. Data rangkaian waktu waktu yang dipesan dan tidak tertib (tidak perlu frekuensi-frekuensi) juga dapat dianalisis dengan panda.

40: Manakah dari langkah -langkah mendasar berikut yang digunakan untuk menilai kualitas pengambilan teks yang mewakili persentase dokumen yang diambil yang relevan dengan kueri?

A. Mengingat

B. F-score

C. presisi

D. Baik A dan C

41: Manakah dari algoritma penambangan data berikut yang diterapkan pada database yang berisi sejumlah besar transaksi dan juga mempelajari aturan asosiasi?

A. K-means

B. C45

C. Em

D. Apriori

42: Saat bekerja di lingkungan Pylab, mana dari opsi berikut yang tidak perlu diimpor?

A. matplotlib

B. panda

C. Numpy

D. Baik a dan c

43: Dalam penambangan aturan asosiasi, sebuah itemset dianggap ditutup di mana dari situasi berikut?

A. Ketika semua superset langsungnya memiliki dukungan yang sama dengan Itemet.

B. Ketika tidak ada himpunan langsungnya yang memiliki dukungan yang sama dengan Itemet.

C. Ketika semua himpanya langsung memiliki dukungan yang sama dengan Itemet.

D. Ketika tidak ada superset langsungnya yang memiliki dukungan yang sama dengan Itemet.

44: Diberikan bahwa A dan B adalah dua variabel binomial independen yang masing -masing memiliki parameter 3.114 dan 2,1/4. Temukan P (A + B 21).

A. 1/1024

B. 1023/1024

C. 11512

D. 511/512

45: Model Bag-of-Words digunakan dalam proses penambangan teks manakah berikut?

A. Pilihan fitur

B. Preprocessing teks

C. Fitur Generasi

D. Baik A dan B

46: Untuk sekelompok 12 siswa, jumlah kotak perbedaan dalam jajaran mereka untuk sains dan matematika diberikan sebagai 60. Atas dasar informasi yang diberikan. Temukan nilai koefisien korelasi peringkat.

A. 0.60

B. 0,79

C. 0.45

D. 0.82

47: Sementara menghitung koefisien korelasi peringkat antara penjualan dan pengeluaran untuk periode waktu 12 tahun. Perbedaan peringkat selama satu tahun secara keliru diambil sebagai 9, bukan 7 dan sebagai hasilnya, nilai koefisien korelasi peringkat dihitung sebagai 0,79. Jika kesalahan itu diperbaiki, lalu apa yang akan menjadi nilai yang benar dari koefisien korelasi peringkat?

A. 0.88

B. 0.82

C. 0.95

D. 0,90

48: Manakah dari algoritma pengelompokan berikut yang digunakan untuk partisi berbasis grid?

A. BIRCH

B. K-means

C. Menyengat

D. FCM

49: Diberikan bahwa ada 15 pasang bacaan pada x dan y sehingga koefisien korelasi adalah 0,87. Juga diberikan bahwa standar deviasi pada adalah 5.60. Apa perkiraan perkiraan standar estimasi y pada x?

A. 2.5

B. 2.8

C. 3.2

D. 3.4

50: Sam populer untuk mencapai target dalam 6 dari 12 tembakan, sedangkan John dapat mencapai target yang sama dalam 8 dari 14 tembakan. Apa probabilitas bahwa target akan terkena saat mereka berdua mencoba?

A. 11/14

B. 13/14

C. 1/14

D. 3/14

51: Manakah dari berikut ini yang merupakan metode pengambilan sampel non-probabilitas?

A. Pengambilan Sampel Penghakiman

B. Pengambilan sampel acak bertingkat

C. Pengambilan Sampel Cluster

D. Pengambilan sampel acak multistage

52: Manakah dari pernyataan berikut yang tidak benar tentang jaringan kepercayaan Bayesian?

A. L1 Dalam jaringan kepercayaan, independensi bersyarat kelas dapat didefinisikan antara himpunan bagian variabel.

B. Distribusi probabilitas bersyarat bersama VJ tidak dapat ditentukan oleh jaringan kepercayaan Bayesian.

C. VJ Jaringan Bayesian yang terlatih tidak dapat digunakan untuk klasifikasi.

D. VJ Model grafis hubungan kasual untuk melakukan pembelajaran disediakan oleh Bayesian Belief Network.

53: Manakah dari pernyataan berikut yang benar tentang metode pengambilan sampel penilaian?

A. Tidak ada kemungkinan prasangka pribadi dalam metode ini.

B. Itu lebih akurat dan dapat diandalkan.

C. Sebagian besar digunakan di bidang -bidang tersebut di mana unit yang hampir serupa ada atau beberapa unit terlalu penting 'untuk ditinggalkan dari sampel.

D. Itu sangat mahal.

54: Dalam model Baysian, manakah dari berikut ini yang merupakan representasi yang benar dari kepadatan sendi (6, x), jika diketahui bahwa untuk 0 yang diberikan, data yang diamati x adalah realisasi PA?

A. n (xl0) p (x)

B. n (0) p (x)

C. n (0) p (xl0)

D. nl (x) p (0lx)

55:
Manakah dari perintah berikut yang digunakan untuk mengamati cara objek R terstruktur? Diberikan bahwa mydata adalah variabel di mana data pengguna disimpan.

A. Perpustakaan (Mydata)

B. Jelaskan (mydata)

C. str (mydata)

D. Ringkasan (mydata)

56: Di mana dari teknologi data besar berikut, memindahkan manajemen data yang relevan, analitik dan tugas pelaporan ke tempat data berada, meningkatkan kecepatan ke wawasan, mengurangi pergerakan data dan mempromosikan tata kelola data yang lebih baik?

A. Dukungan untuk Hadoop

B. LN-memory analytics

C. Komputasi Kisi

D. Pemrosesan Ln-Database

57: Manakah dari perintah berikut yang digunakan untuk memulai Antarmuka Ipython dalam mode Pylab inline dan membuka Ipython Notebook di lingkungan Pylab?

A. ipython —Pylab = di | ine

B. ipython —Pylab = inline -Notebook

C. ipython = notebook —pylab.in | ine

D. Ipython Notebook —Pylab = inline

58: Penambangan data LN, menurut teorema Bayes ‘, manakah dari rumus berikut yang mewakili probabilitas posterior dalam hal probabilitas sebelumnya?

A. P (x/h) = p (h/x) p (h)/p (x)

B. P (h/x) = p (x/h) p (h)/p (x)

C. P (h/x) = p (x/h) p (x)/p (h)

D. P (xih) = p (h/x)/p (h) p (x)

59: Dalam penambangan data, manakah dari pernyataan berikut yang tidak benar tentang algoritma C45?

A. Ini hanya memungkinkan satu hasil.

B. Algoritma tunggal-pass yang berasal dari batas konfigurasi binomial digunakan oleh C45.

C. Ini menggunakan kriteria berbasis informasi.

60: Jika pengguna ingin belajar tentang kata kunci teratas yang mengirim perdagangan ke situs webnya, lalu manakah dari segmentasi akuisisi berikut yang harus lebih disukai?

A. Referensi Traff‌ic

B. Perdagangan organik

C. Perdagangan langsung

D. Perdagangan sosial

61: Di Google Analytics Tool, manakah dari analisis berikut yang harus dilakukan untuk mengidentifikasi asal usul perdagangan web pengguna?

A. Analisis Akuisisi

B. Analisis audiens

C. Analisis perilaku

D. Analisis Konversi

62: Manakah dari jenis penambangan asosiasi berikut yang menemukan selanjutnya yang umum lebih dari sekuens MINSUP dalam database urutan?

A. Aturan berurutan

B. Aturan Asosiasi Umum

C. Penambangan pola berurutan

D. Warmr

63: Manakah dari faktor -faktor berikut yang bertanggung jawab atas terjadinya kesalahan pengambilan sampel?

A. Kesalahan karena langkah -langkah statistik yang salah.

B. Kesalahan dalam Kompilasi.

C. Membingkai kuesioner yang salah.

D. Demarkasi yang salah dari unit pengambilan sampel.

64: Dalam penambangan data, manakah dari yang berikut ini yang merupakan sintaksis yang benar untuk mendefinisikan penarikan, yang digunakan untuk menilai kualitas pengambilan teks?

A. Ingat = l [relevan} u [diambil] l l l [relevan}!

B. Ingat = l [relevan} u [diambil] | l l {diambil] l

C. Ingat = l [relevan} f‌l {diambil} | / l [diambil] l

D. Ingat = l [relevan} n [diambil} l / l [Relevantji

65: Manakah dari berikut ini yang merupakan sintaks R yang benar yang digunakan untuk memilih baris tertentu dari bingkai data, berdasarkan kriteria logis spesifik?

A. SELECT (DataFramename, Logical Expression)

B. f‌ilter (Ekspresi logis, DataFramename)

C. f‌ilter (DataFramename, Ekspresi Logis)

D. SELECT (Ekspresi Logis, DataFramename)

66: Dalam analisis kelangsungan hidup, manakah dari metode berikut yang digunakan untuk memodelkan fungsi bahaya pada satu set variabel prediktor?

A. Surv ()

B. coxph ()

C. Survdiff ()

D. Survf‌it ()

67: Manakah dari berikut ini yang merupakan fungsi deskriptif yang terlibat dalam penambangan data?

A. Analisis Evolusi

B. Ramalan

C. Analisis outlier

D. Penambangan Asosiasi

68: Manakah dari pernyataan berikut yang tidak benar tentang ilmu data?

A. Ini digunakan untuk mengubah data menjadi tindakan.

B. Ini mendukung dan mendorong pergeseran antara penalaran deduktif dan induktif.

C. Untuk mencapai kesuksesan. Organisasi perlu mencapai kematangan sains data maksimum.

D. Penting bagi perusahaan untuk tetap dengan paket dan bersaing di masa depan.

69: Manakah dari algoritma pengelompokan berikut yang dapat menangani data bising?

A. MENYEMBUHKAN

B. BATU

C. BIRCH

D. Bunglon

70: Manakah dari pernyataan berikut yang benar tentang pendekatan gudang data yang digerakkan oleh kueri?

A. Proses integrasi dan f‌iltering yang kompleks diperlukan oleh pendekatan ini.

B. Pendekatan ini memungkinkan data untuk disalin. diproses. terintegrasi. beranotasi. dirangkum dan direstrukturisasi di penyimpanan data semantik terlebih dahulu.

C. Ini sangat ekonomis untuk pertanyaan yang membutuhkan agregasi.

D. Ini jauh lebih efisien untuk pertanyaan yang sering.

71: Diberikan bahwa y adalah variat poisson dan memuaskan kondisi p (y = 4) = p (y = 5). Apa nilai rata -rata dan standar deviasi y?

A. Rata -rata = 3 dan standar deviasi = /5

B. Rata -rata = 5 dan standar deviasi = /3

C. Rata -rata = 5 dan standar deviasi = /'5

D. Rata -rata = 7 dan standar deviasi = /7

72: Manakah dari fungsi berikut yang digunakan untuk menguraikan rangkaian waktu dengan tren aditif, dan komponen musiman dan tidak teratur?

A. stl0

B. tso

C. Etso

D. Arimao

73: Dalam penambangan data, manakah dari model berikut yang/digunakan untuk memprediksi label kelas kategori?

A. Model Classif‌ication

B. Model prediksi

C. Baik A dan B

D. Baik A maupun b

74: Di mana teknologi utama, yang digunakan untuk mengekstraksi nilai bisnis dari data besar, data dikelola sebagai strategis. Aset inti dengan kontrol proses berkelanjutan untuk analitik data besar?

A. Manajemen Informasi untuk Big Data

B. Analisis kinerja tinggi untuk data besar

C. Opsi penyebaran yang fleksibel untuk data besar

75: Dalam penambangan aturan asosiasi, indikasi seberapa sering aturan telah ditemukan benar diwakili oleh istilah yang dikenal sebagai kepercayaan diri. Bagaimana istilah ini. kepercayaan diri. diwakili untuk aturan, a => b?

A. conf (a => b) = Supp (a u b) / supp (a)

B. conf (a => b) = Supp (b) / Supp (a)

C. conf (a => b) = Supp (a u b) / supp (a) ‘Supp (b)

D. conf (a => b) = Supp (a u b) / 1 - supp (a)

76: Untuk set 25 item tertentu, koefisien korelasi antara X dan Y adalah 0,6. Nilai rata -rata aritmatika x dan y masing -masing adalah 14 dan 18, dan nilai -nilai standar deviasi x dan y masing -masing adalah 4 dan 6. Jika pasangan (25. 18) telah salah diambil sebagai (18, 25). Kemudian temukan nilai koefisien korelasi yang benar.

A. 0.31

B. 0.42

C. 0,51

D. 0.67

77: Manakah dari berikut ini yang merupakan cara yang benar untuk mengekspresikan hipotesis nol dari uji ekor bawah dari populasi yang berarti? Diberikan bahwa UO adalah batas bawah populasi yang benar -benar dihipotesiskan

A. naik 5 ll

B. P0 = L1

C. PO 2 p

78: Dalam penambangan data, manakah dari bagian -bagian berikut dari pohon keputusan yang mewakili hasil tes?

A. Simpul internal

B. Simpul daun

C. A Cabang

D. Simpul paling atas

79: Manakah dari pernyataan berikut yang benar tentang pembeda SAS?

A. Ini memberikan pendekatan arsitektur yang kaku.

B. Itu dapat mengelola dan memanfaatkan hanya satu model dalam satu waktu.

C. Ini diposisikan secara unik untuk membantu organisasi mengubah data besar dan analitik data besar menjadi nilai bisnis.

D. Kedua opsi A dan C benar.

80: Manakah dari berikut ini yang benar tentang klasifikasi data?

A. Ini menempatkan data dalam bentuk yang tepat dan kental.

B. Analisis statistik LL dimungkinkan untuk semua jenis data kecuali data rahasia.

C. Ii] Ini tidak memungkinkan perbandingan antara berbagai karakteristik.

D. Itu membuat data lebih mudah dimengerti dengan menghilangkan detail yang tidak perlu.

81: Dalam fungsi diskriminan linier dari analisis fungsi diskriminan, apa fungsi metode berikut?

A. Ini menghasilkan prediksi jacknifed.

B. Ini digunakan untuk mendapatkan fungsi diskriminan kuadratik.

C. Ini mencetak fungsi diskriminan berdasarkan variabel yang terpusat, tetapi tidak standar.

D. Ini dapat menampilkan hasil klasifikasi linier atau kuadratik dengan dua variabel sekaligus.

82: Dalam penambangan data, mana dari model klasifikasi berikut yang dibangun oleh algoritma KNN?

A. Model Klasifikasi Pohon Keputusan

B. Model Klasifikasi Ensemble

C. Model klasifikasi hyperplane

D. Tidak ada model klasifikasi yang dibangun oleh knn

83: Dalam penambangan data, manakah dari berikut ini yang merupakan sintaks yang benar dari metode foil, foil_prune, yang digunakan untuk pemangkasan aturan untuk aturan r? Diberikan bahwa p adalah jumlah tupel positif yang dicakup oleh r dan n adalah jumlah tupel negatif yang dicakup oleh R.

A. Foil_prune = p - n/p + n

B. Foil_prune = p + n/p - n

C. Foil_prune = p/n

D. Foil_prune = n/p + n

84: Dalam pengujian hipotesis. Apa yang akan Anda sebut populasi yang datanya kategori dan termasuk dalam kumpulan kelas yang tidak tumpang tindih?

A. Monomial

B. Binomium

C. Trinomial

D. multinomial

85: Manakah dari uji-t berikut yang harus dilakukan untuk membandingkan cara dari dua kelompok yang berbeda?

A. Satu sampel t - uji

B. Sampel berpasangan t - uji

C. Sampel independen uji-t

D. Analisis Varians (ANOVA)

86: Dalam penambangan aturan asosiasi, mana dari pernyataan berikut yang benar tentang seringnya pembuatan item dari pendekatan dua langkah?

A. Hanya menghasilkan satu itemset yang dukungannya 2 menit

B. Menghasilkan semua item yang dukungannya 5 menit

C. Menghasilkan semua item yang dukungannya 5 menit

D. Menghasilkan aturan kepercayaan tinggi dari setiap item yang sering

87: Seorang pengguna dapat memperoleh pageview dari situs web dengan bantuan mana dari tujuan analisis web berikut?

A. Tujuan Halaman/Sesi

B. Tujuan durasi

C. Tujuan tujuan

D. Tujuan acara

88: Jika ada beberapa data dengan nilai yang hilang dan Anda perlu membaca bantuan suatu fungsi, katakanlah median, lalu manakah dari berikut ini yang merupakan sintaks R yang benar untuk melakukannya?

A. ? Median

B. baca.median0

C. #median

D. Help.median0

89: Dalam analisis web, manakah dari metrik berikut yang dipantau di dasbor eCommerce?

A. Halaman memuat waktu dengan browser

B. Total penjualan dengan produk

C. Konversi dengan posting blog

D. Sumber perdagangan waktu nyata

90: Model statistik parametrik diberikan sebagai: (s, p) dengan p = [p6: e e 9]. Berdasarkan notasi statistik, manakah dari berikut ini yang merupakan metode yang benar untuk mewakili A?

A. E G R 0D

B. A = R2D

C. o c 2dr

D. A E DRZ

91: Jika tingkat tes yang signifikan adalah 5%, apa yang akan menjadi hasil dari tes jika nilai-p yang diperoleh lebih besar dari 0,05?

A. Tolak hipotesis nol

B. Gagal menolak hipotesis nol

C. Penerimaan atau penolakan hipotesis nol tidak tergantung pada nilai-p.

92: Manakah dari berikut ini yang merupakan nilai default dari parameter HLSTORLCAL_MODEL_GAP yang digunakan dalam algoritma Microsoft Time Series?

A. 10

B. 1

C. 0

D. 5

93: Manakah dari berikut ini adalah sintaks DMQL yang digunakan untuk menentukan data yang relevan dengan tugas?

A. Gunakan database database_name

B. Gunakan data warehouse data_warehouse_name

C. database.usedatabase_name

D. DataWarehouse.usedata_warehouse_name

94: _______ Mengurangi jumlah bit dalam file dengan mengidentifikasi dan menghilangkan redundansi

A. Kompresi Lossless

B. Kompresi Lossy

C. Bitmap

D. Visualisasi data

95: Jenis data yang dibuat oleh programmer dikenal sebagai ________.

A. Variabel

B. Abstrak Jenis Data (ADT)

C. Fungsi

D. Parameter

E. Tak ada satupun

96: Diigo dan lezat adalah alat ________.

A. Social Bookmarking

B. Riset

C. Grup diskusi

D. Komunikasi sinkron

97: Data kotor adalah ________.

A. Data yang terinfeksi virus

B. Data yang terinfeksi cacing

C. Data yang tidak akurat dan tidak lengkap

D. Data curian

98: ______ dari lembar kerja mendefinisikan penampilannya.

A. Membentuk

B. Format

C. Melihat

D. Catatan

99: ____ Alat kasus memberikan dukungan untuk fase pengkodean dan implementasi.

A. Horisontal

B. Paling depan

C. Back-end

D. Vertikal

100: ________ Alat dan teknik memproses data dan melakukan analisis statistik untuk wawasan dan penemuan.

A. Tata Kelola Data Perusahaan

B. Sistem Informasi Hak Milik

C. Kecerdasan Bisnis

D. Proses bisnis

Pertanyaan Analisis Data dalam bahasa Indonesia

Pertanyaan Analisis Data dalam bahasa Indonesia

1: Manakah dari jenis analisis deret waktu berikut yang bertujuan memisahkan komponen berkala atau siklus dalam rangkaian waktu?

2: Manakah dari opsi berikut yang mewakili aplikasi penambangan aturan asosiasi yang benar?

3: Manakah dari opsi berikut ini yang merupakan aplikasi penambangan teks yang benar?

4: Sehubungan dengan algoritma Microsoft Neural Network. Manakah dari opsi berikut ini adalah tipe neuron yang mewakili nilai atribut yang dapat diprediksi untuk model penambangan data?

5: Manakah dari opsi berikut ini yang benar tentang algoritma Microsoft Naive Bayes?

6: Manakah dari opsi berikut yang benar tentang teknik regresi logistik?

7: Dalam penambangan data, manakah dari opsi berikut yang benar tentang algoritma regresi?

8: Sesuai model aturan Microsoft Association. Manakah dari opsi berikut yang merupakan tab Viewer yang benar yang menggabungkan informasi tentang item dan nilai relatifnya?

9: Manakah dari pernyataan berikut yang benar tentang jenis analisis intervensi dari analisis rangkaian waktu?

10: Manakah dari berikut ini yang merupakan nilai default yang benar dari parameter maksimum_itemset_size, yang digunakan dengan algoritma aturan asosiasi Microsoft?

11: Sehubungan dengan statistik canggih, manakah dari opsi berikut yang merupakan sintaks yang benar dari fungsi GLM ()?

12: Manakah dari berikut ini yang merupakan sintaks yang benar dari perintah yang akan memverifikasi pemasangan paket XLSX dan memuat pustaka ke ruang kerja R?

13: Manakah dari teknik penambangan teks berikut yang dapat digunakan untuk kelompok dokumen yang mengikat dengan konten yang sama?

14: Dalam penambangan data server SOL, manakah dari jenis algoritma berikut yang memprediksi satu atau lebih variabel diskrit yang didasarkan pada atribut lain dalam dataset?

15: Dalam penambangan data, manakah dari opsi berikut yang merupakan sintaks yang benar untuk asosiasi?

16: Manakah dari teknik regresi berikut yang mencoba memaksimalkan kekuatan prediksi dengan jumlah minimum variabel prediktor?

17: Manakah dari pernyataan berikut yang benar tentang kolom yang dapat diprediksi yang didukung oleh algoritma regresi linier Microsoft?

18: Manakah dari pernyataan berikut yang benar tentang parameter prediksi_smoothing yang digunakan dalam algoritma Microsoft Time Series?

19: Manakah dari berikut ini yang merupakan nilai default yang benar untuk parameter Instability_Sensitivity yang digunakan dengan algoritma Microsoft Time Series?

20: Sehubungan dengan statistik lanjutan, manakah dari opsi berikut yang benar tentang fungsi ARIMAO?

21: Dalam penambangan data, mana dari opsi berikut yang benar tentang ukuran f-score untuk pengambilan teks?

22: Manakah dari berikut ini yang merupakan nilai default dari parameter historical_model_gap yang digunakan dalam algoritma Microsoft Time Series?

23: Manakah dari teknik statistik canggih berikut yang digunakan untuk mengidentifikasi variabel laten yang membentuk kelompok?

24: Dalam penambangan data, manakah dari opsi berikut ini dengan benar menentukan presisi, yang digunakan untuk menilai kualitas pengambilan teks?

25: Manakah dari langkah -langkah pengambilan teks berikut ini adalah persentase dokumen, yang relevan dengan permintaan dan benar -benar diambil?

26: Manakah dari berikut ini yang merupakan nilai default yang benar dari parameter holdout_percentage dari algoritma regresi logistik Microsoft, yang digunakan untuk menentukan persentase kasus dalam data pelatihan yang digunakan untuk menghitung kesalahan penahanan?

27: Dalam statistik lanjutan, manakah dari pernyataan berikut yang benar tentang metode regresi Dirichlet?

28: Di mana dari metode penambangan teks berikut, istilah yang dianalisis pada tingkat kalimat dan dokumen?

29: Dalam statistik lanjutan. Manakah dari metode regresi berikut yang digunakan untuk memodelkan variabel dalam kisaran (0, 1)?

30: Sesuai algoritma Aturan Asosiasi Microsoft, manakah dari parameter berikut yang menentukan jumlah minimum kasus yang harus berisi itemset sebelum algoritma menghasilkan aturan?

31: Menurut statistik lanjutan model linier umum, manakah dari berikut ini yang merupakan fungsi tautan default untuk keluarga Gaussian?

32: Sesuai algoritma Aturan Asosiasi Microsoft, manakah dari opsi berikut ini yang merupakan fungsi prediksi dengan nilai skalar sebagai tipe pengembalian?

33: Manakah dari opsi berikut yang merupakan clustering_method default yang digunakan oleh algoritma clustering Microsoft?

34: Manakah dari opsi berikut ini adalah jenis pengembalian yang benar dari fungsi prediksi predicthistogram (DMX) yang digunakan oleh algoritma regresi logistik Microsoft?

35: Manakah dari opsi berikut ini adalah parameter algoritma Microsoft Time Series, yang digunakan untuk mengendalikan pertumbuhan pohon keputusan?

36: Manakah dari pernyataan berikut yang benar tentang bendera pemodelan bukan nol yang digunakan dalam algoritma Microsoft Time Series?

37: Manakah dari metode pengambilan sampel berikut yang digunakan untuk unit alam semesta yang heterogen daripada unit homogen dan dapat diadopsi hanya ketika populasinya diketahui?

38: Manakah dari pernyataan berikut yang salah tentang metode pengambilan sampel?

39: Manakah dari pernyataan berikut yang tidak benar tentang panda?

40: Manakah dari langkah -langkah mendasar berikut yang digunakan untuk menilai kualitas pengambilan teks yang mewakili persentase dokumen yang diambil yang relevan dengan kueri?

41: Manakah dari algoritma penambangan data berikut yang diterapkan pada database yang berisi sejumlah besar transaksi dan juga mempelajari aturan asosiasi?

42: Saat bekerja di lingkungan Pylab, mana dari opsi berikut yang tidak perlu diimpor?

43: Dalam penambangan aturan asosiasi, sebuah itemset dianggap ditutup di mana dari situasi berikut?

44: Diberikan bahwa A dan B adalah dua variabel binomial independen yang masing -masing memiliki parameter 3.114 dan 2,1/4. Temukan P (A + B 21).

45: Model Bag-of-Words digunakan dalam proses penambangan teks manakah berikut?

46: Untuk sekelompok 12 siswa, jumlah kotak perbedaan dalam jajaran mereka untuk sains dan matematika diberikan sebagai 60. Atas dasar informasi yang diberikan. Temukan nilai koefisien korelasi peringkat.

48: Manakah dari algoritma pengelompokan berikut yang digunakan untuk partisi berbasis grid?

49: Diberikan bahwa ada 15 pasang bacaan pada x dan y sehingga koefisien korelasi adalah 0,87. Juga diberikan bahwa standar deviasi pada adalah 5.60. Apa perkiraan perkiraan standar estimasi y pada x?

50: Sam populer untuk mencapai target dalam 6 dari 12 tembakan, sedangkan John dapat mencapai target yang sama dalam 8 dari 14 tembakan. Apa probabilitas bahwa target akan terkena saat mereka berdua mencoba?

51: Manakah dari berikut ini yang merupakan metode pengambilan sampel non-probabilitas?

52: Manakah dari pernyataan berikut yang tidak benar tentang jaringan kepercayaan Bayesian?

53: Manakah dari pernyataan berikut yang benar tentang metode pengambilan sampel penilaian?

54: Dalam model Baysian, manakah dari berikut ini yang merupakan representasi yang benar dari kepadatan sendi (6, x), jika diketahui bahwa untuk 0 yang diberikan, data yang diamati x adalah realisasi PA?

55: Manakah dari perintah berikut yang digunakan untuk mengamati cara objek R terstruktur? Diberikan bahwa mydata adalah variabel di mana data pengguna disimpan.

56: Di mana dari teknologi data besar berikut, memindahkan manajemen data yang relevan, analitik dan tugas pelaporan ke tempat data berada, meningkatkan kecepatan ke wawasan, mengurangi pergerakan data dan mempromosikan tata kelola data yang lebih baik?

57: Manakah dari perintah berikut yang digunakan untuk memulai Antarmuka Ipython dalam mode Pylab inline dan membuka Ipython Notebook di lingkungan Pylab?

58: Penambangan data LN, menurut teorema Bayes ‘, manakah dari rumus berikut yang mewakili probabilitas posterior dalam hal probabilitas sebelumnya?

59: Dalam penambangan data, manakah dari pernyataan berikut yang tidak benar tentang algoritma C45?

60: Jika pengguna ingin belajar tentang kata kunci teratas yang mengirim perdagangan ke situs webnya, lalu manakah dari segmentasi akuisisi berikut yang harus lebih disukai?

61: Di Google Analytics Tool, manakah dari analisis berikut yang harus dilakukan untuk mengidentifikasi asal usul perdagangan web pengguna?

62: Manakah dari jenis penambangan asosiasi berikut yang menemukan selanjutnya yang umum lebih dari sekuens MINSUP dalam database urutan?

63: Manakah dari faktor -faktor berikut yang bertanggung jawab atas terjadinya kesalahan pengambilan sampel?

64: Dalam penambangan data, manakah dari yang berikut ini yang merupakan sintaksis yang benar untuk mendefinisikan penarikan, yang digunakan untuk menilai kualitas pengambilan teks?

65: Manakah dari berikut ini yang merupakan sintaks R yang benar yang digunakan untuk memilih baris tertentu dari bingkai data, berdasarkan kriteria logis spesifik?

66: Dalam analisis kelangsungan hidup, manakah dari metode berikut yang digunakan untuk memodelkan fungsi bahaya pada satu set variabel prediktor?

67: Manakah dari berikut ini yang merupakan fungsi deskriptif yang terlibat dalam penambangan data?

68: Manakah dari pernyataan berikut yang tidak benar tentang ilmu data?

69: Manakah dari algoritma pengelompokan berikut yang dapat menangani data bising?

70: Manakah dari pernyataan berikut yang benar tentang pendekatan gudang data yang digerakkan oleh kueri?

71: Diberikan bahwa y adalah variat poisson dan memuaskan kondisi p (y = 4) = p (y = 5). Apa nilai rata -rata dan standar deviasi y?

72: Manakah dari fungsi berikut yang digunakan untuk menguraikan rangkaian waktu dengan tren aditif, dan komponen musiman dan tidak teratur?

73: Dalam penambangan data, manakah dari model berikut yang/digunakan untuk memprediksi label kelas kategori?

74: Di mana teknologi utama, yang digunakan untuk mengekstraksi nilai bisnis dari data besar, data dikelola sebagai strategis. Aset inti dengan kontrol proses berkelanjutan untuk analitik data besar?

75: Dalam penambangan aturan asosiasi, indikasi seberapa sering aturan telah ditemukan benar diwakili oleh istilah yang dikenal sebagai kepercayaan diri. Bagaimana istilah ini. kepercayaan diri. diwakili untuk aturan, a => b?

77: Manakah dari berikut ini yang merupakan cara yang benar untuk mengekspresikan hipotesis nol dari uji ekor bawah dari populasi yang berarti? Diberikan bahwa UO adalah batas bawah populasi yang benar -benar dihipotesiskan

78: Dalam penambangan data, manakah dari bagian -bagian berikut dari pohon keputusan yang mewakili hasil tes?

79: Manakah dari pernyataan berikut yang benar tentang pembeda SAS?

80: Manakah dari berikut ini yang benar tentang klasifikasi data?

55:
Manakah dari perintah berikut yang digunakan untuk mengamati cara objek R terstruktur? Diberikan bahwa mydata adalah variabel di mana data pengguna disimpan.