أسئلة تحليلات البيانات باللغات العربية

أسئلة تحليلات البيانات باللغات العربية

اختبر فهمك لموضوعات تحليل البيانات من خلال الإجابة على أكثر من 100 سؤال من تحليل البيانات.
انتقل لأسفل لتبدأ!

1: أي من الأنواع التالية من تحليل السلاسل الزمنية يهدف إلى فصل المكونات الدورية أو الدورية في سلسلة زمنية؟

A.   التحليل التفسيري

B.   التحليل الطيفي

C.   التوقع

D.   التحليل الوصفي

2: أي من الخيارات التالية تمثل (ق) التطبيق الصحيح لتعدين قاعدة الجمعيات؟

A.   تصميم الكتالوج

B.   تحليل بيانات السلة

C.   التسويق عبر

D.   تحليل قائد الخسارة

E.   كل ما ورداعلاه

F.   لا شيء مما بالأعلى

3: أي من الخيارات التالية هو/هل التطبيق (التطبيقات) الصحيح من تعدين النص؟

A.   يمكنه معالجة الرسائل ورسائل البريد الإلكتروني تلقائيًا.

B.   يمكنه التحقيق في المنافسين من خلال تزحف مواقع الويب الخاصة بهم.

C.   يمكنه تحليل ردود المسح المفتوح.

D.   يمكنه تحليل المطالبات الضمان أو التأمين.

E.   كل ما ورداعلاه.

4: فيما يتعلق بخوارزمية الشبكة العصبية Microsoft. أي من الخيارات التالية هو نوع الخلايا العصبية التي تمثل قيم السمات التي يمكن التنبؤ بها لنموذج استخراج البيانات؟

A.   إدخال الخلايا العصبية

B.   الخلية العصبية المخفية

C.   ناتج الخلايا العصبية

D.   لا شيء مما بالأعلى

5: أي من الخيارات التالية هي/تصحيح حول خوارزمية Microsoft Naive Bayes؟

A.   يتم استخدامه لحساب الاحتمال الشرطي بين المدخلات والأعمدة التي يمكن التنبؤ بها ويفترض أن الأعمدة مستقلة.

B.   يتم استخدامه لتحقيق اختيار الميزات التلقائي للحد من عدد القيم التي يتم النظر فيها عند إنشاء نموذج.

C.   يتم توفيرها من قبل خدمات تحليل خادم Microsoft SQL للاستخدام في النمذجة التنبؤية.

D.   يتم استخدامه للنظر في كل زوج من قيم سمة الإدخال وقيم سمة الإخراج.

E.   كل ما ورداعلاه.

6: أي من الخيارات التالية صحيحة حول تقنية الانحدار اللوجستي؟

A.   يتم استخدامه لتشجيع تأثير المجموعة في حالة المتغيرات المرتبطة للغاية.

B.   يتم استخدامه لإيجاد احتمال الحدث = النجاح والحدث = الفشل.

C.   يتم استخدامه لإضافة وإزالة المتنبئين حسب الحاجة لكل خطوة.

D.   يتم استخدامه لمعاقبة الحجم المطلق لمحميات الانحدار.

7: في استخراج البيانات ، أي من الخيارات التالية صحيحة حول خوارزمية الانحدار؟

A.   يتم استخدامه للتنبؤ بواحد أو أكثر من المتغيرات الرقمية المستمرة ؛ على سبيل المثال. الربح أو الخسارة التي تستند إلى سمات أخرى في مجموعة البيانات.

B.   يتم استخدامه لإيجاد الارتباطات بين سمات مختلفة في مجموعة البيانات.

C.   يتم استخدامه لتقسيم البيانات إلى مجموعات أو مجموعات من العناصر التي لها خصائص مماثلة.

D.   يتم استخدامه لتلخيص التسلسلات أو الحلقات المتكررة في البيانات ؛ على سبيل المثال. سلسلة من أحداث السجل السابقة صيانة الجهاز.

8: حسب نموذج قواعد جمعية Microsoft. أي من الخيارات التالية هي علامة تبويب العارض الصحيحة التي تجمع بين المعلومات حول العناصر وقيمتها النسبية؟

A.   ltemsets

B.   شبكة التبعية

C.   قواعد

D.   لا شيء مما بالأعلى

9: أي من العبارات التالية صحيحة حول نوع تحليل التدخل في تحليل السلسلة الزمنية؟

A.   يتم استخدامه لتوفير ما إذا كان يمكن أن يؤدي الحدث إلى تغيير في سلسلة زمنية.

B.   يتم استخدامه لتزويد الاتجاه أو النمط في سلسلة زمنية من خلال استخدام الرسوم البيانية أو الأدوات الأخرى.

C.   يتم استخدامه على نطاق واسع في الميزانية. الذي يعتمد على الاتجاهات التاريخية.

D.   يتم استخدامه لدراسة العلاقة المتقاطعة بين سلسلتين زمنيتين واعتمادهما على آخر.

10: أي مما يلي هو القيمة الافتراضية الصحيحة لمعلمة maximum_itemset_size ، والتي تستخدم مع خوارزمية قواعد جمعية Microsoft؟

A.   10

B.   3

C.   1

D.   0.4

11: فيما يتعلق بالإحصاءات المتقدمة ، أي من الخيارات التالية هي بناء الجملة الصحيحة لوظيفة GLM ()؟

A.   GLM (صيغة ، عائلة = FamilyType (Link = LinkFunction) ، Data =)

B.   GLM (الصيغة ، البيانات = ، الطريقة = ، التحكم =)

C.   GLM (متجه ، ابدأ =. النهاية = ، التردد =)

D.   GLM (BootObject. conf = ، type =)

12: أي مما يلي هو بناء الجملة الصحيح للأمر الذي سيتحقق من تثبيت حزمة XLSX وتحميل المكتبة في مساحة العمل؟

A.   GREPL.ANY (مثبتة.

B.   أي مكتبة (grepl ("xlsx" ، مثبتة. package ())) ("xlsx")

C.   any.grepl (xlsx ، install.package50) | ibrary (xlsx)

D.   GREPL (أي (مثبتة.

13: أي من تقنيات تعدين النص التالية يمكن استخدامها لمجموعات الوثائق ذات المحتوى المماثل؟

A.   تجمع

B.   التصنيف

C.   التصور

D.   استخراج المعلومات

14: في تعدين بيانات خادم SOL ، أي من أنواع الخوارزمية التالية تتنبأ بمتغيرات منفصلة واحدة أو أكثر تعتمد على سمات أخرى في مجموعة البيانات؟

A.   خوارزمية تجزئة

B.   خوارزمية التصنيف

C.   خوارزمية تحليل التسلسل

D.   خوارزمية الارتباط

15: في استخراج البيانات ، أي من الخيارات التالية هي بناء الجملة الصحيحة للارتباط؟

A.   جمعيات المطابقة [كـ pattern_name] تحليل {measure (s)}

B.   جمعيات الألغام [كـ pattern_name] تحليل التصنيف _attribute_or_dimension

C.   جمعيات الألغام [كـ [pattern_name]] {Matching {metapattern}}

D.   رابطات الألغام [AS pattern_name] تحليل التنبؤ_attribute_or_dimension {set [attribute_or_dimension_i = value_i}]

16: أي من تقنيات الانحدار التالية تحاول زيادة قوة التنبؤ مع الحد الأدنى لعدد متغيرات التنبؤ؟

A.   الانحدار التدريجي

B.   الانحدار متعدد الحدود

C.   الانحدارالخطي

D.   الانحدار اللوجستي

17: أي من العبارات التالية صحيحة حول العمود المتوقع المدعوم من خوارزمية الانحدار الخطي Microsoft؟

A.   وهو يدعم أنواع محتوى الدورية والمفتاح والجدول.

B.   وهو يدعم المفتاح والجدول وأنواع المحتوى المطلوبة.

C.   وهو يدعم أنواع محتوى المستمر والمفتاح والجدول.

D.   وهو يدعم أنواع المحتوى المستمر والدوري والمرتبة.

18: أي من العبارات التالية صحيحة حول معلمة التنبؤ_smoothing المستخدمة في خوارزمية سلسلة Microsoft؟

A.   يحدد كيفية خلط النموذج لتحسين التنبؤ.

B.   يحدد الخوارزمية التي يجب استخدامها للتحليل والتنبؤ.

C.   يحدد قيمة رقمية بين 0 و 1 تكتشف الدورية.

D.   إنه يحدد الحد الأدنى لعدد الشرائح الزمنية المطلوبة لإنشاء تقسيم في كل شجرة سلسلة زمنية.

19: أي مما يلي هو القيمة الافتراضية الصحيحة لمعلمة عدم الاستقرار_

A.   0.6

B.   0.1

C.   10

D.   1

20: فيما يتعلق بالإحصاءات المتقدمة ، أي من الخيارات التالية صحيحة حول وظيفة arimao؟

A.   يمكن استخدامه لإنتاج تحليل مكون رئيسي غير مؤهل.

B.   يمكن استخدامه لإنتاج أقصى قدر من تحليل عامل الاحتمالية.

C.   يمكن استخدامه لتمهيد نموذج المعادلة الهيكلية.

D.   يمكن استخدامه لتوضيح نموذج متوسط ​​متحرك متكامل للانحدار التلقائي.

21: في استخراج البيانات ، أي من الخيارات التالية صحيحة حول مقياس F-Score لاسترجاع النص؟

A.   f -score = remest - Precision + (remex x precision) / 9

B.   f -score = remex + precision - (استدعاء X Precision) i 7

C.   f-score = remity x precision / (recke + precision) / 2

D.   F -Score = remex i precision x (استدعاء - الدقة) / 5

22: أي مما يلي هو القيمة الافتراضية للمعلمة Historical_Model_gap المستخدمة في خوارزمية سلسلة Microsoft الزمنية؟

A.   10

B.   1

C.   0

D.   5

23: أي من تقنيات الإحصاءات المتقدمة التالية تستخدم لتحديد المتغيرات الكامنة التي تشكل مجموعات؟

A.   تحليل الانحدار

B.   أنوفا

C.   تحليل العوامل

D.   الانحدار اللوجستي

24: في استخراج البيانات ، أي من الخيارات التالية ترفع الدقة بشكل صحيح ، والتي يتم استخدامها لتقييم جودة استرجاع النص؟

A.   الدقة: l [ذات الصلة] n [Retrieved] l / l [Retrieved] l

B.   Precision = l [Retrieved} u [f-score] l + l [f-score} l

C.   الدقة = l [استدعاء] / [f-scorejl x l [recali] l

D.   الدقة = l [f -score] x

25: أي من مقاييس استرجاع النص التالية هي النسبة المئوية للوثائق ، والتي هي ذات صلة بالاستعلام وتم استردادها بالفعل؟

A.   دقة

B.   يتذكر

C.   F-Score

D.   لا شيء مما بالأعلى

26: أي مما يلي هو القيمة الافتراضية الصحيحة لمعلمة Holdout_perCentage لخوارزمية الانحدار اللوجستي Microsoft ، والتي تستخدم لتحديد النسبة المئوية للحالات داخل بيانات التدريب المستخدمة لحساب خطأ معلق؟

A.   200

B.   30

C.   255

D.   100

27: في الإحصاءات المتقدمة ، أي من العبارات التالية صحيحة حول طريقة الانحدار Dirichlet؟

A.   يتم استخدامه لنمذجة المتغيرات الثنائية.

B.   يتم استخدامه لنمذجة البيانات التركيبية.

C.   يتم استخدامه لنمذجة متغيرات الرتبة.

D.   يتم استخدامه لنماذج العد المتغيرات.

28: في أي من طرق تعدين النص التالية ، يتم تحليل المصطلحات على الجملة ومستوى المستند؟

A.   الطريقة القائمة على العبارة (PBM)

B.   الطريقة القائمة على المصطلح (TBM)

C.   طريقة تصنيف النمط (PTM)

D.   الطريقة القائمة على المفهوم (CBM)

29: في الإحصاءات المتقدمة. أي من طرق الانحدار التالية تستخدم لنمذجة المتغيرات ضمن نطاق (0 ، 1)؟

A.   ريدج الانحدار

B.   انحدار بيتا

C.   الانحدار loess

D.   الانحدار المتساوي

30: وفقًا لخوارزمية قواعد جمعية Microsoft ، أي من المعلمات التالية تحدد الحد الأدنى لعدد الحالات التي يجب أن تحتوي على مجموعة عناصر قبل أن تنشئ الخوارزمية قاعدة؟

A.   Minimum_support

B.   الحد الأدنى

C.   Minimum_Itemset_Size

D.   Minimum_Itemset_Count

31: وفقًا للنموذج الخطي المعمم الإحصائي المتقدم ، أي مما يلي هو وظيفة الارتباط الافتراضي لعائلة غاوسية؟

A.   (Link = '' Identity ")

B.   (link = '' iogit ")

C.   (link = ‘'iog")

D.   (Link = "عكسي")

32: وفقًا لخوارزمية قواعد جمعية Microsoft ، أي من الخيارات التالية هي وظيفة التنبؤ ذات القيمة العددية كنوع الإرجاع؟

A.   lsinnode (DMX)

B.   التنبؤ (DMX)

C.   التنبؤات

D.   premthistogram (DMX)

33: أي من الخيارات التالية هي cluster_method الافتراضية التي تستخدمها خوارزمية Microsoft Clustering؟

A.   غير قابل للدراسة

B.   قابلة للتطوير em

C.   قابلة للتطوير K-means

D.   غير قابل للدراسة K-Means

34: أي من الخيارات التالية هو نوع الإرجاع الصحيح لوظيفة التنبؤ premthistogram (DMX) المستخدمة من قبل خوارزمية الانحدار اللوجستي Microsoft؟

A.   نوع منطقي

B.   قيمة الكتلة

C.   طاولة

D.   قيمة العددية

35: أي من الخيارات التالية هي معلمة خوارزمية سلسلة Microsoft الزمنية ، والتي تستخدم للتحكم في نمو شجرة القرار؟

A.   التنبؤ_smoothing

B.   Precitast_Method

C.   عدم الاستقرار

D.   complexity_penalty

36: أي من العبارات التالية صحيحة حول علامة النمذجة غير الفارغة المستخدمة في خوارزمية Microsoft Time Series؟

A.   ينطبق على أعمدة طراز التعدين.

B.   ينطبق على أعمدة بنية التعدين.

C.   ينطبق على كل من أعمدة طراز التعدين وأعمدة هيكل التعدين.

D.   لا ينطبق على أعمدة طراز التعدين أو على أعمدة بنية التعدين.

37: أي من طرق أخذ العينات التالية تستخدم للوحدات غير المتجانسة من الكون بدلاً من الوحدات المتجانسة ويمكن تبنيها فقط عندما يكون عدد سكانها معروفًا؟

A.   عينة عشوائية بسيطة

B.   اخذ عينة عشوائية

C.   أخذ عينات واسعة و

D.   أخذ العينات الحصص

38: أي من العبارات التالية غير صحيحة حول طرق أخذ العينات؟

A.   يمكن جمع البيانات بشكل أسرع في طريقة أخذ العينات.

B.   توفر طريقة أخذ العينات المنشأة لتنظيم وتنفيذ أعمال البحث بسهولة.

C.   إنه أقل تكلفة.

D.   لا توجد معرفة متخصصة لاستخدام طريقة أخذ العينات.

39: أي من العبارات التالية غير صحيحة حول الباندا؟

A.   إنه مناسب تمامًا للبيانات الجدولية مع الأعمدة المغطاة بشكل غير متجانس.

B.   يمكن وضع البيانات المسمى فقط في بنية بيانات Pandas.

C.   إنه مناسب لبيانات المصفوفة التعسفية (مطبوعة بشكل متجانس أو غير متجانسة) مع ملصقات صف وعمود.

D.   يمكن أيضًا تحليل بيانات السلسلة الزمنية المرتبة وغير المرتبة (وليس بالضرورة بالترددات الزمنية) مع الباندا.

40: أي من التدابير الأساسية التالية المستخدمة لتقييم جودة استرجاع النص تمثل (ق) النسبة المئوية للمستندات المستردة ذات الصلة بالاستعلام؟

A.   يتذكر

B.   F-Score

C.   دقة

D.   كلا A و C

41: أي من خوارزميات استخراج البيانات التالية يتم تطبيقها على قاعدة بيانات تحتوي على عدد كبير من المعاملات وأيضًا تعلم قواعد الارتباط؟

A.   K-Means

B.   C45

C.   م

D.   apriori

42: أثناء العمل في بيئة بيلاب ، أي من الخيارات التالية لا تحتاج إلى استيرادها؟

A.   Matplotlib

B.   الباندا

C.   نومبي

D.   كلا A و C

43: في تعدين القاعدة ، تعتبر مجموعة العناصر مغلقة في أي من الحالات التالية؟

A.   عندما يكون لجميع مجموعات Supersets المباشرة نفس الدعم مثل مجموعة العناصر.

B.   عندما لا يكون لدى أي من مجموعاتها الفرعية المباشرة نفس الدعم مثل مجموعة العناصر.

C.   عندما يكون لجميع مجموعاتها الفرعية المباشرة نفس الدعم مثل مجموعة العناصر.

D.   عندما لا يكون لدى أي من مجموعات Supersets المباشرة نفس الدعم مثل مجموعة العناصر.

44: يتم إعطاء أن A و B هما متغيران ذوان مستقلين لهما معلمات 3،114 و 2،1/4 ، على التوالي. Find P (A + B 21).

A.   1/1024

B.   1023/1024

C.   11512

D.   511/512

45: يستخدم نموذج حقيبة الكلمات في أي من عمليات تعدين النص التالية؟

A.   اختيار الميزات

B.   نص معالجة مسبق

C.   ميزات الجيل

D.   كلا A و B

46: بالنسبة لمجموعة من 12 طالبًا ، يتم إعطاء مجموع مربعات الاختلافات في صفوفهم للعلوم والرياضيات 60. على أساس المعلومات المحددة. العثور على قيمة معامل ارتباط الرتبة.

A.   0.60

B.   0.79

C.   0.45

D.   0.82

47: أثناء حساب ارتباط الرتبة بين المبيعات والنفقات لفترة زمنية من 12 سنة. تم أخذ الفرق في المرتبة لمدة عام عن طريق الخطأ في 9 بدلاً من 7 ونتيجة لذلك ، تم حساب قيمة معامل الارتباط في المرتبة على أنها 0.79. إذا تم تصحيح الخطأ ، فماذا ستكون القيمة الصحيحة التقريبية لارتباط الرتبة؟

A.   0.88

B.   0.82

C.   0.95

D.   0.90

48: أي من خوارزميات التجميع التالية تُستخدم للتقسيم القائم على الشبكة؟

A.   بيرش

B.   K-Means

C.   العقرب

D.   FCM

49: يُعطى أن هناك 15 زوجًا من القراءات على x و y بحيث تكون العلاقة بين الارتباط هي 0.87. يُعطى أيضًا أن الانحراف المعياري على 5.60. ماذا سيكون الخطأ المعياري التقريبي لتقدير y على x؟

A.   2.5

B.   2.8

C.   3.2

D.   3.4

50: تحظى SAM بشعبية كبيرة لضرب هدف في 6 من أصل 12 طلقة ، في حين يمكن لـ John أن يضرب نفس الهدف في 8 من أصل 14 طلقة. ماذا سيكون احتمال ضرب الهدف عندما يحاول كلاهما؟

A.   11/14

B.   13/14

C.   1/14

D.   3/14

51: أي مما يلي طريقة أخذ العينات غير الاحتمالية؟

A.   أخذ عينات الحكم

B.   اخذ عينة عشوائية

C.   أخذ عينات الكتلة

D.   عينة عشوائية متعددة المراحل

52: أي من العبارات التالية غير صحيحة حول شبكة الاعتقاد البايزي؟

A.   L1 في شبكة الاعتقاد ، يمكن تعريف الاستقلال الشرطي الطبقي بين المجموعات الفرعية من المتغيرات.

B.   لا يمكن تحديد توزيع الاحتمالات الشرطية لـ VJ بواسطة شبكات الاعتقاد البايزي.

C.   VJ لا يمكن استخدام شبكة Bayesian المدربة للتصنيف.

D.   يتم توفير نموذج رسومي للعلاقة غير الرسمية لأداء التعلم بواسطة شبكة الاعتقاد بايزي.

53: أي من العبارات التالية صحيحة حول طريقة أخذ عينات الحكم؟

A.   لا توجد إمكانية للتحامل الشخصي في هذه الطريقة.

B.   إنه أكثر دقة وموثوقية.

C.   يتم استخدامه في الغالب في تلك الحقول التي توجد فيها وحدات مماثلة تقريبًا أو أن بعض الوحدات مهمة للغاية بحيث لا يمكن تركها خارج العينة.

D.   أنها مكلفة للغاية.

54: في نموذج Baysian ، أي مما يلي هو التمثيل الصحيح لكثافة المفصل لـ (6 ، x) ، إذا كان من المعروف أنه بالنسبة إلى 0 ، فإن البيانات المرصودة x هي إدراك للسلطة الفلسطينية؟

A.   N (XL0) P (x)

B.   n (0) p (x)

C.   n (0) p (xl0)

D.   NL (X) P (0LX)

55:

أي من الأوامر التالية المستخدمة لمراقبة الطريقة التي يتم بها تنظيم كائن R؟ يتم إعطاء أن MyData هو متغير حيث يتم تخزين بيانات المستخدم.

A.   مكتبة (MyData)

B.   وصف (mydata)

C.   str (mydata)

D.   ملخص (MyData)

56: في أي من تقنيات البيانات الضخمة التالية ، فإن نقل مهام إدارة البيانات والتحليلات والمهام ذات الصلة إلى المكان الذي توجد فيه البيانات ، وتحسن السرعة إلى البصيرة ، ويقلل من حركة البيانات وتعزز حوكمة البيانات بشكل أفضل؟

A.   دعم Hadoop

B.   LN-Memory Analytics

C.   الحوسبة الشبكية

D.   معالجة ln-database

57: أي من الأوامر التالية تستخدم لبدء واجهة ipython في وضع Pylab المضمن وفتح دفتر Ipython في بيئة Pylab؟

A.   ipython –pylab = in | ine

B.   ipython –pylab = inline -notebook

C.   ipython = دفتر الملاحظات —Pylab.in | INE

D.   دفتر Ipython - pylab = مضمّن

58: LN Data Mining ، وفقًا لنظرية Bayes ‘، أي من الصيغ التالية تمثل الاحتمال الخلفي من حيث الاحتمال السابق؟

A.   P (x/h) = p (h/x) p (h)/p (x)

B.   P (H/X) = P (x/h) p (h)/p (x)

C.   P (H/X) = P (x/h) p (x)/p (H)

D.   P (XIH) = P (H/X)/P (H) P (x)

59: في استخراج البيانات ، أي من العبارات التالية غير صحيحة حول خوارزمية C45؟

A.   يسمح بنتيجة واحدة فقط.

B.   يستخدم C45 خوارزمية واحدة مستمدة من حدود confridization ذات الحدين.

C.   ويستخدم المعايير القائمة على المعلومات.

60: إذا أراد أحد المستخدمين التعرف على أفضل الكلمات الرئيسية التي ترسل Traff‌ic إلى موقعه على الإنترنت ، فما هو من فترات الاستحواذ التالية يجب تفضيلها؟

A.   الإحالات تهرب

B.   الاتجار العضوي

C.   سير مستقيم

D.   الاتجار الاجتماعي

61: في أداة Google Analytics ، أي من التحليل التالي يجب إجراءه من أجل تحديد أصل تهريب الويب الخاص بالمستخدم؟

A.   تحليل الاستحواذ

B.   تحليل الجمهور

C.   تحليل السلوك

D.   تحليل التحويل

62: أي من الأنواع التالية من تعدين الارتباط يكتشف التسلسلات الشائعة في أكثر من تسلسل Minsup في قاعدة بيانات التسلسل؟

A.   القواعد المتسلسلة

B.   قواعد الجمعية المعممة

C.   تعدين النمط المتسلسل

D.   دافئ

63: أي من العوامل التالية مسؤولة عن حدوث أخطاء أخذ العينات؟

A.   الأخطاء الناجمة عن التدابير الإحصائية الخاطئة.

B.   الأخطاء في التجميع.

C.   تأطير استبيان خاطئ.

D.   الترسيم الخاطئ لوحدات أخذ العينات.

64: في استخراج البيانات ، أي مما يلي هو بناء الجملة الصحيح لتحديد الاستدعاء ، والذي يتم استخدامه لتقييم جودة استرجاع النص؟

A.   استدعاء = l [ذات الصلة} u [Retrieved] l l l [ذات الصلة}!

B.   استدعاء = l [ذات الصلة} u [Retrieved] | L l {Retrieved] l

C.   استدعاء = l [ذات الصلة} f‌l {Retrieved} | / ل [استرداد] ل

D.   استدعاء = l [ذات الصلة} n [Retrieved} l / l

65: أي مما يلي هو بناء جملة R الصحيح المستخدم لتحديد صفوف معينة من إطار بيانات ، استنادًا إلى معايير منطقية محددة؟

A.   حدد (DataFramename ، تعبير منطقي)

B.   f‌ilter (التعبير المنطقي ، DataFramename)

C.   f‌ilter (dataframename ، التعبير المنطقي)

D.   حدد (تعبير منطقي ، DataFramename)

66: في تحليل البقاء على قيد الحياة ، أي من الطرق التالية المستخدمة لنمذجة وظيفة الخطر على مجموعة من متغيرات المتنبئ؟

A.   البقاء على قيد الحياة ()

B.   كوكف ()

C.   SurvDiff ()

D.   Survf‌it ()

67: أي مما يلي هو وظيفة وصفية تشارك في استخراج البيانات؟

A.   تحليل التطور

B.   تنبؤ

C.   تحليل الخارجة

D.   تعدين الجمعيات

68: أي من العبارات التالية غير صحيحة حول علم البيانات؟

A.   يتم استخدامه لتحويل البيانات إلى إجراءات.

B.   وهو يدعم ويشجع التحول بين التفكير الاستنتاجي والاستقرائي.

C.   من أجل تحقيق النجاح. تحتاج المنظمات إلى الوصول إلى أقصى قدر من نضج علوم البيانات.

D.   من الضروري للشركات البقاء مع الحزمة والتنافس في المستقبل.

69: أي من خوارزميات التجميع التالية يمكنها التعامل مع البيانات الصاخبة؟

A.   دواء

B.   صخر

C.   بيرش

D.   حرباء

70: أي من العبارات التالية صحيحة حول النهج الذي يحركه الاستعلام لتخزين البيانات؟

A.   هناك حاجة إلى عمليات التكامل المعقدة وعمليات الإملاء من خلال هذا النهج.

B.   يسمح هذا النهج بنسخ البيانات. معالجة. مدمج. مشروح. لخص وإعادة هيكلة في متجر للبيانات الدلالية مقدمًا.

C.   إنه اقتصادي للغاية بالنسبة للاستعلامات التي تتطلب تجميعات.

D.   هو أكثر كفاءة بكثير للاستعلامات المتكررة.

71: يتم إعطاء أن y هو poisson متغير وتلبية الشرط p (y = 4) = p (y = 5). ما هي قيم المتوسط ​​والانحراف المعياري لـ Y؟

A.   يعني = 3 والانحراف المعياري = /5

B.   يعني = 5 والانحراف المعياري = /3

C.   يعني = 5 والانحراف المعياري = /'5

D.   يعني = 7 والانحراف المعياري = /7

72: أي من الوظائف التالية تستخدم لتحلل سلسلة زمنية ذات اتجاه إضافي ، والمكونات الموسمية وغير المنتظمة؟

A.   STL0

B.   TSO

C.   ETSO

D.   أريماو

73: في استخراج البيانات ، أي من النماذج التالية تستخدم/يتم استخدامها للتنبؤ بملصقات الفئة الفئوية؟

A.   نموذج التصنيف

B.   نموذج التنبؤ

C.   كلا A و B

D.   لا أ ولا حتى ب

74: في أي من التقنيات الرئيسية ، والتي يتم استخدامها لاستخراج قيمة الأعمال من البيانات الضخمة ، تتم إدارة البيانات باعتبارها استراتيجية. الأصول الأساسية مع التحكم في العملية المستمرة لتحليلات البيانات الضخمة؟

A.   إدارة المعلومات للبيانات الكبيرة

B.   تحليلات عالية الأداء للبيانات الكبيرة

C.   خيارات النشر المرنة للبيانات الكبيرة

75: في تعدين القاعدة ، يتم تمثيل مصطلح يعرف بمصطلح يعرف باسم الثقة. كيف هذا المصطلح. ثقة. ممثلة للقاعدة ، أ => ب؟

A.   conf (a => b) = supp (a u b) / supp (a)

B.   conf (a => b) = supp (b) / supp (a)

C.   conf (a => b) = supp (a u b) / supp (a) ‘supp (b)

D.   conf (a => b) = supp (a u b) / 1 - supp (a)

76: بالنسبة لمجموعة معينة من 25 عنصرًا ، فإن الارتباط بين x و y هو 0.6. قيم الوسط الحسابية لـ x و y هي 14 و 18 ، على التوالي ، وقيم الانحراف المعياري لـ x و y هي 4 و 6. على التوالي. إذا تم أخذ الزوج (25. 18) خطأ (18 ، 25). ثم ابحث عن القيمة الصحيحة للارتباط.

A.   0.31

B.   0.42

C.   0.51

D.   0.67

77: أي مما يلي هو الطريقة الصحيحة للتعبير عن فرضية فارغة في اختبار الذيل السفلي للسكان يعني؟ يُعطى أن UO هو الحد الأدنى المفترض للسكان الحقيقيين

A.   UP 5 LL

B.   P0 = L1

C.   ص 2 ص

78: في استخراج البيانات ، أي من الأجزاء التالية من شجرة القرار تمثل نتيجة اختبار OFA؟

A.   عقدة داخلية

B.   عقدة ورقة

C.   فرع

D.   العقدة الأعلى

79: أي من العبارات التالية هي/صحيحة حول SAS Aptificiator؟

A.   يوفر نهج الهندسة المعمارية الصارمة.

B.   يمكن أن تدير واستفادة نموذج واحد فقط في وقت واحد.

C.   إنه في وضع فريد لمساعدة المؤسسات على تحويل البيانات الضخمة وتحليلات البيانات الضخمة إلى قيمة العمل.

D.   كلا الخيارين A و C صحيحان.

80: أي مما يلي صحيح حول تصنيف البيانات؟

A.   يضع البيانات في شكل دقيق ومكثف.

B.   التحليل الإحصائي LL ممكن لجميع أنواع البيانات باستثناء البيانات المصنفة.

C.   II] لا يسمح بالمقارنة بين الخصائص المختلفة.

D.   إنه يجعل البيانات أكثر سهولة من خلال القضاء على التفاصيل غير الضرورية.

81: في الوظيفة التمييزية الخطية لتحليل الوظائف التمييزية ، ما هي وظيفة الطريقة التالية؟

A.   يولد تنبؤات jacknifed.

B.   يتم استخدامه للحصول على وظيفة التمييز التربيعي.

C.   يطبع الوظائف التمييزية على أساس المتغيرات التي تركز ، ولكنها ليست موحدة.

D.   يمكنه عرض نتائج التصنيف الخطي أو التربيعي مع متغيرين في وقت واحد.

82: في استخراج البيانات ، أي من نماذج التصنيف التالية تم تصميمها بواسطة خوارزمية KNN؟

A.   نموذج تصنيف شجرة القرار

B.   نموذج تصنيف الفرقة

C.   نموذج تصنيف الطائرة

D.   لا يوجد نموذج تصنيف بواسطة KNN

83: في استخراج البيانات ، أي مما يلي هو بناء الجملة الصحيح لطريقة الرقائق ، Foil_Prune ، المستخدمة لقاعدة التقليم للقاعدة R؟ يُعطى أن P هو عدد tuples الإيجابية التي تغطيها R و N هو عدد tuples السلبي الذي يغطيه R.

A.   Foil_prune = P - N/P + N

B.   Foil_prune = P + N/P - N

C.   Foil_prune = P/N

D.   Foil_prune = N/P + N

84: في اختبار الفرضية. ما الذي ستسميه السكان الذين تكون بياناتهم فئوية وتنتمي إلى مجموعة من الفصول غير المتداخلة المنفصلة؟

A.   أحادي

B.   ذات الحدين

C.   ثلاثي الحدود

D.   متعدد الحدود

85: أي من اختبارات t التالية يجب أن يتم من أجل مقارنة الوسائل من مجموعتين مختلفتين؟

A.   عينة واحدة t - اختبار

B.   عينات مقترنة t - اختبار

C.   عينات مستقلة t-test

D.   تحليل التباين (ANOVA)

86: في تعدين القاعدة ، أي من العبارات التالية صحيحة حول توليد مجموعة العناصر المتكررة من نهج خطوتين؟

A.   يولد عنصر عنصر واحد فقط يدعمه 2 دقيقة

B.   يولد جميع العناصر التي دعمها 5 دقائق

C.   يولد جميع العناصر التي دعمها 5 دقائق

D.   يولد قواعد ثقة عالية من كل مجموعة عناصر متكررة

87: يمكن للمستخدم الحصول على وجهات نظر page لموقع ويب بمساعدة أي من أهداف تحليلات الويب التالية؟

A.   صفحات/هدف الجلسة

B.   هدف المدة

C.   هدف الوجهة

D.   أهداف الحدث

88: إذا كانت هناك بعض البيانات ذات القيم المفقودة وتحتاج إلى قراءة مساعدة من الوظيفة ، على سبيل المثال ، أي مما يلي هو بناء جملة R الصحيح للقيام بذلك؟

A.   ؟الوسيط

B.   read.median0

C.   #الوسيط

D.   Help.median0

89: في تحليلات الويب ، أي من المقاييس التالية تتم مراقبة في لوحة القيادة للتجارة الإلكترونية؟

A.   وقت تحميل الصفحة بواسطة المتصفح

B.   إجمالي البيع عن طريق المنتجات

C.   التحويل بواسطة منشور المدونة

D.   المصدر في الوقت الحقيقي المهرب

90: يتم إعطاء نموذج إحصائي حدودي على النحو التالي: (S ، P) مع P = [P6: E E 9]. بناءً على الرموز الإحصائية ، أي مما يلي هو الطريقة الصحيحة لتمثيل أ؟

A.   E G R 0D

B.   A = R2D

C.   س 2DR

D.   A DRZ

91: إذا كان مستوى الاختبار الدنيق للاختبار 5 ٪ ، فما هي نتيجة الاختبار إذا كانت القيمة p التي تم الحصول عليها أكبر من 0.05؟

A.   رفض فرضية فارغة

B.   فشل في رفض فرضية فارغة

C.   قبول أو رفض الفرضية الفارغة مستقلة عن القيمة p.

92: أي مما يلي هو القيمة الافتراضية للمعلمة hlstorlcal_model_gap المستخدمة في خوارزمية سلسلة Microsoft؟

A.   10

B.   1

C.   0

D.   5

93: أي مما يلي هو بناء جملة DMQL الذي يتم استخدامه لتحديد البيانات ذات الصلة بالمهمة؟

A.   استخدم قاعدة البيانات database_name

B.   استخدم Data Warehouse Data_warehouse_name

C.   database.usedatabase_name

D.   datawarehouse.usedata_warehouse_name

94: _______ يقلل من عدد البتات في ملف عن طريق تحديد التكرار والقضاء عليه

A.   ضغط بلا خسائر

B.   الضياع

C.   صورة نقطية

D.   عرض مرئي للمعلومات

95: تُعرف أنواع البيانات التي يتم إنشاؤها بواسطة المبرمج باسم ________.

A.   المتغيرات

B.   أنواع البيانات المجردة (ADTS)

C.   المهام

D.   حدود

E.   أيا من هذه

96: Diigo و Delicious هي أدوات ________.

A.   التفضيل الاجتماعي

B.   بحث

C.   مجموعة المناقشة

D.   التواصل المتزامن

97: البيانات القذرة هي ________.

A.   البيانات المصابة بالفيروس

B.   البيانات المصابة بالديدان

C.   بيانات غير دقيقة ، غير مكتملة

D.   البيانات المسروقة

98: يحدد ______ من ورقة العمل مظهرها.

A.   استمارة

B.   شكل

C.   منظر

D.   سِجِلّ

99: ____ توفر أدوات الحالة الدعم لمراحل الترميز والتنفيذ.

A.   أفقي

B.   نهاية المقدمة

C.   خلفية

D.   رَأسِيّ

100: ________ أدوات وتقنيات معالجة البيانات وإجراء التحليل الإحصائي للبصيرة والاكتشاف.

A.   حوكمة بيانات المؤسسة

B.   نظم المعلومات الملكية

C.   ذكاء الأعمال

D.   العمليات التجارية