علم البيانات هو مجال متعدد التخصصات يستمد المعرفة والرؤى من العديد من البيانات الهيكلية وغير المنظمة باستخدام الأساليب والعمليات والخوارزميات والأنظمة العلمية. يرتبط علم البيانات بالتنقيب عن البيانات، والتعلم الآلي، والبيانات الضخمة. اتبع هذه الفئة لتبقى على اطلاع بأحدث الأخبار والبرامج التعليمية الخاصة بعلوم البيانات.

إتقان تقنيات استخراج البيانات احد متطلبات علم البيانات
ما هو استخراج البيانات؟

التنقيب عن البيانات هو ممارسة التنقيب في احتياطيات هائلة من المعلومات لاكتشاف الأنماط والعلاقات المخفية. وتقدم هذه الأنماط، التي غالبا ما تكون غير مرئية بالعين المجردة، رؤى قيمة يمكن أن تحدث ثورة في عملية صنع القرار في مجالات متنوعة. من خلال الخوارزميات المتطورة والتقنيات الإحصائية، يعمل استخراج البيانات كأداة قوية لاستخلاص المعرفة من البيانات الأولية، وسد الفجوة بين المعلومات والفهم.

خطوات المعالجة المسبقة للبيانات
سيناريو. تحليل بيانات شراء العملاء لتحديد اتجاهات الشراء
جمع البيانات

يتم جمع البيانات من مصادر غير متجانسة. الآن، تهتم هذه الخطوة بكيفية جمع البيانات من مصادر مختلفة ذات صلة بعمل محدد. هناك سيناريوهان يتم من خلالهما جمع البيانات. الأول هو عندما يتحكم أحد الخبراء في عملية توليد البيانات، والتي تكون مصممة ومفهومة جيدًا. ثانيا، عندما لا يتمكن الخبراء من التأثير على عملية توليد البيانات، يتم استخدام نهج المراقبة لتوليد البيانات بشكل عشوائي.

جمع بيانات معاملات العملاء من مصادر مختلفة في مؤسستك، مثل أنظمة نقاط البيع والمتاجر عبر الإنترنت وبرامج إدارة علاقات العملاء (CRM). قد تتضمن هذه البيانات ما يلي:

  • هوية الزبون
  • معرف المنتج
  • الكمية المشتراة
  • تاريخ الصفقة
  • السعر المدفوع
  • الخصم المطبق (إن وجد)
  • التركيبة السكانية للعملاء (اختياري)
  • موقع اختياري)
اختيار البيانات

يتم تعريف اختيار البيانات على أنها العملية التي يتم فيها تحديد البيانات ذات الصلة بالتحليل واسترجاعها من مجموعة البيانات. الهدف الأساسي من اختيار البيانات هو تحديد نوع البيانات والمصدر والأداة المناسبة.

نوعان من البيانات الأساسية ومصادرها هما:

تمثل الكمية كأرقام عددية.
النوعية هي النصوص والصور والصوت/الفيديو، وما إلى ذلك.
مثال. ركز على السمات ذات الصلة بتحليلك. في هذه الحالة، يمكنك اختيار:

  • هوية الزبون
  • معرف المنتج
  • الكمية المشتراة
  • تاريخ الصفقة
تكامل البيانات

تكامل البيانات هو الجمع بين جميع البيانات التي تم جمعها من مصادر غير متجانسة واختيارها حسب الحاجة. هي استراتيجية تقوم بدمج البيانات من عدة مصادر لإتاحتها للمستخدمين في عرض واحد موحد يوضح حالتهم.

هناك نوعان رئيسيان من الأساليب لتكامل البيانات في استخراج البيانات وهم-

  • اقتران ضيق
  • اقتران فضفاض

مثال. إذا كانت البيانات تأتي من مصادر مختلفة، فقم بدمجها في مجموعة بيانات واحدة موحدة. تأكد من التنسيق وأنواع البيانات المتسقة (على سبيل المثال، جميع التواريخ بنفس التنسيق) عبر جميع المصادر. يمكن استخدام أدوات مثل الاستخراج والتحويل والتحميل (ETL) لهذا الغرض.

تنظيف البيانات

يُشار إلى تنظيف البيانات أيضًا باسم تنظيف البيانات. تنظيف البيانات هو عملية ملء القيم المفقودة، وتنعيم البيانات المزعجة، وإزالة التناقضات، وتحليل وإزالة القيم المتطرفة التي تؤدي إلى تصحيح البيانات وإزالة جميع أنواع الأخطاء من مجموعة البيانات. إنها خطوة حاسمة للغاية في عملية استخراج البيانات لأنها تضمن الدقة والاتساق وحتى تحسين جودة التحليل.

يمكن أن تختلف خطوات تنظيف البيانات في عملية التنقيب عن البيانات، ولكن بعض الخطوات الشائعة هي:

  • تنميط البيانات
  • التعامل مع البيانات المفقودة
  • التعامل مع التكرارات
  • التعامل مع القيم المتطرفة
  • التوحيد القياسي
  • حل التناقضات
  • تاكيد الجودة

مثال. تحديد ومعالجة الأخطاء أو التناقضات في البيانات. قد يشمل ذلك:

التعامل مع القيم المفقودة: إدراج القيم المفقودة (تقديرها) أو إزالة الصفوف التي تحتوي على عدد كبير جدًا من الإدخالات المفقودة.
تصحيح الأخطاء المطبعية أو التناقضات في أسماء المنتجات أو معرفات العملاء.
التعامل مع القيم المتطرفة: التحقق من القيم المتطرفة (المشتريات العالية أو المنخفضة جدًا) لتحديد ما إذا كانت حقيقية أم أنها أخطاء. قد تقرر الاحتفاظ بالقيم المتطرفة أو تعديلها أو إزالتها.

تحويل البيانات

يتم استخدام تحويل البيانات لتحويل البيانات الأولية إلى تنسيق مناسب يسهل عملية استخراج البيانات. يتضمن تحويل البيانات تقنيات تنظيف البيانات وتقنية تقليل البيانات لتحويل البيانات إلى النموذج المناسب.

يتضمن تحويل البيانات عدة تقنيات. هم-

  • تجانس البيانات
  • بناء السمة
  • تعميم البيانات
  • تجميع البيانات
  • خصوصية البيانات
  • تطبيع البيانات

مثال. تحويل البيانات إلى تنسيق مناسب للتحليل. يمكن أن يشمل ذلك:

إنشاء سمات جديدة: احسب إجمالي الإنفاق لكل عميل أو فئة منتج (على سبيل المثال، قم بتجميع المنتجات المتشابهة معًا).
ترميز السمات الفئوية: تحويل البيانات النصية مثل فئات المنتجات إلى رموز رقمية لتسهيل التحليل بواسطة خوارزميات التعلم الآلي.
تطبيع أو توحيد السمات الرقمية: قم بقياس القيم إلى نطاق مشترك لمنع سمات معينة من السيطرة على التحليل.