ربط السجلات

ضم السجلات أو الكيانات من مجموعات بيانات مختلفة قد تشترك أو لا تشترك في معرف مشترك ومطابقة الكيانات بناءً على خصائصها

ربط السجلات (المعروف أيضًا باسم مطابقة البيانات، ودقة الكيان، والعديد من المصطلحات الأخرى) هي مهمة البحث عن السجلات في مجموعة البيانات التي تشير إلى نفس الكيان عبر مصادر بيانات مختلفة (على سبيل المثال ملفات البيانات والكتب ومواقع الويب وقواعد البيانات). يعد ربط السجل ضروريًا عند الانضمام إلى مجموعات بيانات مختلفة استنادًا إلى الكيانات التي قد تشترك أو لا تشترك في معرّف مشترك (على سبيل المثال، مفتاح قاعدة البيانات أو معرف الموارد الموحد أو رقم التعريف الوطني)، والذي قد يكون بسبب الاختلافات في شكل السجل أو موقع التخزين أو نمط المنسق أو التفضيل. قد يُشار إلى مجموعة البيانات التي خضعت للتسوية الموجهة RL على أنها مترابطة. يشار إلى ربط السجل بربط البيانات في العديد من الولايات القضائية، ولكن كلاهما لهما نفس العملية.

اصطلاحات التسمية

عدل

«ربط السجلات» هو المصطلح الذي يستخدمه الإحصائيون وعلماء الأوبئة والمؤرخون وغيرهم لوصف عملية ضم السجلات من مصدر بيانات إلى مصدر آخر يصف نفس الكيان. ومع ذلك، يتم استخدام العديد من المصطلحات الأخرى لهذه العملية. لسوء الحظ، أدى هذا الوفرة من المصطلحات إلى عدد قليل من المراجع التبادلية بين مجتمعات البحث هذه.[1][2]

غالبًا ما يشير إليها علماء الكمبيوتر على أنها «مطابقة البيانات» أو «مشكلة هوية الكائن». تشير تطبيقات البريد التجاري وقواعد البيانات إلى ذلك على أنه «معالجة الدمج / المسح» أو «غسل القائمة». تشمل الأسماء الأخرى المستخدمة لوصف نفس المفهوم: «المرجع / الكيان / الهوية / الاسم / حل السجل»، «توضيح الكيان / ربطه»، «التطابق الغامض»، «الكشف عن النسخ المكررة»، «إلغاء التكرار»، «مطابقة السجل»، «(مرجع) التوفيق»، «تحديد الكائن»، «تكامل البيانات/المعلومات» و«الخلط».[3]

في حين أنها تشترك في أسماء متشابهة، فإن ربط السجلات والبيانات المرتبطة هما طريقتان منفصلتان لمعالجة البيانات وهيكلتها. على الرغم من أن كلاهما يتضمن تحديد الكيانات المطابقة عبر مجموعات بيانات مختلفة، فإن ربط التسجيل يساوي بشكل قياسي «الكيانات» مع الأفراد؛ على النقيض من ذلك، تستند البيانات المرتبطة إلى إمكانية ربط أي مورد ويب عبر مجموعات البيانات، باستخدام مفهوم أوسع للمعرف، وهو URI .

انظر أيضًا

عدل

الملاحظات والمراجع

عدل
  1. ^ Cristen, P & T: Febrl - Freely extensible biomedical record linkage (Manual, release 0.3) p.9 نسخة محفوظة 2016-03-11 على موقع واي باك مشين.
  2. ^ Elmagarmid، Ahmed؛ Panagiotis G. Ipeirotis؛ Vassilios Verykios (يناير 2007). "Duplicate Record Detection: A Survey" (PDF). IEEE Transactions on Knowledge and Data Engineering. ج. 19 ع. 1: pp. 1–16. DOI:10.1109/tkde.2007.250581. مؤرشف من الأصل (PDF) في 2017-08-13. اطلع عليه بتاريخ 2009-03-30.
  3. ^ http://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf نسخة محفوظة 2020-12-15 على موقع واي باك مشين.

روابط خارجية

عدل