هذه هي الطريقة التي يعمل بها نظام الفهرسة “Caffeine”
قدمت جوجل رؤى تفصيلية حول كيفية عمل الكافيين “Caffeine”. النظام مسؤول عن فهرسة المحتوى.
يعد تضمين صفحات الويب والمستندات الجديدة بواسطة جوجل في نتائج البحث معقدا وخاصة نظام الفهرسة حيث يتم اجراء سلسلة من عمليات المعالجة قبل ظهور الصفحة في نتائج البحث.
“Caffeine”مسؤول عن الفهرسة. هذا هو اسم النظام الذي يجمع خطوات المعالجة المختلفة. كما أوضح Gary Illyes في إصدار جديد من “Search Off the Record“
كيفية عمل نظام جوجل Caffeine :
- Ingestion: يتضمن ذلك قراءة البيانات التي جمعها Googlebot.
- Conversion: قراءة و معالجة كود HTML أو ، إذا لزم الأمر ، تحويل تنسيقات البيانات الأخرى إلى HTML.
- Collapsing: تتضمن هذه الخطوة فحص صفحات الأخطاء للتحقق من صلاحيتها.
يقوم Caffeine بتشغيل البيانات من المخازن المؤقتة لبروتوكول Googlebot. المخزن المؤقت للبروتوكول هو آلية يمكن من خلالها إجراء تسلسل للبيانات المهيكلة مثل XML. يقرأ الكافيين أيضًا إشارات مختلفة مطلوبة لاحقًا للترتيب (Ranking).
جوجل من الممكن الغاء فهرسة الصفحات التي تحتل المرتبة الأولى
بعد الخطوة المسماة “Ingestion” ، يتبع Conversion أولاً ، يتم قراءة و معالجة كود HTML ، مع تصحيح الأخطاء ، على سبيل المثال. يحاول جوجل فهم الصفحات التي تحتوي على اخطاء HTML ، ويستخدم HTML lexer للقيام بذلك ، والذي يقسم الكود إلى وحدات أصغر ، ما يسمى الرموز المميزة.
يتم فحص العناوين المختلفة مثل H1 أو H2 أو H3 من أجل تصميمها لتفسير معناها على الصفحة. هذا يعني: العناوين الأكبر تميل إلى إعطاء اهمية أكبر من العناوين ذات التمثيل الأصغر.
يقوم Caffeine بتحويل ملفات PDF إلى HTML. ينطبق هذا أيضًا على مستندات Word أو جداول البيانات. يمكن لـ جوجل تحويل ملفات Lotus إلى HTML. نظرًا لأن هذه تنسيقات ثنائية ، تستخدم Google محولات خاصة ، على سبيل المثال من Adobe لملفات PDF.
جوجل يوضح متى يكون انشاء الكثير من المحتوى مناسبا ومتى لا يكون كذلك
في خطوة تالية يتم إلقاء نظرة على العلامات الوصفية هناك أهمية كبيرة لسمة Tag meta التي تشير الى ملف “robots” . إذا تم تعيين الصفحة على “noindex” ، يتم إلغاء المعالجة أو عدم فهرسة الصفحة.
من المهم ملاحظة أنه إذا وجدت جوجل اكواد HTML في<head> والتي لا تنتمى الى هذه المنطقة مثل
<div>, <span> أو iframe ، فأن Caffeine يقوم باستبعادها مباشرة. يمكن أن يؤدي ذلك إلى إزالة معلومات مهمة من منطقة <head> و لا يتم النظر فيها من قبل Google.
كيف يتعرف جوجل على صفحات الخطأ
يرتبط Collapser ارتباطًا وثيقًا بمعالج Converter هنا يتم معالجة صفحات الخطاء . غالبًا ما ترسل صفحات الخطأ 404 الحالة 200 ، بحيث يتم إنشاء ما يسمى بصفحات soft 404. تقارن أداة Collapser الصفحات التي تم العثور عليها بمجموعة من العديد من صفحات الأخطاء النموذجية ، وبهذه الطريقة يتحقق ما إذا كانت الصفحة التي تم العثور عليها صفحة خطأ.
نتيجة لهذا الإجراء ، يمكن أن يحدث أن جوجل لا تقوم بفهرسة المنشورات التي تتعامل مع صفحات الخطأ لأنها تحتوي على عبارات أو كلمات رئيسية تسمح لـ Google باستنتاج أن المنشور نفسه عبارة عن صفحة خطأ.
جوجل كافيين
يعطي هذا الوصف فكرة عن مدى تعقيد نظام فهرسة جوجل . لا يزال التمثيل مبسطًا إلى حد كبير ويتجاهل الكثير من التفاصيل. لكنه مفيد لأنه يساعد على فهم معالجة جوجل لمواقع الويب بشكل أفضل. يمكن أيضًا أخذ ذلك في الاعتبار عند تصميم المواقع.