ملف “robots.txt” شرح مفصل وتطبيق عملي عليه كورس سيو 2021

Posted by

On ديسمبر 11, 2020

التعليقات

عند التحدث عن كورس تحسين محركات البحث 2021 لكي تتمكن من احتراف السيو لا بد ان نقدك لك شرح ملف “robots.txt” كامل وتقديم تطبيق عملي على الية إنشاء ملف “robots.txt”.

محتويات المقال

ماهو ملف robots.txt ؟

هو ملف يتم إضافته الى المجلد الرئيسي للموقع الالكتروي لأعطاء تعليمات وأوامر لتنظيم أرشفة موقعك في محركات البحث ، وتكون وظيفة ملف “robots.txt” اعطاء التعليمات لعناكب محركات البحث حول أرشفة او عدم أرشفة بعد المحتويات والصفحات في موقعك .

أهمية إضافة ملف robots.txt للموقع الإلكتروني ؟

تم استحداث خاصية اضافة ملف robots.txt للموقع الإلكتروني في العام 1994 من خلال بروتوكول يسمى “بروتوكول استبعاد الروبوتات” وتكمن أهميته في التالي :

لا تقوم عناكب الزحف في كل مرة تدخل الى موقعك بارشفة جميع المقالات والصفحات مرة واحد بل تترك ما تبقى لتقوم بالزحف اليه وأرشفته في زيارات قادمة وبالتالي ذلك يعمل على تأخير أرشفة موقعك الألكتروني وبملف الروبت تحاول اجبارها على اكمال الزحف
من خلال ملف “robots.txt” تقوم بتحدد الصفحات غير المهمة موقعك وتركز على الصفحات المهمة التي يتوجب أرشفتها من خلال أوامر ملف “robots.txt” التي سيتم الحديث عنها لاحقا في هذا المقال
عند وجود أعمال صيانة على موقك من المستحسن عدم السماح لعناكب محركات البحث بالزحف الى موقعك ويتم ذلك من خلال ملف “robots.txt”
يمكنك استخدام robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج البحث على Google
يمكنك استخدام robots.txt لحظر ملفات الموارد مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أن الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بفقدها. ولكن إذا كان غياب هذه الموارد سيجعل من الصعب على زاحف Google استيعاب محتوى الصفحة، يجب عدم حظرها. وإلا فلن يتمكن محرك بحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

ملاحظات مهمة حول “robots.txt”

سيظل بالإمكان فهرسة صفحة تم حظرها باستخدام robot.txt إذا تم الربط إليها من مواقع أخرى

بينما لا يزحف محرك البحث Google إلى المحتوى المحظور باستخدام robots.txt أو يفهرسه، قد تعثر عناكب جوجل على عنوان URL غير مسموح بالوصول إليه وتفهرسه إذا تم الربط إليه من أماكن أخرى على الويب. ونتيجة لذلك، يمكن أن يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل عام مثل نص الرابط في الروابط المؤدية إلى الصفحة، وذلك في نتائج بحث Google

يجب عدم استخدام robots.txt كوسيلة لإخفاء صفحاتك على الويب من نتائج بحث Google. وذلك لأنه إذا كانت صفحات أخرى تعمل على التوجيه إلى صفحتك باستخدام نص وصفي، قد تتم فهرسة صفحتك بدون زيارة الصفحة. إذا كنت تريد حظر صفحتك من نتائج البحث، يمكنك استخدام طريقة مثل الحماية بكلمة مرور أو توجيه noindex.

أين يتواجد ملف robots.txt؟

يتم إنشاء ملف robots.txt وتخزينه في ملفات الجذر لموقعك وفي الأغلب داخل في مجلد Public_html. ولعرضه، قم بنسخ رابط موقعك وقم بلصقك في شريط الرابط من على المتصفح، ثم قم بإضافة “robots.txt” في نهاية رابط موقعك. على سبيل المثال: https://damrah.com/robots.txt

كيف أقوم ب إنشاء robots.txt ؟

شرح أوامر robots.txt؟

تتكون أوامر ملف robots.txt من أربعه أومر رئسية تنبثق منها جميع اوامر ملف روبوت تي اكس تي فايل وهي كالتالي :

User-agent من خلال هذا الأمر يمكنك أن تحدد على أي محركات البحث تنطبق الأوامر الموجوده في ملف robots.txt
· Disallow : يعمل على حظر عناكب محركات البحث من الوصول الى صفحات معينة من موقعك
Allow: يسمح لمحركات البحث بالوصول إلى أقسام الموقع التي تحددها
· “Sitemap” – يكشف لمحرك البحث رابط خريطة الموقع.

أمثله على اوامر robots.txt :

User-agent: Googlebot

هذا الأمر يعني يتوجب على عناكب جوجل اتباع كافة التعليمات التي تلي هذا الأمر في ملف robot.txt file

User-agent:*

:هذا الأمر يعني يتوجب على جميع محركات البحث بلا استثناء اتباع كافة تعليمات التي تلي هذا الأمر في ملف robot.txt file

لمنع عناكب البحث من الزحف الى الملفات بامتدات JSON

User-agent: *

Disallow: /*.json

أذا اردنا اضافة تعليق يوضح معن الأمر ولماذا وضعنا نقوم باضافة # واضافة التعليق بعده

#منع محركات البحث من الوصول لمفات بامتدات JSON

Disallow: /*.json #

متى يتمّ إزالة صفحات الويب من فهارس محرّكات البحث؟

قد يتمّ في الأحيان إزالة صفحات الويب من فهارس محرّكات البحث، وذلك لعدّة أسباب نذكر منها:

1- الأخطاء

Errors وهي الحالة التي يشتمل فيها رابط صفحة ويب معيّنة على خطأ “Not Found” المشار له بالرمز (4XX) أو أخطاء الخوادم Server Errors التي يشار إليها بالرمز: (5XX). قد تكون هذه الأخطاء عرضية (كأن يتمّ نقل الصفحة إلى عنوان آخر وعدم استخدام أمر إعادة التوجيه 301 Redirect) أو قد تكون مقصودة (كأن يتمّ حذف الصفحة واستخدام أمر الـ 404 عمدًا لضمان حذفها من الفهرس).

2- إضافة وسم الـ Noindex

تمّ إضافة وسم Noindex Tag من قبل أصحاب المواقع الإلكترونية في بعض الأحيان، وذلك لإخبار محرّك البحث بأنه عليه تجاهل هذه الصفحة وعدم فهرستها.

3- العقوبات المفروضة على الصفحة أو الموقع

في حال تمّ خرق شروط ومعايير إدارة محرّكات البحث المحدّدة، يتمّ فرض عقوبات على الموقع الإلكتروني أو صفحة الويب المخالفة، ونتيجة لذلك يتمّ إزالتها من الفهرس.

4- حظر وصول زاحف الويب إلى صفحة معيّنة

وذلك نتيجة لاستخدام كلمة سرّ تُطلب من المستخدمين قبل أن يُسمح لهم بزيارة هذا الرابط، ومثلها أوامر تعبئة طلبات التقديم أو الإجابة عن استطلاعات الرأي. في مثل هذه الحالة، لا يتمكّن زاحف الويب من الوصول إلى رابط الصفحة، ويتمّ إزالتها من فهرس محرك البحث.

إن كنت متأكدًا من وجود صفحة ويب على موقعك في فهرس جوجل، ولم تعد تظهر بعد الآن، يمكنك الاستعانة بأداة استكشاف الروابط URL Inspection To ol في Google Search Console لمعرفة حالة هذه الصفحة، وتستطيع حينها الضغط على خيار “Request Indexing” ليتمّ فهرستها في حال لم تكن مفهرسة قبلاً.

مصدر النص السابق : موقع فرصة يمكنك التوجه اليه من خلال هذا الرابط

كيف أحدد لمحركات البحث طريقة فهرسة موقعي الإلكتروني؟

يمكنك ذلك باستخدام التوجيهات الروبوتية أو الـ Robots Meta Directives باللغة الإنجليزية والتي تعرف أيضًا بالـ Meta Tags. الـ Meta Tags هي في الواقع أوامر وتعليمات يمكنك إعطاؤها لمحرّكات البحث فيما يتعلّق باستكشاف موقعك وفهرسته.

يمكنك مثلاً أن تطلب من زاحف الويب ألاّ يفهرس صفحة معيّنة، أو ألاّ ينقل سلطة وقوّة صفحة معيّنة إلى الروابط الموجودة داخلها من خلال الـ Meta Tags التي يتمّ إضافتها من قبل مبرمجي الويب المختصين. فيما يلي عدد من الـ Meta Tags التي يمكنك استخدامها في توجيه محرّكات البحث

الـ Index و الـ Noindex

تخبر تعليمات الـ Index/Noindex محرّكات البحث حول ما إذا كان عليها فهرسة صفحة معيّنة وتخزينها لعرضها في صفحة نتائج البحث أم لا.

تقوم الـ Crawlers بفهرسة كلّ الروابط والصفحات التي تستكشفها، لذا استخدام أمر Index ليس مهمًّا جدًّا، لكن في حال رغبت في استبعاد روابط معيّنة من الظهور في صفحات نتائج البحث يمكنك هنا استخادم الوسم التالي

5- No Index الـ Follow والـ Nofollow

تستخدم تعليمات الـ follow/nofollow لإخبار محرّكات البحث ما إذا كان عليها تتبّع الروابط الأخرى الموجودة في الصفحة أم لا.

أمر الـ follow سيجعل زاحف الويب يتتبّع جميع الروابط الموجودة في موقعك وينقل إليها قوّة وموثوقية موقعك الإلكتروني.

أما في حال استخدمت أمر الـ nofollow فأنت في هذه الحالة تطلب من زاحف الويب تجاهل جميع الروابط الموجودة داخل صفحة الويب وعدم نقل موثوقية موقعك إليها، وبالتالي عدم استكشافها أو فهرستها.

6- الـ Noarchive

يستخدم أمر الـ no archive في منع محرّكات البحث من تخزين نسخة مخبأة (cached copy) لصفحة الويب.

وهكذا ستحتفظ المحركات بنسخ مرئية من جميع الصفحات التي تمت فهرستها، ويمكن للباحثين الوصول إليها من خلال رابط “cached” في صفحة نتائج البحث.

يستخدم هذا الأمر على وجه الخصوص في مواقع التجارة الإلكترونية حيث تتغيّر أسعار المنتجات بشكل مستمر ودائم، فيضمن استخدام أمر noarchive ألاّ يرى المستخدمون نسخًا غير محدّثة من المحتوى بأسعار قديمة تمّ تغييرها.

من خلال فهم آلية فهرسة صفحات الويب، وعن طريق استخدام التعليمات الروبوتية Robots Meta Tags المناسبة تستطيع تحسين موقعك الإلكتروني والتعديل على بنيته كي تتمّ فهرسته بالطريقة الصحيحة التي تريدها له، وبالتالي زيادة جودة موقعك ورفع فرص أن يتصدّر المراتب الأولى في صفحة نتائج البحث.

المدونة