شرح ملف robots txt وكيفية انشاءه لموقع ووردبريس أو بلوجر

ملف robots.txt أحد الملفات المهم لموقعك وهو جزء من بروتوكول استبعاد الروبوتات Robots Exclusion Protocol وهو ما يعرف إختصارا بـ REP وتسطيع من خلاله إرشاد وتوجيه عناكب البحث داخل موقعك والسماح أو عدم السماح لهم بدخول صفحات معينة داخل موقعك وكذلك تحديد فترات إعادة الزحف الى موقعك , وفي هذه المقالة سوف نتعرف على كيفية كتابة ملف robots.txt مناسب لموقعنا

ما هو بروتوكول استبعاد الروبوتات Robots Exclusion Protocol (REP) ؟

هو بروتوكول تم إستخدامه لأول مرة عام 1994 على يد مهندس الحاسوب الهولندي Martijn Koster بعد أن لاحظ كثافة تواجد عناكب البحث في موقعه فقرر إبتكار طريقة يستطيع من خلالها توجيه عناكب البحث داخل المواقع وبعدها توالت عمليات التعديل والإبتكار منه ومن أخريين حتى نشأ بروتوكول REP ثم تم إعتمادة من محركات البحث الرئيسية

ما هي أهمية ملف robots.txt ؟

بالرغم من تطور محركات البحث مثل جوجل وقدرتها على تقدير العدد الأمثل لعناكب البحث لدخول موقعك وقدرتها على معرفة الصفحات الضعيفة والمكررة واستبعادها ولكن يوجد عشرات بل مئات محركات البحث ليست بنفس القدرة مع حدوث اخطاء من محركات البحث الكبيرة لذلك يظل ملف robots.txt له أهمية كبيرة ومنها

  • حظر أرشفة بعض الصفحات التي لا ترغب في دخول زوار الموقع عليها مثل النسخ والصفحات التجريبية للموقع وصفحات الدخول
  • توجيه عناكب البحث للصفحات ذات الأهمية الأكبر
  • القدرة على منع دخول عناكب البحث وأرشفة الوسائط مثل الصور وملفات الفلاش والفيديو وغيرها

 

كيف أستخدم ملف robots.txt ؟

قبل شرح كيفية إستخدام ملف robots.txt يجب علينا معرفة الأوامر المستخدمة في الملف وسوف نشرح أهم 4 أوامر يتم إستخدامهم في الملف

  • User-agent والترجمة الحرفية لها وكيل المستخدم , وهو الأمر الأول في ملف robots.txt فتسطيع من خلال هذا الامر مخاطبة عناكب البحث بشكل عام او تحديد عناكب بحث تابعة لمحرك بحث معين لمخاطبتها فعلى سبيل المثال اذا كتبنا User-agent: Googlebot هنا نخاطب عناكب بحث جوجل ومن أمثلة زواحف او عناكب البحث Googlebot وهو الخاص بجوجل و Bingbot وهو الخاص بمحرك بحث bing و Slurp الخاص بياهو ولمعرفة النزيد من أسماء عناكب البحث من خلال الرابط التالي Robots Database
  • Disallow وهو أمر لعناكب البحث بعد الدخول او بعدم الفهرسة
  • Allow وهو أمر لعناكب البحث بالدخول او الفهرسة
  • sitemap وهو أمر لتعريف عناكب البحث بخريطة الموقع

 

كيفية انشاء ملف robots.txt ؟

توجد بعض النقاط الهامة التي يجب التنويه عليها قبل إنشاء الملف حتى نحصل على أكبر قدر من الإفادة منه

  • ملف robots.txt حساس لحالة الأحرف فإن تم كتابة بحروف كبيرة “capitals” لن تسطيع عناكب البحث التعرف عليه فان كتابته بالشكل التالي طريقة خاطئة Robots.txt سوف نلاحظ ان حرف R كتب capital ففي هذه الحالة لن تستطيع عناكب البحث التعرف عليه فيجب كتابته كالتالي robots.txt
  • يجب وضعه في المجلد الرئيسية للموقع وهو المجلد التي يتواجد فيه الملفات الرئيسية مثل httaccess
  • يوجد عناكب بحث سيئة السمعة لا تلتزم بإرشادات ملف robots.txt مثل التي تستخدم في SPAM
  • ملف robots.txt هو ملف عام يستطيع أي شخص الدخول عليه فلا تضع فيه مجلدات تريد إخفائها
  • يتم إنشاء ملف robots.txt لكل subdomain بعكس subfolder فهو يستخدم ملف robots.txt الرئيسي
  • تقوم محركاب البحث بحفظ نسخة من ملف robots.txt ويتم تغيرها كل 24 ساعة تقريبا ما لم تستطع عناكب البحث الوصول الى الملف مرة أخرى فيتم الإحتفاظ بأوامر الملف القديم لفترة أطول
  • يجب ألا يزيد حجم ملف robots.txt عن 500 كيلو بايت
  • يجب أن يكون ملف robots.txt بترميز UTF-8

 

  • في الأمر التالي سوف نسمح لجميع عناكب البحث بالدخول الى جميع صفحات الموقع وهذه الحالة تساوي عدم وجود ملف روبوتس

User-agent: *
Allow: /

 

 

  • الحالة التالية منع عناكب البحث من دخول الموقع

User-agent: *
Disallow: /

  • الحالة التالية تسطيع عناكب البحث دخول الموقع بشكل كامل عدا مجلد seo

User-agent: *
Disallow: /seo/

  • الحالة التالية تسطيع عناكب البحث دخول الموقع ولكن سوف يتم منع أرشفة أي صفحة تبدأ بكلمة seo (لاحظ عدم وجود / في نهاية كلمة seo)

User-agent: *
Disallow: /seo

مثال على الحالة السابقة سوف تمنع أرشفة الصفحات التالية

seo.html
seo.php
seo2.html

ولكن سوف يتم أرشفة الصفحات التالية لأن الصفحة الأولى بدايتها مختلفة رقم 2 والصفحة الثانية أول حرف كبير capital

2seo.html
Seo.html

 

 

  • الحالة التالية سوف نسمح لعناكب بحث جوجل بالدخول الى الموقع بشكل كامل ومنع عناكب البحث الأخرى من الدخول الى الموقع

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

  • الحالة التالية سوف نمنع عناكب بحث جوجل من الدخول الى الموقع وسوف نسمح لجميع عناكب البحث الأخرى بالدخول الى الموقع

User-agent: Googlebot
Disallow: /

User-agent: *
Allow: /

  • الحالة التالية منع جميع عناكب البحث من الوصول الى صفحة seo.html

User-agent: *
Disallow: /seo.html

  • الحالة التالية منع عناكب بحث جوجل وبينج من الدخول على مجلد seo

User-agent: Googlebot
User-agent: Bingbot
Disallow: /seo/

  • الحالة التالية سوف يتم منع أرشفة أي صفحة او مسار داخل الموقع يحتوي على .php

User-agent: *
Disallow: /*.php

مثال للتوضيح على سوف يتم منع أرشفة

index.php
seo.php
/seo/moamen.php
index.php?parameters

  • الحالة التالية سوف يتم منع أرشفة اي صفحة تنتهي بـ .php

User-agent: *
Disallow: /*.php$

أمثلة للتوضيح ولاحظ الفرق بينها وبين الأمثلة في الحالة السابقة سوف يتم منع أرشفة الصفحات التالية

index.php
seo.php
/seo/moamen.php

سوف يتم أرشفة الصفحة التالية لانها لا تنتهي ب .php

index.php?parameters

  • الحالية التالية سوف يتم منع أرشفة أي صفحة تحتوي على كلمة seo و .php

User-agent: *
Disallow: /seo*.php

مثال للتوضيح سوف يتم منع أرشفة الصفحات التالية

seo.php

/seo/index.php

seomoamen/page.php

  • الحالية التالية منع أرشفة الصفحات التي تحتوي على علامة استفهام ؟

User-agent: *
Disallow: *?

كيف أتاكد من صحة ملف robots.txt الخاص بي ؟

عند التعديل على ملف robots.txt يجب التأكد من صجة الملف وتوفر جوجل أداة robots testing tool التي تسطيع من خلالها من التأكد من خلو ملف robots.txt من الأخطاء

هل ملف robots.txt كافي لمنع الأرشفة ؟

قد يتفاجئ البعض من إجابة هذا السؤال وخصوصا الشرح بالأعلي ولكن ملف robots.txt غير كافي لمنع أرشفة الصفحات في جوجل , هو يقوم بمنع دخول عناكب البحث الي الصفحة او الملف وبالتالي عدم أرشفتها ولكن ان وجد في الموقع روابط داخلية تشير الى هذه الصفحات او backlink لها فسوف تقوم عناكب البحث بالدخول الى الصفحة وسوف تظهر في صفحات البحث , وفي هذه الحالات يفضل إستخدام أكواد meta robots , والرابط التالي يوجد به شرح لهذه النقطة اضغط هنا

3 رأي حول “شرح ملف robots txt وكيفية انشاءه لموقع ووردبريس أو بلوجر”

  1. مقال ممتاز وسهل الفهم وبه جميع المعلومات المهم بالتوفيق دايما مهندس مؤمن

    فضلا شرح ملف sitemap انشائة ورفعة والتعديل علية

    وجزاك الله خيرا

    رد

أضف تعليق