شرح ملف robots txt وكيفية انشاءه لموقع ووردبريس أو بلوجر

شرح ملف robots txt وكيفية انشاءه لموقع ووردبريس أو بلوجر

ملف robots.txt أحد الملفات المهم لموقعك وهو جزء من بروتوكول استبعاد الروبوتات Robots Exclusion Protocol وهو ما يعرف إختصارا بـ REP وتسطيع من خلاله إرشاد وتوجيه عناكب البحث داخل موقعك والسماح أو عدم السماح لهم بدخول صفحات معينة داخل موقعك وكذلك تحديد فترات إعادة الزحف الى موقعك , وفي هذه المقالة سوف نتعرف على كيفية كتابة ملف robots.txt مناسب لموقعنا

ما هو بروتوكول استبعاد الروبوتات Robots Exclusion Protocol (REP) ؟

هو بروتوكول تم إستخدامه لأول مرة عام 1994 على يد مهندس الحاسوب الهولندي Martijn Koster بعد أن لاحظ كثافة تواجد عناكب البحث في موقعه فقرر إبتكار طريقة يستطيع من خلالها توجيه عناكب البحث داخل المواقع وبعدها توالت عمليات التعديل والإبتكار منه ومن أخريين حتى نشأ بروتوكول REP ثم تم إعتمادة من محركات البحث الرئيسية

كيف يعمل ملف robots.txt وكيف يتفاعل مع محركات البحث؟

ملف robots.txt هو ملف نصي يوجد في جذر موقع الويب ويستخدم للتواصل مع محركات البحث وتعليمها حول كيفية الوصول إلى صفحات الموقع. يقوم محرك البحث بزيارة ملف robots.txt أولاً قبل فهرسته لصفحات الموقع، ويستند إلى المحتوى الموجود في هذا الملف لاتخاذ قرارات بشأن الصفحات التي يجب أن يزورها والصفحات التي يجب تجاهلها.

وظيفة ملف robots.txt هي تعليم محركات البحث حول الصفحات التي يمكنها زيارتها والصفحات التي يجب تجنبها. يتم ذلك باستخدام تعليمات محددة تُدرج في ملف robots.txt. هذه التعليمات تعرف باسم “تعليمات المستخدم” (Directives)، وتسمح لك بتحديد المجلدات أو الصفحات التي يجب أن تكون متاحة لمحركات البحث وتحديد الصفحات التي يجب تجاهلها.

عندما يقرأ محرك البحث ملف robots.txt، يحلل تعليمات المستخدم الموجودة فيه ويتفاعل بها على النحو التالي:

  • الوصول المسموح: يحدد ملف robots.txt الصفحات أو المجلدات التي يسمح لمحرك البحث بزيارتها. يمكنك تحديد صفحات محددة أو كامل المجلدات التي يمكن للمحرك زيارتها.
  • الوصول الممنوع: يحدد ملف robots.txt الصفحات أو المجلدات التي يجب على محرك البحث تجاهلها وعدم زيارتها. يمكنك تحديد صفحات معينة أو كامل المجلدات التي يجب تجاهلها من قبل المحرك.
  • المؤشرات: يمكن أيضًا استخدام ملف robots.txt لتحديد المواقع التي يجب مؤشرها أو عدم مؤشرها من قبل محرك البحث. يمكنك استخدام تعليمات مثل “Disallow” لمنع محرك البحث من مؤشرة صفحة محددة.

باستخدام ملف robots.txt بشكل صحيح، يمكنك تحسين كيفية تفهم محركات البحث لمحتوى موقعك وتوجيهها للصفحات الهامة. وبالتالي، يمكن أن يؤثر بشكل إيجابي على ظهور موقعك في نتائج البحث وتحسين رؤية المحتوى الخاص بك من قبل الجمهور المستهدف.

 

ما هي أهمية ملف robots.txt ؟

بالرغم من تطور محركات البحث مثل جوجل وقدرتها على تقدير العدد الأمثل لعناكب البحث لدخول موقعك وقدرتها على معرفة الصفحات الضعيفة والمكررة واستبعادها ولكن يوجد عشرات بل مئات محركات البحث ليست بنفس القدرة مع حدوث اخطاء من محركات البحث الكبيرة لذلك يظل ملف robots.txt له أهمية كبيرة ومنها

  • حظر أرشفة بعض الصفحات التي لا ترغب في دخول زوار الموقع عليها مثل النسخ والصفحات التجريبية للموقع وصفحات الدخول
  • توجيه عناكب البحث للصفحات ذات الأهمية الأكبر
  • القدرة على منع دخول عناكب البحث وأرشفة الوسائط مثل الصور وملفات الفلاش والفيديو وغيرها

 

كيف أستخدم ملف robots.txt ؟

قبل شرح كيفية إستخدام ملف robots.txt يجب علينا معرفة الأوامر المستخدمة في الملف وسوف نشرح أهم 4 أوامر يتم إستخدامهم في الملف

  • User-agent والترجمة الحرفية لها وكيل المستخدم , وهو الأمر الأول في ملف robots.txt فتسطيع من خلال هذا الامر مخاطبة عناكب البحث بشكل عام او تحديد عناكب بحث تابعة لمحرك بحث معين لمخاطبتها فعلى سبيل المثال اذا كتبنا User-agent: Googlebot هنا نخاطب عناكب بحث جوجل ومن أمثلة زواحف او عناكب البحث Googlebot وهو الخاص بجوجل و Bingbot وهو الخاص بمحرك بحث bing و Slurp الخاص بياهو ولمعرفة النزيد من أسماء عناكب البحث من خلال الرابط التالي Robots Database
  • Disallow وهو أمر لعناكب البحث بعد الدخول او بعدم الفهرسة
  • Allow وهو أمر لعناكب البحث بالدخول او الفهرسة
  • sitemap وهو أمر لتعريف عناكب البحث بخريطة الموقع

 

كيفية انشاء ملف robots.txt ؟

توجد بعض النقاط الهامة التي يجب التنويه عليها قبل إنشاء الملف حتى نحصل على أكبر قدر من الإفادة منه

  • ملف robots.txt حساس لحالة الأحرف فإن تم كتابة بحروف كبيرة “capitals” لن تسطيع عناكب البحث التعرف عليه فان كتابته بالشكل التالي طريقة خاطئة Robots.txt سوف نلاحظ ان حرف R كتب capital ففي هذه الحالة لن تستطيع عناكب البحث التعرف عليه فيجب كتابته كالتالي robots.txt
  • يجب وضعه في المجلد الرئيسية للموقع وهو المجلد التي يتواجد فيه الملفات الرئيسية مثل httaccess
  • يوجد عناكب بحث سيئة السمعة لا تلتزم بإرشادات ملف robots.txt مثل التي تستخدم في SPAM
  • ملف robots.txt هو ملف عام يستطيع أي شخص الدخول عليه فلا تضع فيه مجلدات تريد إخفائها
  • يتم إنشاء ملف robots.txt لكل subdomain بعكس subfolder فهو يستخدم ملف robots.txt الرئيسي
  • تقوم محركاب البحث بحفظ نسخة من ملف robots.txt ويتم تغيرها كل 24 ساعة تقريبا ما لم تستطع عناكب البحث الوصول الى الملف مرة أخرى فيتم الإحتفاظ بأوامر الملف القديم لفترة أطول
  • يجب ألا يزيد حجم ملف robots.txt عن 500 كيلو بايت
  • يجب أن يكون ملف robots.txt بترميز UTF-8

 

  • في الأمر التالي سوف نسمح لجميع عناكب البحث بالدخول الى جميع صفحات الموقع وهذه الحالة تساوي عدم وجود ملف روبوتس

User-agent: *
Allow: /

 

 

  • الحالة التالية منع عناكب البحث من دخول الموقع

User-agent: *
Disallow: /

  • الحالة التالية تسطيع عناكب البحث دخول الموقع بشكل كامل عدا مجلد seo

User-agent: *
Disallow: /seo/

  • الحالة التالية تسطيع عناكب البحث دخول الموقع ولكن سوف يتم منع أرشفة أي صفحة تبدأ بكلمة seo (لاحظ عدم وجود / في نهاية كلمة seo)

User-agent: *
Disallow: /seo

مثال على الحالة السابقة سوف تمنع أرشفة الصفحات التالية

seo.html
seo.php
seo2.html

ولكن سوف يتم أرشفة الصفحات التالية لأن الصفحة الأولى بدايتها مختلفة رقم 2 والصفحة الثانية أول حرف كبير capital

2seo.html
Seo.html

 

 

  • الحالة التالية سوف نسمح لعناكب بحث جوجل بالدخول الى الموقع بشكل كامل ومنع عناكب البحث الأخرى من الدخول الى الموقع

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

  • الحالة التالية سوف نمنع عناكب بحث جوجل من الدخول الى الموقع وسوف نسمح لجميع عناكب البحث الأخرى بالدخول الى الموقع

User-agent: Googlebot
Disallow: /

User-agent: *
Allow: /

  • الحالة التالية منع جميع عناكب البحث من الوصول الى صفحة seo.html

User-agent: *
Disallow: /seo.html

  • الحالة التالية منع عناكب بحث جوجل وبينج من الدخول على مجلد seo

User-agent: Googlebot
User-agent: Bingbot
Disallow: /seo/

  • الحالة التالية سوف يتم منع أرشفة أي صفحة او مسار داخل الموقع يحتوي على .php

User-agent: *
Disallow: /*.php

مثال للتوضيح على سوف يتم منع أرشفة

index.php
seo.php
/seo/moamen.php
index.php?parameters

  • الحالة التالية سوف يتم منع أرشفة اي صفحة تنتهي بـ .php

User-agent: *
Disallow: /*.php$

أمثلة للتوضيح ولاحظ الفرق بينها وبين الأمثلة في الحالة السابقة سوف يتم منع أرشفة الصفحات التالية

index.php
seo.php
/seo/moamen.php

سوف يتم أرشفة الصفحة التالية لانها لا تنتهي ب .php

index.php?parameters

  • الحالية التالية سوف يتم منع أرشفة أي صفحة تحتوي على كلمة seo و .php

User-agent: *
Disallow: /seo*.php

مثال للتوضيح سوف يتم منع أرشفة الصفحات التالية

seo.php

/seo/index.php

seomoamen/page.php

  • الحالية التالية منع أرشفة الصفحات التي تحتوي على علامة استفهام ؟

User-agent: *
Disallow: *?

كيف أتاكد من صحة ملف robots.txt الخاص بي ؟

لفحص صحة ملف robots.txt والتأكد من صحة الأوامر عند التعديل على ملف robots.txt توفر جوجل أداة robots testing tool التي تسطيع من خلالها من التأكد من خلو ملف robots.txt من الأخطاء، كما يمكنك اتباع الخطوات التالية لفحص الملف بشكل أكثر دقة :

  • التحقق من وجود ملف robots.txt: قم بزيارة عنوان موقعك على الويب متبوعًا بـ “/robots.txt”، مثل “www.example.com/robots.txt”. تأكد من أن الملف موجود في الجذر الرئيسي لموقعك.
  • قراءة وتحليل المحتوى: افتح ملف robots.txt باستخدام أداة تحرير نصوص أو عارض نصوص واقرأ محتواه. تحقق من وجود أي تعليمات محددة مثل “Allow” أو “Disallow” وتأكد من صحتها.
  • التحقق من التنسيق الصحيح: تأكد من أن تنسيق ملف robots.txt صحيح. يجب أن يكون كل تعليمة في سطر منفصل ويجب أن يتم فصل الجزء الخاص بالمسار عن التعليمة بواسطة مسافة.
  • استخدام أدوات التحقق عبر الإنترنت: هناك أدوات عبر الإنترنت تتيح لك فحص صحة ملف robots.txt والتحقق من صحة التكوينات. يمكنك استخدام أدوات مثل “Google Search Console” أو “Bing Webmaster Tools” لهذا الغرض.
  • التأكد من إتاحة المحتوى المهم: تأكد من أن الصفحات المهمة والمحتوى الذي ترغب في أن يتم مؤشرته بواسطة محركات البحث ليس لديها تعليمات “Disallow” في ملف robots.txt. هذا يضمن أن محركات البحث يمكنها الوصول إلى المحتوى الذي ترغب في ترتيبه في نتائج البحث.

باستخدام هذه الخطوات، يمكنك التحقق من صحة ملف robots.txt والتأكد من أن التكوينات الخاصة بك مضبوطة بشكل صحيح. يجب أن تكون التعليمات في الملف واضحة ومنطقية وتعكس متطلبات موقعك واستراتيجيتك لتحسين محركات البحث.

 

هل ملف robots.txt كافي لمنع الأرشفة ؟

قد يتفاجئ البعض من إجابة هذا السؤال وخصوصا الشرح بالأعلي ولكن ملف robots.txt غير كافي لمنع أرشفة الصفحات في جوجل , هو يقوم بمنع دخول عناكب البحث الي الصفحة او الملف وبالتالي عدم أرشفتها ولكن ان وجد في الموقع روابط داخلية تشير الى هذه الصفحات او backlink لها فسوف تقوم عناكب البحث بالدخول الى الصفحة وسوف تظهر في صفحات البحث , وفي هذه الحالات يفضل إستخدام أكواد meta robots , والرابط التالي يوجد به شرح لهذه النقطة اضغط هنا

3 تعليقات

  1. يقول islam:

    مقال ممتاز وسهل الفهم وبه جميع المعلومات المهم بالتوفيق دايما مهندس مؤمن

    فضلا شرح ملف sitemap انشائة ورفعة والتعديل علية

    وجزاك الله خيرا

  2. يقول ahmed:

    مقال كويس جدا تسلم 🙂

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

س