الروبوتات النص استضافة جملة
حول عرض ملف robots.txt
شيء صغير
اصحاب الموقع استخدام ملف عرض ملف robots.txt لاعطاء تعليمات حول موقعهم على الروبوتات على شبكة الإنترنت. وهذا ما يسمى في استبعاد بروتوكول الروبوتات.
وهو يعمل أمثال هذا: الروبوت يريد السيريلانكي يزور لURL موقع ويب، ويقول www.example.com/welcome.html. قبل أن يفعل ذلك، فإنه أوليات الشيكات لwww.example.com/robots.txt، ويجد:
و"وكيل المستخدم: *" يعني ينطبق هذا القسم لجميع الروبوتات. على "عدم السماح: /" يقول الروبوت التي لا ينبغي أن زيارة أي صفحة على الموقع.
هناك نوعان من الاعتبارات الهامة عند استخدام عرض ملف robots.txt:
- يمكن الروبوتات تجاهل عرض ملف robots.txt الخاص بك. الروبوتات الخبيثة خصوصا أن مسح على شبكة الإنترنت لالثغرات الأمنية، والحصادات عنوان البريد الإلكتروني المستخدمة من قبل الاطر سوف لا تولي اهتماما.
- ملف عرض ملف robots.txt هو ملف متاحة للجمهور. يمكن لأي شخص رؤية ما أقسام الخادم الخاص بك كنت لا تريد الروبوتات للاستخدام.
لذلك لا تحاول استخدام عرض ملف robots.txt لإخفاء المعلومات.
التفاصيل
وعرض ملف robots.txt هو معيار الأمر الواقع، وليس مملوك من قبل أي هيئة معايير. هناك نوعان من الأوصاف التاريخية:
بالإضافة إلى ذلك هناك موارد خارجية:
لا يتم وضع معيار عرض ملف robots.txt بنشاط. انظر ماذا عن مزيد من التطوير لعرض ملف robots.txt؟ لمزيد من النقاش.
ما تبقى من هذه الصفحة لمحة عامة عن كيفية استخدام عرض ملف robots.txt على الخادم الخاص بك، مع بعض الوصفات البسيطة. لمعرفة المزيد انظر أيضا التعليمات.
كيفية إنشاء ملف يلي /robots.txt
الجواب باختصار: في الدليل المستوى الأعلى من خادم الويب الخاص بك.
ويعد الجواب:
عندما يبدو الروبوت لملف "عرض ملف robots.txt" لURL، فإنه يجرد مكون مسار من URL (كل شيء من أول الخط المائل واحد)، ويضع "عرض ملف robots.txt" في مكانها.
على سبيل المثال، "www.example.com/shop/index.html. فإنه سيتم إزالة" /shop/index.html "، واستبدالها" عرض ملف robots.txt "، وسوف ينتهي مع" www.example كوم / ملف robots.txt ".
لذلك، كما يمكن لصاحب الموقع تحتاج لوضعها في المكان المناسب على خادم الويب الخاص بك لذلك URL مما أدى إلى العمل. عادة هذا هو نفس المكان الذي وضعت الرئيسية "index.html و" صفحة الترحيب موقع على شبكة الإنترنت الخاص بك. أين بالضبط وهذا هو، وكيفية وضع الملف هناك، يعتمد على برنامج خادم الويب الخاص بك.
تذكر أن استخدام كل حالة أقل لاسم: "ملف robots.txt" وليس "ملف robots.txt.
الملف "عرض ملف robots.txt" هو ملف نصي، مع سجل واحد أو أكثر. عادة ما تحتوي على سجل واحد يبحث مثل هذا:
في هذا المثال، يتم استبعاد ثلاثة الدلائل.
لاحظ أن تحتاج منفصل خط "عدم السماح" للكل URL بادئة تريد استبعادها - لا يمكنك أن تقول "عدم السماح: / المجموعة الاستشارية لاندونيسيا بن / / تمة /" في سطر واحد. أيضا، قد لا يكون الأسطر الفارغة في رقما قياسيا، كما أنها تستخدم لتحديد سجلات متعددة.
لاحظ أيضا أن لا يتم اعتماد globbing والتعبير العادية في أي من وكيل المستخدم أو عدم السماح خطوط. و'* في مجال وكيل المستخدم هو قيمة خاصة يعني "أي إنسان". على وجه التحديد، لا يمكن أن يكون لها خطوط مثل "وكيل المستخدم: * بوت *"، "عدم السماح: / تمة / *" أو "عدم السماح: * .jpg و".
ما كنت تريد استبعاد يعتمد على الخادم الخاص بك. ويعتبر كل شيء لا غير مسموح بها صراحة لعبة عادلة لاسترداد. اتبع هنا بعض الأمثلة:
(أو مجرد إنشاء ملف "عرض ملف robots.txt" فارغة، أو عدم استخدام واحد على الإطلاق)
هذا هو حاليا محرجا بعض الشيء، حيث لا يوجد مجال "السماح". الطريق السهل هو وضع جميع الملفات المراد غير مسموح بها في دليل منفصل، ويقول "الاشياء"، وترك ملف واحد في مستوى أعلى من هذا الدليل: بدلا من ذلك يمكنك السماح صراحة جميع صفحات غير مسموح بها: