सेमाल्ट बॉट्स, स्पाइडर और क्रॉलर के साथ कैसे व्यवहार करें, इस पर टिप्स प्रदान करता है

खोज इंजन के अनुकूल URL बनाने के अलावा, .htaccess फ़ाइल विशिष्ट वेबमास्टरों को अपनी वेबसाइट तक पहुँचने से रोकती है। इन रोबोट को ब्लॉक करने का एक तरीका robots.txt फ़ाइल के माध्यम से है। हालांकि, सेमल्ट कस्टमर सक्सेस मैनेजर, रॉस बार्बर कहते हैं कि उन्होंने कुछ क्रॉलर को इस अनुरोध की अनदेखी करते हुए देखा है। सर्वोत्तम तरीकों में से एक है। अपनी सामग्री को अनुक्रमित करने से रोकने के लिए .htaccess फ़ाइल का उपयोग करना।

ये क्या बॉट हैं?

वे एक प्रकार के सॉफ़्टवेयर हैं जिनका उपयोग खोज इंजन द्वारा इंटरनेट से नई सामग्री को अनुक्रमित करने के लिए किया जाता है।

वे निम्नलिखित कार्य करते हैं:

  • उन वेब पृष्ठों पर जाएँ, जिनसे आपने लिंक किया है
  • त्रुटियों के लिए अपना HTML कोड जांचें
  • वे उस वेब पेज को सहेजते हैं जिसे आप लिंक कर रहे हैं और देखें कि वेब पेज आपकी सामग्री से क्या लिंक करते हैं
  • वे आपकी सामग्री को अनुक्रमित करते हैं

हालाँकि, कुछ बॉट्स दुर्भावनापूर्ण हैं और आपकी साइट को ईमेल पते और ऐसे रूपों के लिए खोजते हैं जो आमतौर पर आपको अवांछित संदेश या स्पैम भेजने के लिए उपयोग किए जाते हैं। अन्य लोग आपके कोड में सुरक्षा खामियों की भी तलाश करते हैं।

वेब क्रॉलर को ब्लॉक करने के लिए क्या आवश्यक है?

.Htaccess फ़ाइल का उपयोग करने से पहले, आपको निम्न चीजों की जाँच करने की आवश्यकता है:

1. आपकी साइट को अपाचे सर्वर पर चलना चाहिए। आजकल, यहां तक कि वे वेब होस्टिंग कंपनियां अपनी नौकरी में आधा सभ्य हैं, आपको आवश्यक फ़ाइल तक पहुंच प्रदान करती हैं।

2. आपके पास आपकी वेबसाइट के कच्चे सर्वर लॉग्स तक पहुंच होनी चाहिए ताकि आप यह पता लगा सकें कि आपके वेब पेज पर कौन-कौन से बॉट आए हैं।

ध्यान दें कि कोई भी तरीका नहीं है कि आप सभी हानिकारक बॉट्स को ब्लॉक कर पाएंगे, जब तक कि आप उन सभी को ब्लॉक नहीं करते हैं, यहां तक कि उन लोगों को भी जिन्हें आप मददगार मानते हैं। हर दिन नई बॉट्स आती हैं, और पुराने को संशोधित किया जाता है। सबसे प्रभावी तरीका यह है कि अपने कोड को सुरक्षित रखें और बॉट्स के लिए आपको स्पैम करना कठिन बना देता है।

बॉट्स की पहचान

बॉट्स की पहचान आईपी एड्रेस से या उनके "यूजर एजेंट स्ट्रिंग" से की जा सकती है, जिसे वे HTTP हेडर में भेजते हैं। उदाहरण के लिए, Google "Googlebot" का उपयोग करता है।

आपको इस सूची की आवश्यकता 302 बॉट्स के साथ हो सकती है यदि आपके पास पहले से ही बॉट का नाम है जिसे आप प्रोडक्टस की अधिकता से दूर रखना चाहते हैं।

दूसरा तरीका यह है कि सर्वर से सभी लॉग फ़ाइलों को डाउनलोड करें और उन्हें टेक्स्ट एडिटर का उपयोग करके खोलें। सर्वर पर उनका स्थान आपके सर्वर के कॉन्फ़िगरेशन के आधार पर बदल सकता है। यदि आप उन्हें नहीं ढूंढ सकते हैं, तो अपने वेब होस्ट से सहायता लें।

यदि आप जानते हैं कि किस पृष्ठ का दौरा किया गया था, या यात्रा के समय, अवांछित बॉट के साथ आना आसान है। आप इन मापदंडों के साथ लॉग फ़ाइल खोज सकते हैं।

एक बार, आपने नोट किया कि आपको किन बॉट्स को ब्लॉक करने की आवश्यकता है; फिर आप उन्हें .htaccess फ़ाइल में शामिल कर सकते हैं। कृपया ध्यान दें कि बॉट को रोकना इसे रोकने के लिए पर्याप्त नहीं है। यह एक नए आईपी या नाम के साथ वापस आ सकता है।

उन्हें कैसे ब्लॉक किया जाए

.Htaccess फ़ाइल की एक प्रति डाउनलोड करें। यदि आवश्यक हो तो बैकअप बनाएं।

विधि 1: आईपी द्वारा अवरुद्ध

यह कोड स्निपेट आईपी एड्रेस 197.0.0.1 का उपयोग करके बॉट को ब्लॉक करता है

आदेश अस्वीकार करें, अनुमति दें

197.0.0.1 से इनकार

पहली पंक्ति का मतलब है कि सर्वर आपके द्वारा निर्दिष्ट पैटर्न से मेल खाते सभी अनुरोधों को अवरुद्ध करेगा और अन्य सभी को अनुमति देगा।

दूसरी पंक्ति सर्वर को 403: निषिद्ध पृष्ठ जारी करने के लिए कहती है

विधि 2: उपयोगकर्ता एजेंटों द्वारा अवरुद्ध

सबसे आसान तरीका है अपाचे के रीराइट इंजन का उपयोग करना

रिवरटाइंगइन ऑन

% ReriteCond% {HTTP_USER_AGENT} BotUserAgent

पुनर्लेखन। - [एफ, एल]

पहली पंक्ति यह सुनिश्चित करती है कि पुनर्लेखन मॉड्यूल सक्षम है। पंक्ति दो वह स्थिति है, जिस पर नियम लागू होता है। लाइन 4 में "एफ" सर्वर को 403 वापस करने के लिए कहता है: निषिद्ध है जबकि "एल" का अर्थ है यह अंतिम नियम है।

फिर आप .htaccess फ़ाइल को अपने सर्वर पर अपलोड करेंगे और मौजूदा एक को अधिलेखित करेंगे। समय के साथ, आपको बॉट के आईपी को अपडेट करना होगा। यदि आप एक त्रुटि करते हैं, तो बस आपके द्वारा किए गए बैकअप को अपलोड करें।