خانه / نرم افزار کامپیوتر / هاستینگ – وب سایت / برنامه نویسی / Other Programming / ساخت و استفاده از فایل روبوت یا تاثیر فایل robots.txt در ایندکس سایت

ساخت و استفاده از فایل روبوت یا تاثیر فایل robots.txt در ایندکس سایت

تاثیر فایل robots.txt در ایندکس سایت با ساخت و استفاده از فایل روبوت به چه میزان راه را برای موتورهای جستجو و رباتهایی نظیر googlebot هموار می سازد؟ ربات های عنکبوتی موتورهای جستجو، مانند گوگل، بینگ و… وقتی وارد سایتی می شوند، ابتدا  فایل Robot.txt را درخواست و مورد بازبینی قرار می دهند. به عبارتی دیگر موتورهای جستجو برای آنالیز و بررسی یا ایندکس یک سایت ابتدا در روت اصلی آن ( مثلا http://m4i.ir/robots.txt ) به دنبال فایل روبوت می گردند.

      می بایست برای بهینه سازی سایت، مسیرهایی که مورد نیاز این رباتها نیستند را تفکیک کرده و در پایان فایل نیز لینک SiteMap را به آن اضافه نمائیم.حالت پیش فرض ( در صورتی که این فایل موجود نباشد ) اسپایدرها ( متفاوت از Crawler- کراولر ) کل محتویات روت هاست را بررسی می کنند و هیچ گونه محدودیتی ندارند.

ساخت و استفاده از فایل robots.txt

      توجه داشته باشید که برای subdomain می بایست فایل جداگانه و مختص به خودشان را آماده نمائید و در شاخه مد نظر قرار دهید. مثلا چنانچه سایت دارای فروم است در مسیر ( فرضا http://po.m4i.ir ) یک فایل ربوت تکست جدید ساخته شود و محدودیتهای آن شاخه، مجزا از فایل روت اصلی در آن درج گردد.

      رتبه بندی سایت‌ها در گوگل و دیگر موتور‌های جستجو به مقدار رضایت ربات آنها از سایت مورد پالایش بستگی دارد، که می توان با بستن لینک‌های اسپم ( مطالب تکراری ) ، شاخه های غیر ضروری یا حتی شاخه های مهم مثل admin و… این مهم یعنی افزایش رتبه و بالطبع آن افزایش بازدیدکننده از سایت را که یکی از مهمترین بخش‌های سئو سایت می باشد را فراهم آورد. به غیر از مبحث سئو، این مسئله در ایجاد امنیت بالاتر برای وب سایت و کاهش خطای ۴۰۴ که در بخش log ها و آمار سایت جلوه خوبی ندارند، نیز بسیار تاثیرگذار خواهد بود.

      برای ساخت این فایل کافی است در Notepad ویندوز فایل متنی ( txt ) با نام robots ساخته و پس از درج کدهای مورد نظرمان، آن را به روت اصلی هاست ( همان پوشه public_html ) منتقل نمائیم.

نحوه تنظیم فایل robots.txt

      اصول نوشتاری فرامین فایل روبوت به این صورت است که اولا بزرگی و کوچکی حروف در دستورات و نام فایلهای هاست بسیار مهم و با یکدیگر تفاوت دارد و در در ابتدای آدرس دایرکتوری ها، باید از یک اسلش (/) نیز استفاده شود. در خط اول این فایل معمولا نوع روباتی که قرار است محدودیت ایندکسینگ را برایش اعمال کنیم با دستور *:User-agent مشخص می نمائیم – علامت ستاره یعنی همه روبات های پیمایشگر – چنانچه ربات خاصی مد نظر باشد، جایگزین نماد ستاره می کنیم. به طور مثال فقط روبات های گوگل این محدودیت ها رو داشته باشند.

User-agent: googlebot

که می توانید در این لینک لیست رباتهای معروف را مشاهده نمائید.

      در خط بعدی، برای جلوگیری از ایندکس شدن ادرس خاصی از سایت از دستور Disallow استفاده می نمائیم. مثلا دسترسی ایندکس شدن همه ی صفحات توسط روبوت های گوگل گرفته شود:

User-agent: Googlebot Disallow: /
Disallow: /

     در مقابل فرمان فوق می توان از دستور User-agent: * در خط اول و سطر بعدی آن از Allow: / استفاده شود. یعنی مجاز بودن تمام صفحات برای تمام ربات ها ( اصلا پیشنهاد نمی شود )

استفاده از فایل robots.txt و مسدود کردن فایل روبوت در ریشه سایت برای تمام ربات ها:

User-agent: *
Disallow: /robots.txt

استفاده از فایل robots.txt و مسدود کردن یک فولدر برای تمام ربات ها:

User-agent: *
Disallow: /wp-admin/

افزودن نقشه سایت به فایل robots.txt

      همانطور که در بالا نیز ذکر گردید، علاوه بر مجاز و مسدود کردن دایرکتوری ها و فایل ها، بوسیله فایل robots.txt می توان نقشه xml سایت خود را به تمام ربات های خزنده معرفی نمائیم. به این صورت که با یک فاصله، آدرس کامل نقشه سایت خود را در انتهای فایل وارد می نمائیم.

حذف فایل Robots.txt از صفحات index شده توسط گوگل :

برای اطمینان از ایندکس صفحات سایت در گوگل، آدرس سایت مورد نظر را سرچ می کنیم مثلا ام فور آی چنانچه در نتیجه جستجو محتویات فایل ربوت نمایش داده شد، مطئن می شویم که این فایل موجود و صفحات نیز ایندکس شده اند.

چنانچه در نتایج جستجوی کلمات کلیدی مرتبط با سایت در صفحه گوگل ، محتویات فایل robots.txt به نمایش در آمد ( می تواند مشکلاتی مانند تکراری بودن مطالب یا بهم ریختگی مطالب در لینک های سرچ شده سایت بوجود آورد ) که می توانیم با این روش نسبت به حذف فایل روبوت تکست در موتور جستجوی گوگل ، اقدام نمائیم. برای انجام این کار توسط ابزار وبمستر گوگل پس از ورود به حساب سایت خود در Google Webmaster Tools از منوی Optimization یا همان بهینه سازی بر روی گزینه Remove URLs کلیک کنید تا به صفحه حذف صفحات از پایگاه داده های گوگل وارد شوید. سپس برای اضافه کردن فایل Robots.txt در این بخش بر روی دکمه Create a new removal request کلیک کنید و در پنجره نمایش داده شده آدرس فایل Robots.txt همانند http://m4i.ir/robots.txt وارد کنید.

با وارد کردن آدرس و کلیک بر روی دکمه Continue نیاز است که در صفحه بعدی از قسمت Reason و یا همان دلیل پاکسازی گزینه Remove page from search result را انتخاب کنید و برای ثبت درخواست بر روی دکمه Submit Request کلیک کنید. با انجام مراحل بالا پس از حدود یک روز به صورت کامل این صفحه از صفحه نتایج جستجوی گوگل ناپدید می شود اما برای جلوگیری از index شدن و نمایش دوباره آن در آینده کد زیر را به فایل ربوت تکست اضافه می کنیم:

User-agent: Googlebot
Disallow: /Robots.txt

  لازم به ذکر است تمامی موارد فوق در فایل htaccess و یا تگ هدر قالب نیز، با درج کدی امکان پذیر است. همچنین از قوانین ترکیبی و پیچیده نیز می توان در کدهای فایل روبوت استفاده نمود که می توانید جهت کسب اطلاعات بیشتر از لینک های زیر کمک بگیرید.

منابع:

از گوگل وبمستر

از ویکی‌پدیا

درباره مدیر سایت

مدیر سایت
« الصبر مفتاح الفرج » « ان الله مع الصابرین » صبر و ظفر هر دو دوستان قديمند، بـر ا ثـر صبــر نـوبت ظفـر آيد. Update, Backup & Security رمز موفقیت ادمین و پایداری شبکه ...

یک نظر

پاسخ بدهید

ایمیلتان منتشر نمیشودفیلدهای الزامی علامت دار شده اند *

*

✿ لطفاً معادله ی امنیتی زیر را ، در کادر مربوطه پُر نمائید ✿ *
Time limit is exhausted. Please reload CAPTCHA.

رفتن به بالا