فایل robot.txt چیست و چرا باید از آن استفاده کرد ؟
:: موتورهای جستجو همانند گوگل ، یاهو و بینگ مایکروسافت برای برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از روبات های جستجو که به spider , robot و یا crawler معروف هستنداستفاده می کننید . این روبوت ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست میارند و اونها رو به موتور جستجوی مربوطه ارسال میکنند . معمولا بر اساس اینکه یک سایت چند مدت به چند مدت آپدیت میشه تعداد دفعاتی که این روبات های جستجوگر در روز به سایت مراجعه می کنند متفاوته .
صفحات موجود در سایتهای مختلف از لحاظ امنیتی و درجه حساسیت متفاوت هستند و شاید شما دوست نداشته باشید بعضی از صفحات (مثل صفحات مدیریتی و ادمین سایت) در موتورهای جستجو ایندکس بشه و آدرسش در این موتورها در اختیار عموم باشه . برای اینکه به موتورهای جستجو بگید چه صفحات یا فولدرهایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می تونید از یک فایل با نام robot.txt در ایندکس هاستینگ سایتتون و یا در پوشه ای خاص استفاده کنید تا به موتورهای جستجو بگید جا مجازید پیمایش کنید و کجا مجاز نیستید :


همونطور که در عکس بالا میبینید ، در سایتی که از فایل robot.txt استفاده نشده باشه روبات های موتورهای جستجو همه ی صفحات رو ایندکس می کنند در صورتی که با استفاده از این فایل میشه این ایندکس شدنها رو برای پوشه های مختلف کنترل کرد ! از این فایل همچنین برای جلوگیری از ایندکس شدن تکراری صفحات با url های مختلف استفاده میشه .
:: خوب حالا که فهمیدید دلیل استفاده از فایل مهم robot.txt چی هست ، نحوه استفاده از اون رو براتون توضیح میدیم :
فایل robot.txt یک فایل متنی ساده (دقیقا با همین نام و پسوند txt) است . در زیر چند تا از مهمترین دستوراتی که توی این فایل می تونید بیارید آوردم .
User-agent
در خط اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent میاریم . به شکل زیر :
User-agent: *
علامت * میگه که همه ی ربات های پیمایشگر ، این دستورات براشون اعمال بشه .
مثلا اگه بخواید بگید فقط روبات های گوگل این محدودیت ها رو داشته باشند ، این دستور رو به این شکل داریم :
User-agent: googlebot
در اینجا میتونید لیست همه ی روبوت های موجود و معروف رو ببینید .
اگر فایل فقط حاوی این خط باشه همچنان پیمایشگران محترم موتورهای جستجو بدون محدودیت به ایندکس کردن همه صفحات ادامه می دن .
Disallow
برای جلوگیری از ایندکس شدن ادرس خاصی از سایت از دستور Disallow استفاده میشه . بزارید چندتا مثال بزنیم :
User-agent: googlebot Disallow: /
این دوخط فوق باعث میشه که جلوی ایندکس شدن همه ی صفحات توسط روبوت های گوگل گرفته بشه .
User-agent: * Disallow: /admin.php
در مثال فوق همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه admin.php رو نداشته باشند .
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /private.html
در این مثال هم همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه private.html و پوشه های cgi-bin و images رو نداشته باشند .
البته میتونید برای روبوت های مختلف محدودیت های مختلف تعیین کنید :
User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /private.html User-agent: googlebot Disallow: /images/ User-agent: BadBot Disallow: /
Allow
از دستور Allow هم معمولا برای اجازه دادن ایندکسینگ به زیرپوشه ای که درون یک پوشه Dissallow شده قرار داده استفاده میشه . مثال زیر رو ببینید :
User-agent: * Disallow: /files/ Allow: /files/public/
در اینجا ما می گیم که روبات ها اجازه ایندکس کردن محتویات درون پوشه files رو ندارند به جز پوشه public که در پوشه files قرار داره !
robot.txt برای سایت های وردپرسی !
در زیر یک فایل مناسب برای استفاده وب سایت هایی که با وردپرس ساخته شدند آوردم . می تونید ازش استفاده کنید . میبینید که به پوشه های مدیریتی و حاوی فایل ها قالب و پلاگین ها و ... اجازه دسترسی داده نشده .
User-agent: * Disallow: /feed/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /xmlrpc.php Disallow: /wp- Sitemap: http://www.7Learn.com/Sitemap.xml
همونطور که در مثال بالا می بینید می تونید به این طریق Sitemap سایت خودتون رو هم در این فایل قرار بدید تا در معرض دید روبات ها باشه . انشاءالله در آینده در مورد فایل sitemap و دلایل استفاده از اون هم صحبت خواهیم کرد .
robot.txt برای سایت های پیاده سازی شده با جوملا !
User-agent: * Disallow: /component
:: در آخر هم بد نیست یه نگاهی به فایل robot.txt خود سایت گوگل بکنید !
:: امیدوارم که مفید واقع شده باشه ! حمایت از ما (+1 در گوگل) فراموش نشه ... خوش باشید !
پکیج طلایی طراحی وب:: آموزش ویدیویی کامل html, css, php, asp.net, ajax, javascript ,flash, jQuery و ...
هزاران سورس کد از زبان های مختلف
مجموعه کامل نرم افزارهای طراحی وب
35 گیگ فیلم آموزشی طراحی وب
پکیج طلایی آموزش #C:: آموزش ویدیویی کامل به زبان فارسی
بیش از 2000 سورس برنامه کاربردی
بیش از 100 کتاب آموزشی کاربردی
150 هزار آیکون برای استفاده در برنامه های شما
کاملترین پکیج آموزش جاوااسکریپت ( مقدماتی تا پیشرفته )
پکیج آموزش عملی افزایش رتبه سایت و وبلاگ و بهبود سئو
نویسنده مطلب :
لقمان آوند
:: دانشجوی ارشد نرم افزار دانشگاه شیراز ، برنامه نویس و مدیر سایت سون لرن ، هشت سال سابقه وبلاگنویسی و طراحی وب دارم و شدیدا به این کار علاقمندم !

برچسب ها : 





سایت مپ گوگل رو چک کردم دیدم یک عالمه پروفایل گوگل پلاس رو اونجا وارد کرده (غیر مستقیم-یعنی شما وارد سایت مپ بشید یکی از txt ها رو باز کنید میبینید )
با سپاس از شما برای این آموزش !
درود بر شما
عالیه این سایت
ممنون
ممنون از زحمات فراوانتون و توجه کردن به نظرات بیننده ها و پاسخ به سوالات
ممنون
خواهش می کنم وظیفمونه
robot.txt رو برای وبلاگ ها نمیشه بهینه سازی کرد
چون یه سایتی که داشتم وبلاگمو از طریق اون تو موتورای جستجو ثبت میگردم گفت روبات وبلاگت مشکل داره
آموزش خوبی بود
تشکر
خیلی عالی بود. دیروز مقالهای راجع به سئو خوندم که داخلش به این فایل اشاره شده بود میخواستم بعدا دنبالش برم که وقتی اومدم داخل این سایت دیدم شما توضیح دادین و همین الان خوندم. تو وقتم صرفه جویی شد ممنون.
خواهش می کنیم
فقط باقی میمونه یه سوال که این فایل رو کجای سایت بریزیم؟ هرجا باشه ایراد نداره؟ مثلا برای سایتهای وردپرس باید داخل پوشهی قالب باشه؟
برای هر پوشه ای که میخوای محدودیت ایجاد کنی باید تو همون پوشه بزاری . اگه برا کل سایت می خوای تو همون پوشه اول و کلی هاستت بزار .
برای وبلاگ میشه روبات رو بهینه کرد؟
راهی هست؟
سلام . در سرویس های وبلاگ دهی موجود معمولا اجازه آپلود فایل و در نتیجه استفاده از فایل روبات مقدور نیست .
درود بر شما بسیار عالی بود
ماژولی مثل نویسنده توی این سایت برای جوملا میخوام
هستش
سلام
باید بگردی . این ماژول نیست ه اینجا استفاده شده . از یه سری از توابع وردپرس استفاده کردم . مطمئنا اگه با وملا خوب آشنا باشی چنین چیزی داره .
با سلام و تشکر از مطالب آمزشی دقیق شما
ببخشید این مسئله رو می شه برای صفحاتی که گوگل ارور داده یعنی صفحات از سایت پاک شده بکار برد
بله میشه
مثل اینکه سایت گوگل از سایتهایی که روبتس تکست داشته باشن بدش میاد. چون من داشتم تو گوگل سرچ میکردم ، تو نتایج سرچ بر ای چندتا سایت نوشته بود اینها دارای فایل روبتس تکست هستند و نتایج آنها قابل مشاهده نیست. مثل اینکه گوگیل اونها رو تحریم بکنه. درسته چنین مطلبی؟ توضیح بدید و لطفا جواب رو به آدرس ایمیلم نیز بفرستید خواهشا.
سلام
خیر اینطور نیست . حتی گوگل در وبمستر تولز خودش قسمتی برای آنالیز این فایل داره .
اون سایت ها احتمالا بد استفاده کردند و تعداد زیادی از صفحات سایتشون رو با این فایل unFollow کردن !
خسته نباشید.
مطلب جالبی بود.