Robot.txt چیست؟ چطور مشکلات پهنای باند را رفع می کند؟

این تاپیک 1 پاسخ و 2 مشارکت کننده دارد . آخرین آپدیت توسط :  Hiva ،‏ 7 ماه و 2 هفته پیش .

۲۲۷ visibility
نویسنده پست
سه شنبه ، ۲۲ اسفند ۱۳۹۶     ۳:۲۹ ب.ظ #


ehsan nasr

Subscriber
2 پست150 تاپیک

همانطور که قبلا نیز توضیح دادیم یکی از دلائلی که ممکن است باعث تمام شدن پهنای باند شود میزان حجم مصرفی توسط موتورهای جستجوگر می باشد.
زمانیکه نمی خواهیم صفحاتی از سایتمان (خرید هاست) توسط موتورهای جستجو (ربات های خزنده) بررسی و ایندکس شود یکی از راه های ان طراحی فایل robots.txt می باشد. با طراحی این فایل به موتورهای جستجو اجازه نمی دهیم که برای index کردن به سایت ما مراجعه کنند و یا مراجعه آنها را کمتر می کنیم.
بدین وسیله می توان تا حدودی رفتار ربات ها را در نحوه جستجو و ایندکس صفحات مدیریت کرد.
ربات های گوگل ربات هایی هستند که به صورت خودکار سراسر وب را جستجو می کنند.
در ابتدا به این مورد دقت کنید ، تنها ربات های برخی سایت ها و شرکت های معروف و معتبر به این قوانین احترام می گذارند و برخی حتی برای نفوذ به صفحات سایت ها، از این فایل حتی سوء استفاده نیز می کنند. این نکته دارای اهمیت زیادی است که هیچ گاه برای محافظت از دایرکتوری هایی مانند مدیریت سایت، به این فایل اکتفا نکنید و بهتر است آدرس دایرکتوری مدیریت را نیز در آن قرار ندهید.
فایل robots.txt برای نمایش به عموم آزاد می باشد. بنابراین همه می توانند تنظیمات اعمال شده توسط شما را در این فایل مشاهده نمایند. برای حفظ امنیت اطلاعات بهتر است از فایل های شخصی بر روی سرور خود محافظت کنید و پسورد های امن استفاده کنید و موارد دیگر که در در مقالات گذشته در مورد آنها صحبت شده است.
در ادامه به چگونگی انجام این کار و طراحی این فایل تا حدودی آشنا خواهیم شد.
فایل robots.txt یک فایل متنی ساده است که می توان آن را مثلا با notepad ایجاد و با فرمت txt ذخیره نمود، این فایل در ریشه سایت قرار می گیرد. و قسمتهایی از سایت که شما نمی خواهید توسط موتور های جستجو دیده شود را نشان میدهد.
مزایای این فایل خروج استاندارد روبات ها می باشد . این پروتکل مجموعه ای از دستورات است که برای انواعی از خزنده های وب مورد استفاده قرار می گیرد.
یک فایل robots.txt معمولا از دو دستور ساده پیروی می کند :
User-agent (نوع خزنده یا ربات) ، واژه ی Disallow یا allow که دسترسی را مجاز یا غیر مجاز می کنیم.
Disallow : این واژه به معنی عدم اجازه می باشد و به موتور جستجو می فهماند که اجازه دسترسی به پوشه و یا فایل مورد نظر را ندارد ، در نتیجه موتور جستجو فایل هایی با این شرایط را را جستجو نمی کند.
Allow : محدوده ی آزاد برای جستجو را تعریف میکند.
User-agent : محدوده کسانی که اجازه جستجو برایشان مسدود یا باز شده است . در واقع نوع ربات را مشخص می کنید.

به چند نکته ی زیر برای طراحی این فایل دقت کنید:
در ابتدای آدرس دایرکتوری ها، باید از یک اسلش (/) نیز استفاده شود ، دقت کنید که در ابتدای آدرس (ثبت دامنه) ،‌ حتما / را وارد کنید ، ‌در غیر اینصورت کد عمل نخواهد کرد.
در استفاده از حروف بزرگ یا کوچک دقت کنید.
دراین فایل کد وعلائم جدا کننده خاص مثل <> نیاز ندارد.
هر تکه از دستورات باید در یک سطر جدا باشد.
برای مشاهده ی نمونه فایل robot.txt می توانید لینک های زیر را مشاهده کنید:
https://www.pouyasazan.org/robots.txt
https://www.google.com/robots.txt

منبع: وبلاگ پویاسازان

0  تشکر
سه شنبه ، ۱۴ فروردین ۱۳۹۷     ۲:۱۹ ق.ظ #


Hiva

Subscriber
11 پست0 تاپیک

سلام

مقاله خیلی خوبی بود و خیلی هم خوب به مبحث قالب وردپرس اشاره کردی، من خودم به عنوان حرف آخر به همه توصیه میکنم برای سایتشون توجه ویزه ای به این فایل داشته باشند. ما خودمون یک سایت فروشگاه معماری داریم که با این فایل تونستیم خیلی از مشکلاتش رو حل کنیم.

0  تشکر
پست 1 تا 2 (از مجموع 2 پست)

برای پاسخ دادن به این تاپیک باید وارد سایت شوید .