فایل robots.txt به شما کمک میکند تا روباتهای جستجوگر گوگل را کنترل و راهنمایی کنید! میپرسید چگونه؟ برای یافتن پاسخ تا انتهای این مقاله همراه ما باشید.
فایل robots.txt چیست؟
فرض کنید وارد موزهای شدهاید که هیچ اطلاعی در مورد اشیا موجود در آن ندارید. از طرفی به شدت مشتاق کشف این مکان تازه و بررسی همه جانبه هستید. در چنین موقعیتی ضرورت وجود راهنمای موزه بیش از هر زمان دیگری حس میشود. این فرد به شما کمک میکند تا به شکلی درست از موزه بازدید کنید و در انتهای روز علاوه بر یک تجربه عالی، از تمام امکانات و اشیای خاص دیدن کرده و اطلاعات جامعی کسب کنید.
اگر فرض کنیم وب سایت شما یک موزه باشد، فایل robots.txt نقش راهنمای موزه را برای روباتهای جستجوگر گوگل ایفا میکند. شاید سوال کنید چرا باید راهنمایی برای روباتهای گوگل وجود داشته باشد. در پاسخ باید بگوییم محتوای سایت شما علاوه بر کاربران عادی توسط روباتهای گوگل و در فواصل زمانی مختلف مورد بازدید قرار میگیرد. به این کار Crawl گفته میشود و دلیل آن یافتن صفحات جدید یا ایندکس کردن صفحات سایت است.
وقتی ما از فایل robot.txt که یک فایل متنی است کمک میگیریم، نحوه کراول کردن رباتها و ایندکس کردن صفحات در سایت را برای crawler به طور کامل مشخص میکنیم.
جالب است بدانید robots.txt از پروتکل REF یا Robots Exclusion Protocol ساخته شده که لینکهای فالو و نوفالو هم جزء همین پروتکل هستند.
فایل robots.txt چگونه کار میکند؟
برای درک بهتر عملکرد این فایل متنی بهتر است پیش از هر چیز نحوه عملکرد رباتهای گوگل را فرابگیریم. ببینید این رباتها به 2 شکل وب سایت ما را بررسی میکنند. روش اول بررسی لینکهاست و روش دوم هم بررسی فایل متنیrobot.txt
در روش اول یعنی بررسی لینک ها، رباتهای گوگل ابتدا وارد سایت میشوند و از طریق لینکهایی که در صفحه اصلی و منوی سایت قرار دارند، به صفحات جدید دسترسی پیدا میکنند و اگر صفحات جدید نیز دارای لینکهای داخلی بودند، آنها را دنبال میکنند.
به عبارت دیگر، رباتهای گوگل، لینکهای داخلی که در سایت قرار داده شده است را دنبال میکنند و با استفاده از آنها به تغییرات و صفحات جدیدِ سایت ما دسترسی پیدا میکنند؛ در نتیجه تصمیم میگیرند که صفحات جدید را Index کنند یا خیر.
اما در روش دوم که همان بررسی فایل robot.txt است، رباتها ابتدا به سراغ آن میروند و دستورات شما را به قول معروف مو به مو اجرا میکنند.
یعنی شما با استفاده از این فایل، صفحاتی که میخواهید از طریق گوگل بررسی شوند را انتخاب میکنید و رباتهای گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول میکنند.
چرا باید از فایل robots.txt استفاده کنیم؟
این فایل متنی قطعا باعث بهبود عملکرد سایت شما میشود چرا که در وهله اول از کنیبالیزیشن جلوگیری میکند. Cannibalization یا همنوع خواری زمانی رخ میدهد که دو یا چند صفحه از سایت ما برای یک کلمه کلیدی (شما بخوانید مفهوم کلیدی) یکسان یا چند کلمه کلیدی بسیار مشابه و نزدیک به یکدیگر بهینه شده باشند.
در این صورت گوگل نمیتواند تشخیص دهد که کدام یک از این صفحات پاسخ بهتری برای عبارت جستجو شده ارائه میدهند و هر دو آنها را در نتایج گوگل نمایش میدهد تا خود کاربر در این مورد تصمیمگیری کند. این اتفاق میتواند تأثیر منفی روی جایگاه و رتبه بندی صفحات سایت ما بگذارد.
مزیت دیگر این فایل، جلوگیری از ایندکس شدن فایلهای خاص در سایت شما است. فرض کنید در سایت شما فایلی وجود دارد که دوست ندارید ایندکس شود. این اتفاق معمولا در سایتهایی که فایلها یا دورههای آمورشی میفروشند زیاد اتفاق میافتد. با این دستور به سادگی میتوانید از نمایش آنها به رباتهای جستجوگر خودداری کنید.
دستورات موجود در فایل متنی robot.txt
خوشبختانه این فایل را فقط باید یکبار آماده کنید و دیگر کاری با آن نخواهید داشت مگر این که تغییرات مهمی در ساختار سایت ایجاد کنید.
دستورات بسیار کاربردی موجود در این فایل عبارتند از:
- User-agent
- Disallow
- AllowSitemap
- crawl-delay
نکته مهم:
[box type=”info” align=”aligncenter” class=”” width=””]برای استفاده از این فایل باید مطمئن باشید که محتواها یا بخشهایی از سایت که میخواهید کراول و ایندکس شوند را مسدود نکردهاید.[/box]
دستور User-agent
از این دستور برای هدف قرار دادن یک ربات خاص استفاده میشود. اضافه کردن کاراکتر * به ابتدای این دستور به معنای اعمال آن برای همه رباتها است.
نحوه استفاده:
User-agent:*
در نظر گرفتن همه رباتها
User-agent:*……bot
در نظر گرفتن یک ربات خاص
دستور Disallow
با دستور Disallow مشخص میکنید که رباتهای گوگل، کدام صفحات از وبسایت شما را crawl نکنند. در واقع کاربرد این دستور برای نمایش ندادن محتواهای مورد نظر در نتایج جستجوی گوگل است.
نحوه استفاده:
User-agent:*
Disallow: /file
دستور Allow
با این دستور میتوانید به رباتهای گوگل اجازه دهید تا به فولدری که قبلا دستور Disallow را روی آن اعمال کردید دسترسی پیدا کرده و فایل انتخابی شما را Crawl کنند.
نحوه استفاده:
User-agent:*
Disallow: /file
Allow: /file/X.jpg
دستور Sitemap
راههای دسترسی به نقشه سایت، مانند راههای رسیدن به خدا زیاد است! اما یکی از رایجترینِ آنها، نوشتن نقشه سایت در فایل robots.txt است. در ضمن با این روش، فایل نقشه سایت شما در موتورهای جستجوی مختلف مانند بینگ و فایرفاکس پشتیبانی میشود.
Crawl-delay
با این دستور مشخص میکنید که رباتهای خزنده باید چند ثانیه برای کراول کردن سایت شما صبر کنند. واضح است که این دستور میتواند روی سرعت لود شدن سایت شما تاثیر مستقیم بگذارد و در نتیجه باعث بهبود سئو سایت شما شود.
سخن پایانی…
همانطور که قطعا متوجه شدهاید، استفاده فایل متنی robot.txt جهت بهینه سازی برای موتورهای جستجو است. نمیتوان اهمیت سئو سایت را در یک کسب و کار آنلاین نادیده گرفت، پس بهتر است تمام مواردی که میتواند به سئو سایت ما کمک کند را جدی بگیریم.
یکی از مواردی که در سئو سایت تاثیرگذار است، سرعت مناسب هاست سایت است. در صورتی که علاقمند به استفاده از خدمات هاستینگ هستید، پیشنهاد میکنیم پلنهای میزبانی وب هاستیدا را مشاهده کنید. در صورتی که برای انتخاب هر یک از این خدمات سوالی داشتید از طریق تیکت یا تماس تلفنی میتوانید با کارشناسان ما در ارتباط باشید.