چگونه فایل robots.txt بسازیم؟

فایل robots.txt به شما کمک می‌کند تا روبات‌های جستجوگر گوگل را کنترل و راهنمایی کنید! می‌پرسید چگونه؟ برای یافتن پاسخ تا انتهای این مقاله همراه ما باشید.

فایل robots.txt چیست؟

فرض کنید وارد موزه‌ای شده‌اید که هیچ اطلاعی در مورد اشیا موجود در آن ندارید. از طرفی به شدت مشتاق کشف این مکان تازه و بررسی همه جانبه هستید. در چنین موقعیتی ضرورت وجود راهنمای موزه بیش از هر زمان دیگری حس می‌شود. این فرد به شما کمک می‌کند تا به شکلی درست از موزه بازدید کنید و در انتهای روز علاوه بر یک تجربه عالی، از تمام امکانات و اشیای خاص دیدن کرده و اطلاعات جامعی کسب کنید.

اگر فرض کنیم وب سایت شما یک موزه باشد، فایل robots.txt نقش راهنمای موزه را برای روبات‌های جستجوگر گوگل ایفا می‌کند. شاید سوال کنید چرا باید راهنمایی برای روبات‌های گوگل وجود داشته باشد. در پاسخ باید بگوییم محتوای سایت شما علاوه بر کاربران عادی توسط روبات‌های گوگل و در فواصل زمانی مختلف مورد بازدید قرار می‌گیرد. به این کار Crawl گفته می‌شود و دلیل آن یافتن صفحات جدید یا ایندکس کردن صفحات سایت است.

وقتی ما از فایل robot.txt که یک فایل متنی است کمک می‌گیریم، نحوه کراول کردن ربات‌ها و ایندکس کردن صفحات در سایت را برای crawler به طور کامل مشخص می‌کنیم.

جالب است بدانید robots.txt از پروتکل REF یا Robots Exclusion Protocol ساخته شده که لینک‌های فالو و نوفالو هم جزء همین پروتکل هستند.

فایل robots.txt چگونه کار می‌کند؟

برای درک بهتر عملکرد این فایل متنی بهتر است پیش از هر چیز نحوه عملکرد ربات‌های گوگل را فرابگیریم. ببینید این ربات‌ها به 2 شکل وب سایت ما را بررسی می‌کنند. روش اول بررسی لینک‌هاست و روش دوم هم بررسی فایل متنیrobot.txt

در روش اول یعنی بررسی لینک ها، ربات‌های گوگل ابتدا وارد ‌سایت می‌شوند و از طریق لینک‌هایی که در صفحه اصلی و منوی سایت قرار دارند، به صفحات جدید دسترسی پیدا می‌کنند و اگر صفحات جدید نیز دارای لینک‌های داخلی بودند، آن‌ها را دنبال می‌کنند.

به عبارت دیگر، ربات‌های گوگل، لینک‌های داخلی که در سایت قرار داده شده است را دنبال می‌کنند و با استفاده از آن‌ها به تغییرات و صفحات جدیدِ سایت ما دسترسی پیدا می‌کنند؛ در نتیجه تصمیم می‌گیرند که صفحات جدید را Index کنند یا خیر.

اما در روش دوم که همان بررسی فایل robot.txt است، ربات‌ها ابتدا به سراغ آن می‌روند و دستورات شما را به قول معروف مو به مو اجرا می‌کنند.

یعنی شما با استفاده از این فایل، صفحاتی که می‌خواهید از طریق گوگل بررسی شوند را انتخاب می‌کنید و ربات‌های گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول می‌کنند.

چرا باید از فایل robots.txt استفاده کنیم؟

این فایل متنی قطعا باعث بهبود عملکرد سایت شما می‌شود چرا که در وهله اول از کنیبالیزیشن جلوگیری می‌کند. Cannibalization یا هم‌نوع خواری زمانی رخ می‌دهد که دو یا چند صفحه از سایت ما برای یک کلمه کلیدی (شما بخوانید مفهوم کلیدی) یکسان یا چند کلمه کلیدی بسیار مشابه و نزدیک به یکدیگر بهینه شده باشند.

در این صورت گوگل نمی‌تواند تشخیص دهد که کدام یک از این صفحات پاسخ بهتری برای عبارت جستجو شده ارائه می‌دهند و هر دو آن‌ها را در نتایج گوگل نمایش می‌دهد تا خود کاربر در این مورد تصمیم‌گیری کند. این اتفاق می‌تواند تأثیر منفی روی جایگاه و رتبه بندی صفحات سایت ما بگذارد.

مزیت دیگر این فایل، جلوگیری از ایندکس شدن فایل‌های خاص در سایت شما است. فرض کنید در سایت شما فایلی وجود دارد که دوست ندارید ایندکس شود. این اتفاق معمولا در سایت‌هایی که فایل‌ها یا دوره‌های آمورشی می‌فروشند زیاد اتفاق می‌افتد. با این دستور به سادگی می‌توانید از نمایش آن‌ها به ربات‌های جستجوگر خودداری کنید.

دستورات موجود در فایل متنی robot.txt

خوشبختانه این فایل را فقط باید یک‌بار آماده کنید و دیگر کاری با آن نخواهید داشت مگر این که تغییرات مهمی در ساختار سایت ایجاد کنید.

دستورات بسیار کاربردی موجود در این فایل عبارتند از:

User-agent
Disallow
AllowSitemap
crawl-delay

نکته مهم:

[box type=”info” align=”aligncenter” class=”” width=””]برای استفاده از این فایل باید مطمئن باشید که محتواها یا بخش‌هایی از سایت‌ که می‌خواهید کراول و ایندکس شوند را مسدود نکرده‌اید.[/box]

دستور User-agent

از این دستور برای هدف قرار دادن یک ربات خاص استفاده می‌شود. اضافه کردن کاراکتر * به ابتدای این دستور به معنای اعمال آن برای همه ربات‌ها است.

نحوه استفاده:

User-agent:*

در نظر گرفتن همه ربات‌ها

User-agent:*……bot

در نظر گرفتن یک ربات خاص

دستور Disallow

با دستور Disallow مشخص ‌می‌کنید که ربات‌های گوگل، کدام صفحات از وب‌سایت شما را crawl نکنند. در واقع کاربرد این دستور برای نمایش ندادن محتواهای مورد نظر در نتایج جستجوی گوگل است.

نحوه استفاده:

User-agent:*

Disallow: /file

دستور Allow

با این دستور می‌توانید به ربات‌های گوگل اجازه دهید تا به فولدری که قبلا دستور Disallow را روی آن اعمال کردید دسترسی پیدا کرده و فایل انتخابی شما را Crawl کنند.

نحوه استفاده:

User-agent:*

Disallow: /file

Allow: /file/X.jpg

دستور Sitemap

راه‌های دسترسی به نقشه سایت، مانند راه‌های رسیدن به خدا زیاد است! اما یکی از رایج‌ترینِ آن‌ها، نوشتن نقشه سایت در فایل robots.txt است. در ضمن با این روش، فایل نقشه سایت شما در موتورهای جستجوی مختلف مانند بینگ و فایرفاکس پشتیبانی می‌شود.

Crawl-delay

با این دستور مشخص می‌کنید که ربات‌های خزنده باید چند ثانیه برای کراول کردن سایت شما صبر کنند. واضح است که این دستور می‌تواند روی سرعت لود شدن سایت شما تاثیر مستقیم بگذارد و در نتیجه باعث بهبود سئو سایت شما شود.

سخن پایانی…

همانطور که قطعا متوجه شده‌اید، استفاده فایل متنی robot.txt جهت بهینه سازی برای موتورهای جستجو است. نمی‌توان اهمیت سئو سایت را در یک کسب و کار آنلاین نادیده گرفت، پس بهتر است تمام مواردی که می‌تواند به سئو سایت ما کمک کند را جدی بگیریم.

یکی از مواردی که در سئو سایت تاثیرگذار است، سرعت مناسب هاست سایت است. در صورتی که علاقمند به استفاده از خدمات هاستینگ هستید، پیشنهاد می‌کنیم پلن‌های میزبانی وب هاستیدا را مشاهده کنید. در صورتی که برای انتخاب هر یک از این خدمات سوالی داشتید از طریق تیکت یا تماس تلفنی می‌توانید با کارشناسان ما در ارتباط باشید.

چگونه فایل robots.txt بسازیم؟

فایل robots.txt چیست؟

فایل robots.txt چگونه کار می‌کند؟

چرا باید از فایل robots.txt استفاده کنیم؟

دستورات موجود در فایل متنی robot.txt

دستور User-agent

دستور Disallow

دستور Allow

دستور Sitemap

Crawl-delay

سخن پایانی…

راهنمای جامع انتخاب نام برند

چرا ساختن سایت برای کسب‌وکار شما ضروری است؟

برند شخصی + مسیر ساخت و بهبود

مقایسه برترین ابزارهای هوش مصنوعی برای تولید تصاویر

بهترین ابزارهای تحلیلگر شبکه‌های اجتماعی