فایل Robots.txt چیست؟

Robots.txt
برنامه نویسی مقالات

فایل Robots.txt چیست؟

Robots.txt همانطور که همه‌ی ما می‌دانیم، ربات‌های موتورهای جستجو پررنگ‌ترین نقش ممکن برای معرفی کامل یک سایت به موتورهای جستجو را ایفا می‌کنند. گوگل به عنوان بزرگترین مرجع و گسترده‌ترین شبکه در این زمینه، ربات‌های اختصاصی و عمومی زیادی گسترش داده است. وب‌مسترهای موفق همواره عملکرد و تغییرات این ربات‌ها را دنبال کرده و مطابق با استانداردهای آنان پیشروی می‌کنند.

اما این ربات‌ها به چه صورت به سایت‌های گوناگون دسترسی پیدا می‌کنند؟ چطور می‌توان دسترسی این ربات‌ها به محتوا یا صفحات خاصی از سایتمان را محدود کنیم یا به آن‌ها دسترسی کامل بدهیم؟ برای این مورد، تکنیکی ساده و در عین حال فوق‌العاده مهم و حیاتی وجود دارد.

این تکنیک، استفاده از یک فایل متنی موسوم به Robots.txt است که با کمک آن و درج دستورات تحت وب می‌توان کارهای مختلفی از جمله ایجاد دسترسی یا محدودسازی ربات موتورهای جستجو را انجام داد.

اهمیت و بهینه‌سازی این فایل می‌تواند نقش بسیار مفیدی در پیشرفت سایت اینترنتی شما داشته باشد و درست برعکس، بی‌توجهی و بی‌دقتی در کار با آن، ممکن است به راحتی رتبه سایت شما را چندین برابر بدتر کند. ما در این مقاله از تدریس24 قصد داریم تا شما را با ماهیت فایل‌های Robots.txt آشنا کرده و اهمیت بسیار زیاد آن‌ها برای کسب موفقیت بهتر در فرآیندهای سئو به شما بازگو کنیم.

فایل Robots.txt چیست؟

 

یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار می‌گیرد. در حقیقت وظیفه این فایل معرفی بخش‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها یا با تعریفی دقیق‌تر، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایت‌ها ایجاد شده اند می‌باشد.

با درج دستوراتی خاص در این فایل، شما می‌توانید به ربات‌های موتورهای جستجو بگوئید که کدام صفحات، کدام فایل‌ها و کدام بخش‌های سایت شما را دیده و آن‌ها را ایندکس کنند و کدام صفحات را نادیده بگیرند. به عبارت دیگر، اولین چیزی که ربات‌های موتورهای جستجو با آن برخورد می‌کنند، همین فایل Robots.txt است. به محض رویارویی با این فایل، خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخش‌های قابل دسترسی را پیدا کنند.

Robots.txt
چرا باید فایل Robots.txt داشته باشیم؟

Robots.txtصاحبان وبسایت و وبمسترها می‌توانند ورود ربات‌ها به وبسایت را از راه‌های مختلفی کنترل کنند. کنترل کردن هم دلایل مختلفی دارد.

مثلاً تمام صفحات یک سایت از درجه اهمیت یکسانی برخوردار نیستند. بیشتر وب‌مسترها علاقه‌ای ندارند تا پنل مدیریت وب‌سایت‌شان در موتورهای جستجوگر ایندکس شود و در اختیار عموم قرار گیرد یا اینکه برخی از صفحات سایت‌شان محتوای قابل قبولی ندارد و به همین دلیل ترجیح می‌دهند آن صفحات توسط ربات‌ها بررسی نشوند. یا اگر وبسایتی دارید که هزاران صفحه دارد و بازدید کل سایت هم زیاد است، احتمالاً دوست ندارید منابع سرور شما (پهنای باند، قدرت پردازشی و ..) برای بازدید‌های پشت سرهم ربات‌ها مصرف شود.

اینجا است که فایل Robots.txt نقش‌آفرینی می‌کند.

در حال حاضر، هدف اصلی فایل ربات محدود کردن درخواست‌های بیش از حد بازدید از صفحات وبسایت است. یعنی اگر ربات‌ها می‌‌خواهند روزی شونصد بار یک صفحه را بررسی کنند، ما با نوشتن یک دستور ساده در فایل Robot جلوی آنها را می‌گیریم تا بفهمند رئیس کیست!

آیا با فایل Robots.txt می‌توان صفحه‌ای را از نتایج جستجو حذف کرد؟

Robots.txtتا همین چند وقت پیش اگر می‌خواستید صفحه‌ای را به طور کامل از دید ربات‌های گوگل دور کنید و حتی در نتایج جستجو دیده نشود.، با دستور noindex در همین فایل امکان‌پذیر بود اما حالا کمی داستان پیچیده‌تر شده است.این فایل برای دور نگهداشتن صفحه‌ها از موتور جستجوی گوگل کمک زیادی به حذف صفحه از نتایج جستجو نمی‌کند.

گوگل اعلام کرد که برای حذف صفحه‌ها از نتایج جستجو، بهتر است از را‌ه‌های دیگری به جز فایل Robots.txt استفاده کنید. البته در حال حاضر می‌توان از این فایل برای خارج کردن فایل‌هایی مثل تصاویر، ویدیو یا صدا از نتایج جستجو استفاده کنید اما برای صفحات وب مناسب نیست.

چرا فایل Robots.txt مهم است؟

این فایل به چند دلیل اهمیت دارد:

۱. مدیریت ترافیک ربات‌ها به وبسایت

Robots.txt مدیریت ترافیک ربات‌ها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای ربات‌ها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبان‌های وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای ربات‌ها مقرون به صرفه نیست.

۲. جلوگیری از نمایش صفحات یا فایل‌ها در نتایج جستجوی گوگل

اگر در فایل Robots دستور دهید که ربات‌های گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمی‌شوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود.  امکان دارد ربات‌ها از طریق لینک‌هایی که به همان صفحه داده شده‌اند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند.

در حال حاضر بهترین راه برای حذف صفحه‌ای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحه‌ها است. اگر از وردپرس استفاده می‌کنید افزونه‌هایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کد‌ها یا دستورات در قسمت هد هر صفحه فراهم کند.

۳. مدیریت Crawl Budget

هرچه تعداد صفحات وبسایت شما بیشتر باشد، ربات‌های موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایت‌تان در نتایج جستجو، تاثیر منفی خواهد گذاشت.

چرا؟ ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است.

Crawl Budget در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود.

Crawl Budget به دو بخش تقسیم می‌شود. اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. خب ببینیم معنی هر کدام چیست و چه تاثیری دارند.

  • Crawl Rate Limit

ربات گوگل (Googlebot)، به شکلی طراحی شده است تا شهروند خوبی برای دنیای اینترنت باشد. خزیدن، اولویت اصلی این ربات است پس طوری طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد. این بهینه‌سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود می‌کند.

Robots.txt به طور خلاصه، Crawl Rate Limit نشانگر دفعات ارتباط همزمان ربات گوگل با یک سایت در کنار دفعات توقف این ربات در عملیات خزش یا Crawling وب‌سایت است. نرخ خزش (Crawl Rate) می‌تواند بر اساس چند عامل تغییر کند:

سلامت خزش (Crawl Health): اگر وب‌سایت سریع باشد و بتواند سیگنال‌ها را به سرعت پاسخ دهد، مطمئناً Crawl Rate بالا می‌رود، اما اگر وب‌سایت شما کند باشد یا در حین Crawl خطاهای سروری به وجود بیاید، نرخ خزش ربات گوگل کاهش می‌یابد.

تعیین محدودیت در Google Search Console: صاحبات وب‌سایت‌ها می‌توانند میزان خزش وب‌سایت‌شان را کاهش دهند.

خب، هنوز Crawl Budget را به یاد دارید؟ بخش دوم آن، Crawl Demand نام دارد. گوگل Crawl Demand را به این شکل توضیح می‌دهد:

  • Crawl Demand

حتی اگر ربات گوگل به حد Crawl Rate تعیین شده نرسد، در صورتی که تقاضایی برای ایندکس شدن وجود نداشته باشد، شما شاهد فعالیت کمی از سوی ربات گوگل خواهید بود. دو فاکتوری که نقش مهمی در تعیین Crawl Demand (تقاضای خزش) دارند، عبارتند از:

محبوبیت: یعنی آدرس‌هایی که در اینترنت محبوب‌تر هستند، بیشتر از دیگر آدرس‌ها خزیده می‌شوند تا در ایندکس گوگل تازه‌تر باشند.

بیات شدن! (Staleness): گوگل طوری آدرس‌ها را ذخیره می‌کند که از قدیمی شدن آنها جلوگیری کند.

به علاوه، اتفاقاتی که بر کل سایت تاثیر می‌گذارند مانند جا‌به‌جایی وب‌سایت، ممکن است میزان Crawl Demand را جهت ایندکس دوباره وب‌سایت بر روی آدرس جدید، افزایش دهند.

در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وب‌سایت را تعریف می‌کنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند.

خب، بیایید تعریف گوگل از Crawl Budget را یکبار دیگر بخوانیم:

 Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند

مطمئناً شما هم می‌خواهید ربات گوگل Crawl Budget سایت‌تان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهم‌ترین صفحات شما را بهتر و بیشتر بررسی کند.البته گوگل می‌گوید که عوامل و فاکتورهایی وجود دارند که روی عملیات خزش و ایندکس شدن سایت، تاثیر منفی می‌گذارند:

  • محتوای تکراری در سایت
  • وجود صفحات خطا
  • استفاده از Session Identifier
  • وجود ناوبری ضعیف در سایت
  • صفحات هک شده در وب‌سایت
  • محتوای بی‌ارزش و اسپم

دیدگاه خود را اینجا قرار دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اعضا

‫بروز رسانی

سمیرا مردانی's بروزسانی مشخصات انجام شد 1 سال, ماه 6 قبل

محمد جواد محمدی's بروزسانی مشخصات انجام شد 1 سال, ماه 6 قبل

مریم نوری's بروزسانی مشخصات انجام شد 1 سال, ماه 6 قبل

محمد امین طاهری's بروزسانی مشخصات انجام شد 1 سال, ماه 6 قبل

نگار حجتی's بروزسانی مشخصات انجام شد 1 سال, ماه 6 قبل

فیلدهای نمایش داده شده را انتخاب کنید. دیگران مخفی خواهند شد. برای تنظیم مجدد سفارش ، بکشید و رها کنید.
  • عکس
  • شناسه محصول
  • امتیاز
  • قیمت
  • در انبار
  • موجودی
  • افزودن به سبد خرید
  • توضیحات
  • محتوا
  • عرض
  • اندازه
  • تنظیمات بیشتر
  • ویژگی ها
  • ویژگی های سفارشی
  • زمینه های دلخواه
برای پنهان کردن نوار مقایسه ، بیرون را کلیک کنید
مقایسه
مقایسه ×
Let's Compare! Continue shopping