آموزش و اخبار

رهگیری بودجه خزش سایت؛ بودجه خزش سایت چگونه مصرف می‌شود؟

بودجه خزش

بودجه خزش یا “Crawl Budget” به مقدار زمانی که موتورهای جستجو مانند گوگل برای خزش و بررسی صفحات یک سایت خاص اختصاص می‌دهند، اشاره دارد. این مفهوم برای بهینه‌سازی SEO بسیار مهم است، زیرا تأثیر زیادی بر روی نحوه نمایان شدن صفحات سایت در نتایج جستجو دارد. برای مدیریت بهتر کراول باجت نیاز است بدانیم که بوجه خزش چگونه مصرف می‌شود تا بتوانیم آن را بهینه کنیم که در این خصوص نیاز است به بخش crawl stats در سرچ کنسول مراجعه کنیم. در این مقاله از آموزش سرچ کنسول همراه ما باشید:

معرفی بخش crawl request سرچ کنسول

نمودار “Crawl Status” که در ابزار تجزیه و تحلیل وب مانند Google Search Console نمایش داده می‌شود، وضعیت خزیدن (Crawling) موتورهای جستجو مانند گوگل را نشان می‌دهد. از این نمودار می‌توان به چندین نکته کلیدی پی برد:

بررسی مصرف بودجه خزش سایت
  • total crawl request : در گوگل سرچ کنسول، “Total Crawl Requests” به تعداد کل درخواست‌هایی اشاره دارد که ربات‌های گوگل (Googlebot) برای خزیدن و بررسی صفحات وب‌سایت شما ارسال کرده‌اند. این اطلاعات به شما کمک می‌کند تا درک بهتری از نحوه ایندکس شدن وب‌سایت‌تان و تعامل ربات‌های گوگل با محتوای شما پیدا کنید.
  • total download size: در سرچ کنسول گوگل (Google Search Console)، “total download size” یا “حجم کل دانلود” به مقدار کل داده‌هایی اشاره دارد که از سوی کاربران هنگام بارگذاری صفحات وب سایت شما دانلود می‌شود. این اطلاعات می‌تواند شامل اندازه صفحات HTML، تصاویر، CSS، JavaScript و سایر منابعی باشد که برای بارگذاری یک صفحه وب نیاز است. این معیار می‌تواند به شما کمک کند تا بفهمید که آیا حجم دانلود صفحات شما زیاد است یا خیر و آیا ممکن است بر روی سرعت بارگذاری سایت و تجربه کاربری تأثیر بگذارد. کاهش حجم دانلود می‌تواند با مواردی مانند فشرده‌سازی تصاویر، استفاده از CSS و JavaScript فشرده بهینه سازی شود.
  • average response time: میانگین زمان پاسخ (average response time) در سرچ کنسول به معنای مدت زمانی است که سرور شما برای پاسخ به درخواست‌های کاربران نیاز دارد. این متریک به طور خاص برای سنجش سرعت وب‌سایت شما اهمیت دارد و نشان‌دهنده کارایی سرور شما در ارائه محتوا به بازدیدکنندگان است. زمان پاسخ بالا می‌تواند به دلایل مختلفی شامل بار زیاد بر روی سرور، بهینه نبودن کدها، استفاده از افزونه‌های سنگین و… رخ دهد و ممکن است منجر به تجربه کاربری نامطلوب و کاهش رتبه در نتایج جستجو شود.

معرفی host status

“Host status” در گوگل سرچ کنسول به وضعیت کلی سایت شما در اینترنت اشاره دارد. این مورد به بررسی مشکلات موجود در دسترسی به وب‌سایت شما و وضعیت سرور آن مربوط می‌شود و خزیدن بات‌های گوگل را بر طبق 4 پارامتر دسته بندی می‌کند:

  • دسترسی نداشتن به سرور
  • زمان بارگذاری (Load Time)
  • خطاهای 404 (صفحه پیدا نشد)
  • زمان پاسخ سرور

بررسی وضعیت میزبان (Host Status) می‌تواند به شما کمک کند تا مشکلات احتمالی را شناسایی کرده و بهبودهایی را در عملکرد وب‌سایت خود اعمال کنید.

با کلیک بر روی هاست، می‌توان وارد بخش مهمی شد که در آن می‌توان مشکلات هاست را به صورت مجزا مشاهده کرد:

مصرف کراول باجت سایت
مصرف کراول باجت

به صورت کلی وضعیت هاست با 3 پیام قابل مشاهده است:

نرخ خزش

پیام اول به این معناست که هاست در طی 90 روز گذشته هیچ مشکلی نداشته است.

پیام دوم به این معناست که ممکن است هاست با مشکل موقتی مواجه شده باشد که هم اکنون رفع شده است.

پیام سوم به این معناست که هنگام کراول بات گوگل مشکل جدی وجود داشته است.

حال اگر به قسمت Details دقت کنید، سه بخش مهم را مشاهده خواهید کرد، در حالت ایده‌ال هر سه پارامتر باید تیک سبز داشته باشند:

  • robots.txt fetch

این پارامتر نشان می‌دهد که آیا کراول بات گوگل هنگام درخواست فایل robots.txt با مشکل مواجه شده است، یا خیر! در نمودار این پارامتر، خط نمودار باید به صفر نزدیک باشد، هر چه خط نمودار به عدد نزدیک‌تر باشد به این معناست که مشکلی وجود دارد.

نرخ کراول
  • DNS resolution

این نمودار باید روی صفر باشد و اگر به سمت نقطه چین نزدیک باشد نشان از وجود مشکل است. در حالت کلی زمانی DNS دچار مشکل می‌شود که یا نتواند نام هاست را تشخیص بدهد و یا نتواند پاسخ دهد.

بودجه کراول
  • Server connectivity

این پارامتر برای بررسی اتصال سرور به کار می‌رود و نشان می‌دهد آیا ربات گوگل هنگام خزش سایت با مشکل اتصال سرور مواجه شدند، یا خیر! در صورتی که سرور پاسخگو نباشد، این نمودار به سمت نقطه چین نزدیک خواهد شد و اگر دارای قله باشد، می‌توانید با مشاهده تاریخ آن، علت عدم پاسخگویی سرور را از هاستینگ خود جویا شوید.

نرخ خزش

نحوه مصرف کراول باجت در سایت

کراول باجت (Crawl Budget) به مقدار زمان و منابعی اشاره دارد که موتورهای جستجو برای خزش و بررسی صفحات یک وب‌سایت اختصاص می‌دهند. این موضوع به کیفیت و ساختار وب‌سایت و همچنین نوع و تنوع محتوای آن بستگی دارد. در ادامه، نحوه مصرف بودجه خزش بر اساس نوع محتوا توضیح داده می‌شود:

مصرف بودجه خزش بر اساس نوع محتوا

1. محتوای جدید (Discovery)

این قسمت بیان گر این است که چند درصد بودجه خزش صرف کراول صفحاتی شده است که گوگل قبلا یوآرال آن ها را کراول نکرده است. محتوای جدید باید به‌طور مداوم و منظم ایجاد و منتشر شود تا موتورهای جستجو مانند گوگل بتوانند به سرعت به آن دسترسی پیدا کنند که نیاز است به موارد زیر توجه کنید:

ایجاد نقشه سایت (Sitemap): اطمینان حاصل کنید که نقشه سایت شما به‌روز و شامل تمام صفحات جدید است.

لینک‌های داخلی: با لینک‌دهی به محتوای جدید از صفحات دیگر وب‌سایت، به موتورهای جستجو کمک می‌کنید تا آن‌ها را شناسایی کنند.

به‌روزرسانی‌های مداوم: به‌روزرسانی‌های مداوم و مرتبط با محتوا می‌تواند شانس خزش صفحات جدید را افزایش دهد.

۲. محتوای قدیمی (Refresh)

این قسمت بیانگر این است که چند درصد بودجه خزش به کراول شدن محتوا هایی اختصاص داده شده است که گوگل، یوآرال آن ها را قبلا کراول کرده بوده است. محتوای قدیمی نیاز به به‌روزرسانی و بازنگری دارد تا دوباره توسط موتورهای جستجو کراول شود. به همین دلیل توجه به موارد زیر مهم تلقی می‌شود:

بازنگری و به‌روزرسانی مداوم: محتوای قدیمی را با اطلاعات جدید به‌روزرسانی کنید. این کار می‌تواند باعث جذب دوباره توجه موتورهای جستجو شود.

اضافه کردن اطلاعات جدید: اضافه کردن نکات و جزئیات جدید به محتوای قدیمی موجب آن می‌شود که این صفحات دوباره خزش شوند.

حذف محتوای بی‌کیفیت یا قدیمی: محتوای غیرضروری و بی‌کیفیت را از سایت حذف کنید تا بودجه خزش به صفحاتی که ارزش بیشتری دارند، اختصاص داده شود.

مصرف بودجه خزش بر اساس کد پاسخ

مصرف بودجه خزش (Crawl Budget) در گوگل به حجم صفحه‌هایی اشاره دارد که ربات‌های گوگل می‌توانند در یک دوره زمانی مشخص از سایت شما بازدید کنند. این موضوع به عوامل مختلفی بستگی دارد که از جمله می‌توان به موارد زیر اشاره کرد:

  • OK (200) : این کد نشان‌دهنده این است که صفحه به درستی بارگذاری شده و می‌تواند به ربات‌ها اجازه دهد تا محتوای آن را بررسی کنند و در صورت نیاز آن را ایندکس کنند.
  • (301) Moved permanently : این کد نشان دهنده هدایت کاربران و ربات‌ها به صفحات دیگر است. استفاده صحیح از این هدایت‌ها می‌تواند به بهبود مصرف بودجه خزش کمک کند.
  • Moved temporarily(302): این کد مانند ۳۰۱ نشان دهنده برای هدایت کاربران و ربات‌ها به صفحات دیگر است.
  • (404)Not found : این کد نشان‌دهنده این است که صفحه مورد نظر وجود ندارد. اگر صفحات زیادی از سایت شما این کد را برگردانند، ممکن است بر بودجه خزش تاثیر منفی بگذارد، زیرا ربات‌ها وقت بیشتری را صرف صفحات غیرموجود می‌کنند.
  • Page could not be reached: این خطا در سرچ کنسول گوگل به این معناست که گوگل نتوانسته به صفحه خاصی از وب‌سایت شما دسترسی پیدا کند.
  • robots.txt not available: این پیغام در گوگل سرچ کنسول به این معناست که گوگل نمی‌تواند فایل robots.txt سایت شما را پیدا کند. فایل robots.txt برای صدور دستورات به ربات‌های موتور جستجو درباره اینکه چه صفحاتی از سایت شما باید فهرست‌برداری شوند و چه صفحاتی نباید فهرست‌برداری شوند، استفاده می‌شود.
  • Other client error (4XX): به طور کلی به خطاهایی اشاره دارد که متقاضی (مشتری) نتوانسته است درخواست خود را به درستی ارسال کند یا سرور به درخواست او پاسخ نداده است.
  • Server error (5XX): این کد نشان‌دهنده وجود مشکل در سرور هنگام تلاش برای بارگذاری صفحه است. این نیز می‌تواند بر بودجه خزش تاثیر منفی بگذارد.
  • DNS error: به مشکلاتی اشاره دارد که مربوط به پاسخ دهی نام دامنه شما است. این خطا می‌تواند نشان‌دهنده مشکلات متعددی باشد که می‌توانند بر روی قابلیت دسترسی وب‌سایت شما تأثیر بگذارند.
  • (304) Not modified: در واقع به این معنی است که منابع (مانند صفحات وب یا فایل‌ها) که کاربر درخواست کرده است، از آخرین بار که درخواست شده‌اند، تغییر نکرده‌اند. به عبارت دیگر، این کد به مرورگر یا کلاینت می‌گوید که نسخه کش شدهٔ محتوای مورد نظر همچنان معتبر است و نیازی به بارگذاری دوباره آن از سرور نیست.

مصرف بودجه خزش بر اساس نوع فایل

در سرچ کنسول امکان مشاهده مصرف بودجه خزش بر اساس نوع فایل وجود دارد. در یک وب‌سایت فایل تایپ‌های مختلفی از قبیل html,css,image و.. وجود دارد که میزان خاصی از بودجه خزش ربات‌های گوگل را به خود اختصاص می‌دهند. بنابراین دانستن این نکته که بیشترین بودجه خزش صرف چه نوع فایلی شده است از اهمیت بالایی برخوردار است:

  • Html

نشان می‌دهد که چه تعداد صفحه HTML خزش شده‌اند و آیا صفحات مهم‌تر از دیگر صفحات بهتر تحت پوشش قرار گرفته‌اند یا خیر. اگر به نمودار این بخش وارد شوید، می‌توانید زمان خزش و آدرس دقیق صفحه و همچنین وضعیت صفحه را به صورت کامل مشاهده کنید.

بودجه کراول
  • Image

بیانگر این است که ربات‌های گوگل چندبار درخواست برای ایندکس شدن عکس‌ها داشته است و هم‌اکنون عکس‌ها با چه آدرسی در چه وضعیتی هستند. چنانچه یک فایل عکس برای ایندکس شدن دچار مشکل شده باشد در این بخش قابل مشاهده خواهد بود.

کراول عکس ها
  • java script

اگر سایت شما به شدت وابسته به جاوا اسکریپت برای بارگذاری محتوا باشد، خزنده‌های گوگل ممکن است نتوانند به راحتی محتوای شما را ایندکس کنند. این می‌تواند منجر به بالا رفتن زمان بارگذاری و در نهایت کاهش صفحات خزش شده شود. اگر فایل‌های جاوا اسکریپت شما بزرگ و پردازش آن‌ها پیچیده باشد، خزنده‌ها ممکن است نتوانند به سرعت آن‌ها را پردازش کنند و در نتیجه تعداد صفحات کمتری از سایت شما ایندکس می شوند. این نمودار می‌تواند اطلاعات دقیق‌تری در این زمینه ارائه دهد.

کراول جاوااسکریپت
  • css

این قسمت بیانگر این است که چند درصد از بودجه خزش سایت صرف کراول کردن فایل های استایل شده است.

  • Syndication

در قسمت «Syndication» (یا همان «سندیکیشن») معمولاً اطلاعاتی در مورد صفحات و محتوای منتشر شده از سایت شما در سایر وب‌سایت‌ها و پلتفرم‌ها ارائه می‌شود و میزان دسترسی ربات گوگل به این فایل‌ها از طریق نمودار قابل مشاهده است.

کراول بر اساس نوع فایل
  • .json

میزان بودجه‌ای از خزش که به فایل های json اختصاص داده شده است از طریق نمودار قابل مشاهده است.

  • other file type

شامل سایر فایل‌هایی است که در سایت وجود دارد و ربات‌های گوگل برای ایندکس کردن آن‌ها درخواست خزیدن ثبت کرده اند.