آموزش و اخبار

بررسی ایندکس سرچ کنسول؛ دلیل ایندکس نشدن صفحات چیست؟

ایندکس نشدن صفحات

Indexing pages یا ایندکس‌گذاری صفحات در سرچ کنسول (Google Search Console) به معنای این است که موتور جستجو صفحات وب‌سایت شما را شناسایی و آن‌ها را در پایگاه داده خود ذخیره می‌کند تا بتواند آن‌ها را در نتایج جستجو به نمایش بگذارد. اگر صفحات وب‌سایت شما ایندکس نشوند، کاربران نمی‌توانند آن‌ها را از طریق جستجو پیدا کنند. ایندکس‌گذاری صحیح به شما کمک می‌کند تا مخاطبان بیشتری به سایت شما ورود کنند. با این توضیحات برای اطمینان از درست کراول شدن سایت و استفاده بهینه از کراول باجت بخش indexing pages در سرچ کنسول اهمیت زیادی دارد و نیاز است به صورت مداوم مورد بررسی قرار بگیرد.

با این مقاله از آموزش سرچ کنسول همراه ما باشید.

امکانات بخش pagesدرایندکس سرچ کنسول

بخش “Pages” یا “صفحات” در گوگل سرچ کنسول (Google Search Console) ابزاری مفید است که به شما کمک می‌کند عملکرد صفحات وب‌سایت خود را در جستجوی گوگل تحلیل و بهینه‌سازی کنید. یکی از جالب‌ترین امکاناتی که ارائه می‌دهد امکان مشاهده تاریخ و صفحات ایندکس شده است. همانطور که در تصویر زیر مشاهده می‌کنید، دو فیلتر وجود دارد که از نظر آماری میزان صفحات ایندکس شده و ایندکس نشده را نشان می‌دهد.

ایندکس صفحات در سرچ کنسول
دلیل ایندکس نشدن صفحات

حال با رفتن به بخش view data about indexed pages می‌توانید مجموعه صفحاتی که ایندکس شده‌اند را مشاهده کنید. همچنین با رفتن به بخش why pages aren’t indexed می‌توانید صفحاتی که ایندکس نشده‌اند را مشاهده کنید.

بررسی ایندکس سرچ کنسول

این تصویر مواردی که ایندکس نشده‌اند را مشخص می‌کند و با انتخاب هر یک از آنها خواهید توانست به صفحه مربوطه دست یابید. به عنوان مثال در این عکس صفحات یافت نشده 29 مورد هستند. در تصویر بعدی با کلیک بر روی Not found (404) می‌توانید به URL مستقیم صفحه و همچنین تاریخ آخرین کراول گوگل دست یابید.

آموزش ایندکس سرچ کنسول

مشاهده صفحاتی که کراول شده اند و داخل سایت مپ نبوده اند!

صفحات ثبت نشده در سایت مپ اما ایندکس شده

در گوگل سرچ کنسول، برای مشاهده صفحاتی که کراول شده‌اند، اما در سایت مپ (Sitemap) قرار نداشته‌اند، می‌توانید از گزینه‌های زیر استفاده کنید:

در بخش “Page indexing” (ایندکس صفحات) در گوگل سرچ کنسول، گزینه‌های مختلفی برای مشاهده و مدیریت صفحات وب‌سایت وجود دارد. این گزینه‌ها ممکن است در طول زمان تغییر کنند، اما در زیر به برخی از این گزینه‌ها اشاره می‌کنم که معمولاً در این بخش مشاهده می‌شوند:

All known pages: این گزینه نشان‌دهنده تمامی صفحاتی است که گوگل در وب‌سایت شما شناسایی کرده است. این صفحات ممکن است شامل صفحات ایندکس شده، صفحات غیراصولی و یا صفحاتی باشند که به هر دلیلی قابل دسترسی نیستند.

Submitted pages: صفحاتی که به صورت دستی به گوگل ارسال شده‌اند (مثلاً از طریق نقشه سایت).

UnSubmitted pages: صفحاتی که کراول شده اند اما در سایت مپ ثبت نشده اند.

به یاد داشته باشید که رابط کاربری و گزینه‌ها ممکن است به مرور زمان تغییر کنند، بنابراین بهتر است برای اطلاعات دقیق‌تر به وب‌سایت رسمی گوگل سرچ کنسول مراجعه کنید.

چرا صفحات ایندکس نشده اند؟

ایندکس شدن صفحات وب در موتورهای جستجو فرآیندی کلیدی است که به وب‌سایت‌ها امکان می‌دهد در نتایج جستجو ظاهر شوند. اما گاهی اوقات، ممکن است برخی صفحات به درستی ایندکس نشوند. در زیر به برخی از دلایل عدم ایندکس شدن صفحات در گوگل سرچ کنسول اشاره می‌کنیم:

دلیل ایندکس نشدن صفحات چیست

Excluded by ‘noindex’ tag

خطای «Excluded by ‘noindex’ tag» در گوگل سرچ کنسول به این معنی است که صفحات وب‌سایت شما به دلیل وجود تگ «noindex» در کد HTML آن‌ها، از ایندکس شدن توسط موتور جستجوی گوگل مستثنی شده‌اند. تگ «noindex» به موتورهای جستجو اطلاع می‌دهد که نباید آن صفحه خاص را در نتایج جستجو ایندکس کنند.

دلایل این مشکل ممکن است شامل موارد زیر باشد:

  • تنظیمات دستی: در صورتی که به طور دستی تگ «noindex» را به صفحات خاصی اضافه کرده‌اید (مثلاً صفحات آزمایشی، صفحات تأیید نشده یا صفحات با محتوای تکراری) و قصد نداشتید که آن‌ها ایندکس شوند.
  • تنظیمات نادرست: ممکن است به اشتباه تگ «noindex» را به صفحاتی که می‌خواهید در نتایج جستجو ایندکس شوند، اضافه کرده باشید. این می‌تواند ناشی از اشتباه در ویرایش کد HTML باشد.
  • CMS یا افزونه‌ها: اگر از سیستم‌های مدیریت محتوا (CMS) مثل وردپرس استفاده می‌کنید، برخی افزونه‌ها (مثل افزونه‌های SEO) ممکن است به طور پیش‌فرض تگ «noindex» را به برخی از صفحات اضافه کنند.

راه‌حل‌ رفع ایندکس نشدن صفحه به دلیل Excluded by ‘noindex’ tag

روش‌های مختلفی برای رفع این خطا وجود دارد که از جمله می‌توان به موارد زیر اشاره کرد:

  • بررسی کد HTML: کد HTML صفحات مورد نظر را بررسی کنید و اطمینان حاصل کنید که تگ «noindex» به اشتباه در آن‌ها قرار نگرفته باشد.
  • تنظیمات CMS: اگر از CMS استفاده می‌کنید، به تنظیمات افزونه‌های SEO خود مراجعه کنید و اطمینان حاصل کنید که هیچ تنظیم نادرستی برای «noindex» فعال نیست.
  • حذف تگ noindex: در صورتی که متوجه شدید یکی از صفحات به اشتباه این تگ را دارد، آن را حذف کنید.
  • استفاده از ابزارهای گوگل: پس از اعمال تغییرات، می‌توانید از ابزار «URL Inspection» در سرچ کنسول گوگل استفاده کنید تا وضعیت جدید صفحه را بررسی و از ایندکس شدن آن مطمئن شوید. با پیگیری این موارد، می‌توانید مشکل خطای «Excluded by ‘noindex’ tag» را برطرف کنید.

Page with redirect

خطای “Page with redirect” در گوگل سرچ کنسول به این معناست که یک صفحه خاص که شما در تلاش هستید آن را ایندکس کنید، به صفحه دیگری هدایت شده است. این مشکل می‌تواند به علت‌های مختلفی رخ دهد:

  • ریدایرکت 301 یا 302: ممکن است سایت شما به طور عمدی ریدایرکت شده باشد. ریدایرکت 301 دائم است و به موتورهای جستجو اطلاع می‌دهد که URL جدیدی برای این محتوا وجود دارد. ریدایرکت 302 موقتی است و به موتورهای جستجو می‌گوید که این تغییر موقتی است.
  • ریدایرکت نادرست: اگر ریدایرکت به صفحه‌ای نامناسب یا غیرموجود باشد، ممکن است باعث خطا شود.
  • مشکل در تنظیمات سرور: گاهی اوقات تنظیمات نادرست سرور می‌تواند باعث ریدایرکت‌های ناخواسته‌ای شود.
  • پیکربندی سیستم مدیریت محتوا: اگر از سیستم‌های مدیریت محتوا (CMS) مانند وردپرس یا جوملا استفاده می‌کنید، تنظیمات یا پلاگین‌های مربوط به ریدایرکت‌ها ممکن است باعث بروز این مشکل شود.

روش‌های رفع ایندکس نشدن صفحه به دلیل Page with redirect

از روش‌های رفع مشکل ایندکس نشدن صفحه می‌توان به موارد زیر اشاره کرد:

  • بررسی ریدایرکت‌ها: با استفاده از ابزارهای آنلاین یا افزونه‌های مرورگر، ریدایرکت‌ها را بررسی کنید و اطمینان حاصل کنید که به درستی پیکربندی شده‌اند.
  • در صورت امکان اقدام به حذف ریدایرکت کنید برای مثال ریدایرکت های زنجیره ای را حذف کنید.

Not found (404)

پیغام خطای “Not Found (404)” در سرچ کنسول به این معناست که یک صفحه وب خاص که به آن اشاره شده است، در سرور پیدا نمی‌شود. این خطا می‌تواند به دلایل مختلفی رخ دهد:

  • حذف صفحه: ممکن است صفحه‌ای که قبلاً وجود داشته، حذف شده باشد و لینک به آن هنوز در وب‌سایت یا سایر منابع وجود داشته باشد.
  • آدرس URL نادرست: ممکن است آدرس URL وارد شده به اشتباه تایپ شده باشد یا دارای اشتباه باشد، مانند اشتباه در نوشتن کاراکترها یا عدم استفاده از www یا https.
  • تغییر آدرس: اگر صفحات وب را به آدرس جدیدی منتقل کرده‌اید، ولی ریدایرکت (انتقال) مناسب صورت نگرفته باشد، کاربران ممکن است به URL قدیمی دسترسی پیدا کنند و با خطای 404 مواجه شوند.
  • مشکلات سرور: در برخی موارد، ممکن است مشکلاتی در سرور وجود داشته باشد که مانع از بارگذاری صفحه شود.
  • مشکلات در نقشه سایت: اگر نقشه سایت شما (Sitemap) شامل URL هایی باشد که دیگر وجود ندارند، ممکن است این خطا در سرچ کنسول ظاهر شود.

رفع مشکل (404)Not found

برای رفع این خطا، می‌توانید اقدامات زیر را انجام دهید:

  • بررسی کنید که URL صحیح است.
  • صفحاتی که در این قسمت آمده اند را باید 410 کنید. البته اگر یو آرال حذف شده هنوز در گوگل ایندکس است و رتبه خوبی دارد باید آن را به یک صفحه مرتبط ریدایرکت کنید.
  • نقشه سایت و لینک‌های داخلی را بررسی کنید و اطمینان حاصل کنید که تمامی لینک‌ها به صفحات موجود اشاره دارند.

Crawled – currently not indexed

پیام “Crawled – currently not indexed” در گوگل سرچ کنسول به این معنی است که ربات‌های گوگل موفق به خزیدن (crawl) بر روی صفحه شما شده‌اند، اما به دلایلی این صفحه برای ایندکس شدن انتخاب نشده است. برخی از دلایل ممکن برای این وضعیت عبارتند از:

مشکلات کیفیت محتوا: اگر محتوای صفحه به اندازه کافی مفید، اصیل یا مرتبط با جستجوهای کاربران نباشد، گوگل ممکن است تصمیم بگیرد آن را ایندکس نکند.

محتوای تکراری: اگر صفحه شما محتوایی شبیه به صفحات دیگر در وب داشته باشد، گوگل ممکن است یکی از آن‌ها را ایندکس کند و بقیه را نادیده بگیرد.

مشکلات با لینک‌دهی: اگر صفحه به خوبی لینک نشده باشد و یا هیچ لینک داخلی یا خارجی به آن وجود نداشته باشد، گوگل ممکن است آن را به عنوان صفحه‌ای با ارزش پایین درنظر بگیرد.

وضعیت صفحات: گاهی اوقات، صفحات با وضعیت HTTP 4xx (مثل 404) یا با ارور سرور 5xx به درستی ایندکس نمی‌شوند.

برای رفع این مشکل، شما می‌توانید به بهینه‌سازی محتوای صفحه بپردازید. پس از اعمال تغییرات، می‌توانید درخواست ایندکس مجدد صفحه را از طریق سرچ کنسول ارسال کنید.

Discovered – currently not indexed

پیغام “Discovered – currently not indexed” در گوگل سرچ کنسول به این معناست که گوگل یک یا چند URL از وب‌سایت شما را شناسایی کرده، اما هنوز آن‌ها را کراول نکرده است. این وضعیت می‌تواند ناشی از چند عامل باشد:

  • محدودیت‌های Crawl: ممکن است تنظیمات فایل robots.txt یا تگ‌های متا در صفحات شما باعث شود که گوگل نتواند به درستی آن‌ها را ایندکس کند. اگر فایل robots.txt دسترسی به صفحات خاصی را محدود کرده باشد، این پیام ممکن است ظاهر شود.
  • کاهش اولویت برای Crawling: گوگل ممکن است به دلیل محدودیت‌های خود یا به خاطر عوامل دیگر، صفحات شما را جزو اولویت‌ها قرار ندهد.

Duplicate without user-selected canonical

پیغام “Duplicate without user-selected canonical” در گوگل سرچ کنسول به این معناست که گوگل متوجه شده است که چندین صفحه از وب‌سایت شما محتواهای مشابهی دارند و هیچ صفحه‌ای به عنوان «کنونیکال» (canonical) برای آن‌ها مشخص نشده است. در واقع، این نشان می‌دهد که برای گوگل مشخص نیست کدام یک از این صفحات باید به عنوان نسخه اصلی (کنونیکال) تلقی شود.

روش‌های رفع خطای Duplicate without user-selected canonical در سرچ کنسول

  • استفاده از تگ کنونیکال: برای هر گروه از صفحات مشابه، تگ <link rel=”canonical” href=”URL-page”> را به صفحه اصلی (کنونیکال) اضافه کنید تا به گوگل بگویید کدام نسخه را باید به عنوان نسخه اصلی در نظر بگیرد.
  • حذف محتوای تکراری: در صورت امکان، محتوای تکراری را حذف کنید یا یکی از نسخه‌ها را به عنوان صفحه اصلی نگه دارید.
  • بهینه‌سازی وب‌سایت: ساختار وب‌سایت خود را بهبود دهید تا از ایجاد صفحات تکراری جلوگیری کنید.

Blocked by robots.txt

پیغام “Blocked by robots.txt” در Google Search Console به این معنی است که فایل robots.txt سایت شما به موتورهای جست‌وجو اجازه نمی‌دهد که به برخی از صفحات یا بخش‌های سایت شما دسترسی پیدا کنند. این فایل به موتورهای جست‌وجو می‌گوید که کدام قسمت‌ها از سایت باید ایندکس شوند و کدام قسمت‌ها نباید ایندکس شود و از جمله دلایل اصلی آن عبارت است از:

  • تنظیمات نادرست: ممکن است در فایل robots.txt خود به اشتباه قسمت‌هایی از سایت را مسدود کرده باشید. به عنوان مثال، اگر برای دیپلوی یک ربات خاص قسمت‌هایی از سایت را مسدود کرده باشید و آن ربات GOOG یا Bing باشد، خواهید دید که این پیام نمایش داده می‌شود.
  • محدود کردن دسترسی به صفحات خاص: اگر شما به عمد برخی از صفحات یا دایرکتوری‌ها را برای جلوگیری از ایندکس شدن در فایل robots.txt مسدود کرده‌اید، این پیام طبیعی است.

رفع مشکل Blocked by robots.txt

  • بررسی فایل robots.txt: فایل robots.txt خود را بررسی کنید و اطمینان حاصل کنید که دستورات محدود کننده به درستی تنظیم شده‌اند. می‌توانید از ابزارهایی مانند “robots.txt Tester” در Google Search Console استفاده کنید.
  • اصلاح دستورات: اگر نیاز به ایندکس شدن صفحات خاصی دارید، می‌توانید دستورات مربوطه را حذف یا اصلاح کنید.
  • دقت در تغییرات: پس از اعمال تغییرات در فایل robots.txt، مطمئن شوید که موتورهای جست‌وجو به روزرسانی‌های جدید شما را شناسایی کرده و صفحات شما را ایندکس می‌کنند.

Alternate page with proper canonical tag

«Alternate page with proper canonical tag» یا به زبان فارسی «صفحه جایگزین با تگ کنونیکال مناسب» در گوگل سرچ کنسول به صفحاتی اشاره دارد، که صفحات مختلفی از محتوای مشابه را ارائه می‌دهند و از تگ کنونیکال برای مشخص کردن نسخه اصلی استفاده می‌کنند. تگ کنونیکال (canonical tag) به موتورهای جستجو می‌گوید که کدام صفحه را به عنوان نسخه اصلی (یا “کنونیکال”) یک محتوای خاص در نظر بگیرند. استفاده از تگ کنونیکال به جلوگیری از محتوای تکراری کمک می‌کند و به موتورهای جستجو می‌فهماند که کدام نسخه از یک محتوا باید در نتایج جستجو نمایش داده شود.

Soft 404

ارور soft404 زمانی رخ می‌دهد که صفحه‌ای در سایت موجود باشد و به دلایلی حذف شده و حتی ممکن است URL آن توسط گوگل ایندکس شده‌باشد، اما شما هیچ ریدایرکتی برای آن در نظر نگرفته باشید.

Duplicate, Google chose different canonical than user

وقتی با پیام “Duplicate, Google chose different canonical than user” در سرچ کنسول مواجه می‌شوید، به این معنی است که Google یک URL دیگر را به عنوان URL canonical یا اصلی انتخاب کرده است، به جای URL‌ای که شما به عنوان canonical تعیین کرده‌اید.