Indexing pages یا ایندکسگذاری صفحات در سرچ کنسول (Google Search Console) به معنای این است که موتور جستجو صفحات وبسایت شما را شناسایی و آنها را در پایگاه داده خود ذخیره میکند تا بتواند آنها را در نتایج جستجو به نمایش بگذارد. اگر صفحات وبسایت شما ایندکس نشوند، کاربران نمیتوانند آنها را از طریق جستجو پیدا کنند. ایندکسگذاری صحیح به شما کمک میکند تا مخاطبان بیشتری به سایت شما ورود کنند. با این توضیحات برای اطمینان از درست کراول شدن سایت و استفاده بهینه از کراول باجت بخش indexing pages در سرچ کنسول اهمیت زیادی دارد و نیاز است به صورت مداوم مورد بررسی قرار بگیرد.
با این مقاله از آموزش سرچ کنسول همراه ما باشید.
امکانات بخش pagesدرایندکس سرچ کنسول
بخش “Pages” یا “صفحات” در گوگل سرچ کنسول (Google Search Console) ابزاری مفید است که به شما کمک میکند عملکرد صفحات وبسایت خود را در جستجوی گوگل تحلیل و بهینهسازی کنید. یکی از جالبترین امکاناتی که ارائه میدهد امکان مشاهده تاریخ و صفحات ایندکس شده است. همانطور که در تصویر زیر مشاهده میکنید، دو فیلتر وجود دارد که از نظر آماری میزان صفحات ایندکس شده و ایندکس نشده را نشان میدهد.


حال با رفتن به بخش view data about indexed pages میتوانید مجموعه صفحاتی که ایندکس شدهاند را مشاهده کنید. همچنین با رفتن به بخش why pages aren’t indexed میتوانید صفحاتی که ایندکس نشدهاند را مشاهده کنید.

این تصویر مواردی که ایندکس نشدهاند را مشخص میکند و با انتخاب هر یک از آنها خواهید توانست به صفحه مربوطه دست یابید. به عنوان مثال در این عکس صفحات یافت نشده 29 مورد هستند. در تصویر بعدی با کلیک بر روی Not found (404) میتوانید به URL مستقیم صفحه و همچنین تاریخ آخرین کراول گوگل دست یابید.

مشاهده صفحاتی که کراول شده اند و داخل سایت مپ نبوده اند!

در گوگل سرچ کنسول، برای مشاهده صفحاتی که کراول شدهاند، اما در سایت مپ (Sitemap) قرار نداشتهاند، میتوانید از گزینههای زیر استفاده کنید:
در بخش “Page indexing” (ایندکس صفحات) در گوگل سرچ کنسول، گزینههای مختلفی برای مشاهده و مدیریت صفحات وبسایت وجود دارد. این گزینهها ممکن است در طول زمان تغییر کنند، اما در زیر به برخی از این گزینهها اشاره میکنم که معمولاً در این بخش مشاهده میشوند:
All known pages: این گزینه نشاندهنده تمامی صفحاتی است که گوگل در وبسایت شما شناسایی کرده است. این صفحات ممکن است شامل صفحات ایندکس شده، صفحات غیراصولی و یا صفحاتی باشند که به هر دلیلی قابل دسترسی نیستند.
Submitted pages: صفحاتی که به صورت دستی به گوگل ارسال شدهاند (مثلاً از طریق نقشه سایت).
UnSubmitted pages: صفحاتی که کراول شده اند اما در سایت مپ ثبت نشده اند.
به یاد داشته باشید که رابط کاربری و گزینهها ممکن است به مرور زمان تغییر کنند، بنابراین بهتر است برای اطلاعات دقیقتر به وبسایت رسمی گوگل سرچ کنسول مراجعه کنید.
چرا صفحات ایندکس نشده اند؟
ایندکس شدن صفحات وب در موتورهای جستجو فرآیندی کلیدی است که به وبسایتها امکان میدهد در نتایج جستجو ظاهر شوند. اما گاهی اوقات، ممکن است برخی صفحات به درستی ایندکس نشوند. در زیر به برخی از دلایل عدم ایندکس شدن صفحات در گوگل سرچ کنسول اشاره میکنیم:

Excluded by ‘noindex’ tag
خطای «Excluded by ‘noindex’ tag» در گوگل سرچ کنسول به این معنی است که صفحات وبسایت شما به دلیل وجود تگ «noindex» در کد HTML آنها، از ایندکس شدن توسط موتور جستجوی گوگل مستثنی شدهاند. تگ «noindex» به موتورهای جستجو اطلاع میدهد که نباید آن صفحه خاص را در نتایج جستجو ایندکس کنند.
دلایل این مشکل ممکن است شامل موارد زیر باشد:
- تنظیمات دستی: در صورتی که به طور دستی تگ «noindex» را به صفحات خاصی اضافه کردهاید (مثلاً صفحات آزمایشی، صفحات تأیید نشده یا صفحات با محتوای تکراری) و قصد نداشتید که آنها ایندکس شوند.
- تنظیمات نادرست: ممکن است به اشتباه تگ «noindex» را به صفحاتی که میخواهید در نتایج جستجو ایندکس شوند، اضافه کرده باشید. این میتواند ناشی از اشتباه در ویرایش کد HTML باشد.
- CMS یا افزونهها: اگر از سیستمهای مدیریت محتوا (CMS) مثل وردپرس استفاده میکنید، برخی افزونهها (مثل افزونههای SEO) ممکن است به طور پیشفرض تگ «noindex» را به برخی از صفحات اضافه کنند.
راهحل رفع ایندکس نشدن صفحه به دلیل Excluded by ‘noindex’ tag
روشهای مختلفی برای رفع این خطا وجود دارد که از جمله میتوان به موارد زیر اشاره کرد:
- بررسی کد HTML: کد HTML صفحات مورد نظر را بررسی کنید و اطمینان حاصل کنید که تگ «noindex» به اشتباه در آنها قرار نگرفته باشد.
- تنظیمات CMS: اگر از CMS استفاده میکنید، به تنظیمات افزونههای SEO خود مراجعه کنید و اطمینان حاصل کنید که هیچ تنظیم نادرستی برای «noindex» فعال نیست.
- حذف تگ noindex: در صورتی که متوجه شدید یکی از صفحات به اشتباه این تگ را دارد، آن را حذف کنید.
- استفاده از ابزارهای گوگل: پس از اعمال تغییرات، میتوانید از ابزار «URL Inspection» در سرچ کنسول گوگل استفاده کنید تا وضعیت جدید صفحه را بررسی و از ایندکس شدن آن مطمئن شوید. با پیگیری این موارد، میتوانید مشکل خطای «Excluded by ‘noindex’ tag» را برطرف کنید.
Page with redirect
خطای “Page with redirect” در گوگل سرچ کنسول به این معناست که یک صفحه خاص که شما در تلاش هستید آن را ایندکس کنید، به صفحه دیگری هدایت شده است. این مشکل میتواند به علتهای مختلفی رخ دهد:
- ریدایرکت 301 یا 302: ممکن است سایت شما به طور عمدی ریدایرکت شده باشد. ریدایرکت 301 دائم است و به موتورهای جستجو اطلاع میدهد که URL جدیدی برای این محتوا وجود دارد. ریدایرکت 302 موقتی است و به موتورهای جستجو میگوید که این تغییر موقتی است.
- ریدایرکت نادرست: اگر ریدایرکت به صفحهای نامناسب یا غیرموجود باشد، ممکن است باعث خطا شود.
- مشکل در تنظیمات سرور: گاهی اوقات تنظیمات نادرست سرور میتواند باعث ریدایرکتهای ناخواستهای شود.
- پیکربندی سیستم مدیریت محتوا: اگر از سیستمهای مدیریت محتوا (CMS) مانند وردپرس یا جوملا استفاده میکنید، تنظیمات یا پلاگینهای مربوط به ریدایرکتها ممکن است باعث بروز این مشکل شود.
روشهای رفع ایندکس نشدن صفحه به دلیل Page with redirect
از روشهای رفع مشکل ایندکس نشدن صفحه میتوان به موارد زیر اشاره کرد:
- بررسی ریدایرکتها: با استفاده از ابزارهای آنلاین یا افزونههای مرورگر، ریدایرکتها را بررسی کنید و اطمینان حاصل کنید که به درستی پیکربندی شدهاند.
- در صورت امکان اقدام به حذف ریدایرکت کنید برای مثال ریدایرکت های زنجیره ای را حذف کنید.
Not found (404)
پیغام خطای “Not Found (404)” در سرچ کنسول به این معناست که یک صفحه وب خاص که به آن اشاره شده است، در سرور پیدا نمیشود. این خطا میتواند به دلایل مختلفی رخ دهد:
- حذف صفحه: ممکن است صفحهای که قبلاً وجود داشته، حذف شده باشد و لینک به آن هنوز در وبسایت یا سایر منابع وجود داشته باشد.
- آدرس URL نادرست: ممکن است آدرس URL وارد شده به اشتباه تایپ شده باشد یا دارای اشتباه باشد، مانند اشتباه در نوشتن کاراکترها یا عدم استفاده از www یا https.
- تغییر آدرس: اگر صفحات وب را به آدرس جدیدی منتقل کردهاید، ولی ریدایرکت (انتقال) مناسب صورت نگرفته باشد، کاربران ممکن است به URL قدیمی دسترسی پیدا کنند و با خطای 404 مواجه شوند.
- مشکلات سرور: در برخی موارد، ممکن است مشکلاتی در سرور وجود داشته باشد که مانع از بارگذاری صفحه شود.
- مشکلات در نقشه سایت: اگر نقشه سایت شما (Sitemap) شامل URL هایی باشد که دیگر وجود ندارند، ممکن است این خطا در سرچ کنسول ظاهر شود.
رفع مشکل (404)Not found
برای رفع این خطا، میتوانید اقدامات زیر را انجام دهید:
- بررسی کنید که URL صحیح است.
- صفحاتی که در این قسمت آمده اند را باید 410 کنید. البته اگر یو آرال حذف شده هنوز در گوگل ایندکس است و رتبه خوبی دارد باید آن را به یک صفحه مرتبط ریدایرکت کنید.
- نقشه سایت و لینکهای داخلی را بررسی کنید و اطمینان حاصل کنید که تمامی لینکها به صفحات موجود اشاره دارند.
Crawled – currently not indexed
پیام “Crawled – currently not indexed” در گوگل سرچ کنسول به این معنی است که رباتهای گوگل موفق به خزیدن (crawl) بر روی صفحه شما شدهاند، اما به دلایلی این صفحه برای ایندکس شدن انتخاب نشده است. برخی از دلایل ممکن برای این وضعیت عبارتند از:
مشکلات کیفیت محتوا: اگر محتوای صفحه به اندازه کافی مفید، اصیل یا مرتبط با جستجوهای کاربران نباشد، گوگل ممکن است تصمیم بگیرد آن را ایندکس نکند.
محتوای تکراری: اگر صفحه شما محتوایی شبیه به صفحات دیگر در وب داشته باشد، گوگل ممکن است یکی از آنها را ایندکس کند و بقیه را نادیده بگیرد.
مشکلات با لینکدهی: اگر صفحه به خوبی لینک نشده باشد و یا هیچ لینک داخلی یا خارجی به آن وجود نداشته باشد، گوگل ممکن است آن را به عنوان صفحهای با ارزش پایین درنظر بگیرد.
وضعیت صفحات: گاهی اوقات، صفحات با وضعیت HTTP 4xx (مثل 404) یا با ارور سرور 5xx به درستی ایندکس نمیشوند.
برای رفع این مشکل، شما میتوانید به بهینهسازی محتوای صفحه بپردازید. پس از اعمال تغییرات، میتوانید درخواست ایندکس مجدد صفحه را از طریق سرچ کنسول ارسال کنید.
Discovered – currently not indexed
پیغام “Discovered – currently not indexed” در گوگل سرچ کنسول به این معناست که گوگل یک یا چند URL از وبسایت شما را شناسایی کرده، اما هنوز آنها را کراول نکرده است. این وضعیت میتواند ناشی از چند عامل باشد:
- محدودیتهای Crawl: ممکن است تنظیمات فایل robots.txt یا تگهای متا در صفحات شما باعث شود که گوگل نتواند به درستی آنها را ایندکس کند. اگر فایل robots.txt دسترسی به صفحات خاصی را محدود کرده باشد، این پیام ممکن است ظاهر شود.
- کاهش اولویت برای Crawling: گوگل ممکن است به دلیل محدودیتهای خود یا به خاطر عوامل دیگر، صفحات شما را جزو اولویتها قرار ندهد.
Duplicate without user-selected canonical
پیغام “Duplicate without user-selected canonical” در گوگل سرچ کنسول به این معناست که گوگل متوجه شده است که چندین صفحه از وبسایت شما محتواهای مشابهی دارند و هیچ صفحهای به عنوان «کنونیکال» (canonical) برای آنها مشخص نشده است. در واقع، این نشان میدهد که برای گوگل مشخص نیست کدام یک از این صفحات باید به عنوان نسخه اصلی (کنونیکال) تلقی شود.
روشهای رفع خطای Duplicate without user-selected canonical در سرچ کنسول
- استفاده از تگ کنونیکال: برای هر گروه از صفحات مشابه، تگ <link rel=”canonical” href=”URL-page”> را به صفحه اصلی (کنونیکال) اضافه کنید تا به گوگل بگویید کدام نسخه را باید به عنوان نسخه اصلی در نظر بگیرد.
- حذف محتوای تکراری: در صورت امکان، محتوای تکراری را حذف کنید یا یکی از نسخهها را به عنوان صفحه اصلی نگه دارید.
- بهینهسازی وبسایت: ساختار وبسایت خود را بهبود دهید تا از ایجاد صفحات تکراری جلوگیری کنید.
Blocked by robots.txt
پیغام “Blocked by robots.txt” در Google Search Console به این معنی است که فایل robots.txt سایت شما به موتورهای جستوجو اجازه نمیدهد که به برخی از صفحات یا بخشهای سایت شما دسترسی پیدا کنند. این فایل به موتورهای جستوجو میگوید که کدام قسمتها از سایت باید ایندکس شوند و کدام قسمتها نباید ایندکس شود و از جمله دلایل اصلی آن عبارت است از:
- تنظیمات نادرست: ممکن است در فایل robots.txt خود به اشتباه قسمتهایی از سایت را مسدود کرده باشید. به عنوان مثال، اگر برای دیپلوی یک ربات خاص قسمتهایی از سایت را مسدود کرده باشید و آن ربات GOOG یا Bing باشد، خواهید دید که این پیام نمایش داده میشود.
- محدود کردن دسترسی به صفحات خاص: اگر شما به عمد برخی از صفحات یا دایرکتوریها را برای جلوگیری از ایندکس شدن در فایل robots.txt مسدود کردهاید، این پیام طبیعی است.
رفع مشکل Blocked by robots.txt
- بررسی فایل robots.txt: فایل robots.txt خود را بررسی کنید و اطمینان حاصل کنید که دستورات محدود کننده به درستی تنظیم شدهاند. میتوانید از ابزارهایی مانند “robots.txt Tester” در Google Search Console استفاده کنید.
- اصلاح دستورات: اگر نیاز به ایندکس شدن صفحات خاصی دارید، میتوانید دستورات مربوطه را حذف یا اصلاح کنید.
- دقت در تغییرات: پس از اعمال تغییرات در فایل robots.txt، مطمئن شوید که موتورهای جستوجو به روزرسانیهای جدید شما را شناسایی کرده و صفحات شما را ایندکس میکنند.
Alternate page with proper canonical tag
«Alternate page with proper canonical tag» یا به زبان فارسی «صفحه جایگزین با تگ کنونیکال مناسب» در گوگل سرچ کنسول به صفحاتی اشاره دارد، که صفحات مختلفی از محتوای مشابه را ارائه میدهند و از تگ کنونیکال برای مشخص کردن نسخه اصلی استفاده میکنند. تگ کنونیکال (canonical tag) به موتورهای جستجو میگوید که کدام صفحه را به عنوان نسخه اصلی (یا “کنونیکال”) یک محتوای خاص در نظر بگیرند. استفاده از تگ کنونیکال به جلوگیری از محتوای تکراری کمک میکند و به موتورهای جستجو میفهماند که کدام نسخه از یک محتوا باید در نتایج جستجو نمایش داده شود.
Soft 404
ارور soft404 زمانی رخ میدهد که صفحهای در سایت موجود باشد و به دلایلی حذف شده و حتی ممکن است URL آن توسط گوگل ایندکس شدهباشد، اما شما هیچ ریدایرکتی برای آن در نظر نگرفته باشید.
Duplicate, Google chose different canonical than user
وقتی با پیام “Duplicate, Google chose different canonical than user” در سرچ کنسول مواجه میشوید، به این معنی است که Google یک URL دیگر را به عنوان URL canonical یا اصلی انتخاب کرده است، به جای URLای که شما به عنوان canonical تعیین کردهاید.