گوگل وب مستر
موضوعات داغ

آموزش رفع خطای Crawl Errors در گوگل سرچ کنسول

امکان Crawl سایت شما توسط موتورهای جستجو، کلید اصلی دیده شدن سایت شما در میان نتایج توسط کاربران و افزایش آمار بازدید سایت است. با شناخت بخش‌های مختلف گزارش خطاهای Crawl سایت و آشنایی با نحوه رفع این مشکلات می‌توانید مطمئن شوید که محتوای سایت شما هدر نرفته و عملکرد خود برای جذب بازدید و کاربر را به نحو احسن انجام می‌دهد.

کنسول جستجوی گوگل کمک می‌کند تا شیوه عملکرد گوگل نسبت به سایت خود را بررسی کنید در واقع Google search console هر آنچه را که خزنده‌های گوگل به‌دست می‌آورند، نمایش می‌دهد. یکی از بخش‌های بسیار مهم و کاربردی این ابزار، بخشی تحت عنوان Crawl Errors است که در آن خطاهایی که خزنده‌های گوگل هنگام بررسی سایت شما با آن‌ها مواجه شده است را به نمایش می‌گذارد.

گزارش خطاهای کراول Crawl Errors Repot یک سایت، جزئیاتی درباره URL های سایت ارائه می‌دهد که گوگل نتوانسته آن‌ها را Crawl کند و یا کد خطای HTTP داشتند.

این گزارش شامل دو بخش اصلی است:

  • خطاهای سایت: این بخش از گزارش مشکلات اصلی مربوط به ۹۰ روز گذشته را نشان می‌دهد که مانع دسترسی Googlebot به تمام سایت شما شده‌اند. (با کلیک بر روی هر کادر می‌توانید جدول مربوط به آن را ببینید).
  • خطاهای URL: این بخش خطاهایی را نشان می‌دهد که گوگل در حین تلاش برای Crawl برخی صفحات دسکتاپ یا موبایلی خاص به آن‌ها برخورده است. هر بخش اصلی در گزارش خطاهای URL، مربوط به مکانیسم‌های Crawl مختلفی است که گوگل برای دسترسی به صفحات شما استفاده می‌کند. خطاهای نمایش داده شده مربوط به آن صفحات خاص هستند.

مروری بر خطاهای سایت

بخش خطاهای سایت در گزارش خطاهای Crawl سایتی که بدون مشکل در حال فعالیت است، هیچ خطایی نشان داده نمی‌شود (این موضوع در مورد اکثر سایت‌هایی که Crawl می‌شود صادق است). اگر گوگل شمار خطاهای قابل‌توجهی در سایت تشخیص دهد، آن را در قالب یک پیام به شما گزارش می‌دهیم. فرقی هم نمی‌کند که ابعاد سایت شما چقدر باشد.

میزبان هاست سوشال

وقتی برای بار اول صفحه خطاهای Crawl را می‌بینید، بخش خطاهای سایت یک کد وضعیت را در کنار هر یک از سه نوع خطا نشان می‌دهد. این سه نوع خطا شامل DNS، اتصال شبکه و robots.txt می‌شود. اگر علامتی غیر از یک تیک سبزرنگ می‌بینید، می‌توانید روی کادر کلیک کنید تا نموداری از جزئیات مربوط به اطلاعات Crawl ٩٠ روز گذشته را مشاهده کنید.

تعداد بالای خطاها

اگر سایت شما تعداد خطای ۱۰۰ درصدی در هر یک از سه دسته ذکر شده را نشان بدهد، به این معنی است که سایت شما غیرقابل دسترس است و یا به نحوی در تنظیمات دچار مشکل است. احتمالات مختلفی می‌توانند باعث این مشکل شود که می‌توانید آن‌ها را بررسی کنید:

  • مطمئن شوید تغییرات احتمالی سایت اجازه دسترسی به بخشی از سایت را تغییر نداده باشد.
  • اگر تغییراتی در سایت اعمال کرده‌اید، مطمئن شوید که لینک‌های خارجی هنوز کار می‌کنند.
  • هر نوع کد دستوری جدید را بررسی کنید و اطمینان یابید که به‌درستی کار می‌کنند.
  • تمام دایرکتوری‌ها وجود داشته باشند و سهواً جابجا یا حذف نشده باشند.

اگر هیچ‌یک از این اتفاقات در سایت شما رخ نداده باشد، احتمالاً این تعداد بالای خطا تنها یک اشکال موقتی است و یا می‌تواند ناشی از یک عامل خارجی باشد (فردی لینکی به صفحاتی که وجود ندارد ساخته باشد) پس شاید اصلاً ایرادی وجود نداشته باشد.

تعداد پایین خطاها

اگر سایت شما دارای شمار خطایی کمتر از ۱۰۰ درصد در هر یک از دسته‌بندی‌های ذکر شده باشد، ممکن است نشانگر یک وضعیت موقتی باشد؛ اما درعین‌حال ممکن است به معنی اورلود شدن سایت و یا تنظیمات اشتباه آن باشد. بهتر است این مشکلات را بررسی کنید و در صورت لزوم برای راهنمایی از یک متخصص کمک بگیرید. تجربه به ما نشان داده است که سایتی که به‌خوبی تنظیم شده باشد نباید در این دسته‌بندی‌ها خطایی داشته باشد.

انواع خطاهای سایت

خطاهای زیر در بخش «سایت» گزارش نشان داده می‌شوند.

سرورهای مجازی میزبان هاست

خطاهای DNS

منظور از خطای DNS چیست؟

خطای DNS یعنی Googlebot نمی‌تواند به سرور DNS وصل شود. مشکل می‌تواند در دسترس نبودن سرور و یا مربوط به ارتباط DNS با دامین شما باشد. اکثر هشدارها و خطاهای DNS روی امکان دسترسی Googlebot به سایت شما تأثیری ندارند؛ اما ممکن است نشانه‌ای از وجود تأخیر زیاد باشند که می‌تواند تأثیری منفی روی استفاده کاربران شما بگذارد.

اصلاح خطاهای DNS

  • مطمئن شوید گوگل می‌تواند سایت شما را Crawl کند

از ابزار Fetch as Google روی یک صفحه اصلی مانند صفحه خانه استفاده کنید. اگر محتوای صفحه خانه بدون هیچ مشکلی برگشت، می‌توانید مطمئن شوید که گوگل به‌خوبی به سایت شما دسترسی دارد.

  • در مورد خطاهای مداوم و پرتکرار DNS از ارائه‌دهنده DNS خود کمک بگیرید

معمولاً ارائه‌دهنده DNS شما و سرویس هاستینگ وب شما یکسان هستند.

  • سرور خود را به نحوی تنظیم کنید که به اسم هاست‌هایی که وجود ندارند با یک کد خطای HTTP ماد ۴۰۴ یا ۵۰۰ پاسخ دهد

سایتی مانند example.com را می‌توان به نحوی تنظیم کرد که با یک Wildcard DNS به درخواست‌هایی برای آدرس‌هایی همچون foo.example.com، made-=up-name.examplae.com یا هر دامین فرعی دیگر پاسخ دهد. این موضوع وقتی قابل درک است که یک سایت با محتوای کاربر محور، به هر یک از کاربران یک دامین مخصوص خود می‌دهد (http://username.example.com). اگرچه در بعضی موارد این نوع تنظیم می‌تواند باعث شود که محتوا چندین بار در هاست‌های متعدد تکرار شود. این موضوع امری بیهوده است و حتی می‌تواند روی Crawl Googlebot هم تأثیر بگذارد.

فهرست خطای DNS

Timeout DNS: گوگل نتوانسته به سایت شما دسترسی پیدا کند. چون سرور DNS شما در زمان مشخص به درخواست پاسخ نداده است.

اپلیکیشن میزبان هاست

DNS Lookup: گوگل نتوانسته به سایت شما دسترسی پیدا کند چون سرور DNS شما نتوانسته نام هاست شما را شناسایی کند (مانند www.example.com).

خطاهای سمت سرور

وقتی با این نوع خطا در URL های خود مواجه می‌شوید، به این معنی است که Googlebot نتوانسته به سایت شما دسترسی داشته باشد، زمان درخواست سپری شده و یا سایت شما مشغول بوده است. درنتیجه Googlebot مجبور شده است درخواست را رد کند.

اصلاح خطاهای اتصال به سرور

  • از حجم بارگذاری‌های سنگین صفحات بکاهید تا درخواست‌ها به‌صورت پویا انجام شوند

سایتی که محتوایی یکسان را برای چند URL مختلف ارائه می‌دهد، محتوا را به شکلی پویا ارائه می‌کند (مثلاً www.example.com/shoes.php?color=red&size=٧ محتوایی یکسان با www.example.com/shoes.php?size=٧&color=red ارائه می‌کند). زمان پاسخگویی صفحات پویا می‌تواند بیش‌ازحد طولانی باشد که به مشکلات محدودیت زمانی منجر می‌شود. همچنین ممکن است سرور یک وضعیت اورلود شده را برگرداند و از Googlebot بخواهد که سایت را آهسته‌تر Crawl کند. به‌طورکلی، پیشنهاد می‌کنیم که پارامترهای کوتاه و در تعداد کم بکار ببرید. اگر کاملاً می‌دانید پارامترها چه عملکردی برای سایت شما دارند، می‌توانید نحوه مدیریت آن‌ها را به گوگل اعلام کنید.

  • مطمئن شوید سرور هاست سایت شما غیرفعال، اورلود شده و یا دچار مشکلات در تنظیم نباشد

اگر مشکلات اتصال، محدودیت زمانی و یا پاسخگویی سرور همچنان ادامه داشتند، با مرکز هاست وب خود موضوع را مطرح کنید. بد نیست گزینه افزایش توان ترافیکی سایت خود را هم در نظر بگیرید.

  • بررسی کنید سهواً گوگل را بلاک نکرده باشید

ممکن است به دلیل یک مشکل سیستمی مانند یک مشکل در تنظیمات DNS، یک فایروال یا سیستم امنیتی DoS با تنظیمات اشتباه، یا هماهنگی نادرست سیستم مدیریت محتوا، گوگل را بلاک کرده باشید. سیستم‌های امنیتی بخش مهمی از یک سرویس هاستینگ خوب محسوب می‌شوند و عموماً به‌گونه‌ای تنظیم می‌شوند که به‌صورت خودکار جلوی شمار غیرعادی و بالای درخواست‌ها را بگیرد. از آنجا که Googlebot عموماً درخواست‌های بیشتری نسبت به یک کاربر انسانی ارسال می‌کند، ممکن است توجه این سیستم‌های امنیتی را به خود جلب کند. درنتیجه آن‌ها هم Googlebot را بلاک می‌کنند و اجازه Crawl سایت شما را به آن نمی‌دهند. برای برطرف کردن این مشکل باید مشخص کنید که کدام بخش از زیرساخت سایت شما Googlebot را بلاک می‌کند و این مانع را بردارید. فایروال شاید تحت کنترل شما نباشد. پس شاید نیاز باشد موضوع را با مرکز ارائه هاست خود در میان بگذارید.

میزبان هاست راهکار جامع شبکه و وب
  • Crawl و فهرست بندی سایت توسط موتور جستجو را به شکلی هوشمندانه کنترل کنید

برخی وبمسترها عمداً جلوی دسترسی Googlebot به سایت‌های‌شان را می‌گیرند و احتمالاً به کمک یک فایروال و به روشی که در بالا اشاره شد این کار را می‌کنند. معمولاً هدف آن‌ها در این‌گونه موارد این نیست که Googlebot را به‌طورکلی بلاک کنند. بلکه می‌خواهند نحوه Crawl و فهرست شدن سایت خود را کنترل کنند. اگر شما هم‌چنین هدفی دارید به موارد زیر دقت کنید:

  • برای کنترل Crawl محتوای سایت شما توسط Googlebot، از پروتکل ربات خروجی استفاده کنید که شامل استفاده از یک فایل txt و تنظیم پارامترهای URL است.
  • اگر نگران استفاده بات‌های مخرب از حالت user agent در Googlebot هستید، باید قبل از هر چیز مطمئن شوید که این ردیاب، Googlebot است یا خیر.

اگر می‌خواهید تعداد دفعاتی که Googlebot سایت شما را Crawl می‌کند را تغییر دهید، می‌توانید درخواستی برای تغییر در دفعات تکرار Crawl Googlebot ارسال کنید. ارائه‌دهندگان سرویس هاستینگ می‌توانند مالکیت آدرس‌های IP خود را هم بررسی کنند.

خطاهای مربوط به اتصال شبکه

timeout: سرور زمان انتظار را متوقف می‌کند.

Truncated headers: گوگل موفق شده به سرور شما وصل شود، اما قبل از اینکه عناوین به‌صورت کامل فرستاده شوند ارتباط را قطع کرده است. لطفاً کمی بعد دوباره تلاش کنید.

Connection reset: سرور شما با موفقیت درخواست گوگل را پردازش کرده؛ اما به دلیل ریست شدن اتصال سرور، هیچ محتوایی را برنمی‌گرداند. لطفاً بعداً دوباره تلاش کنید.

Truncated response: سرور شما قبل از اینکه بتواند پاسخی دریافت کند اتصال را قطع کرده است. درنتیجه جواب به دست رسیده ناقص به نظر می‌رسد.

Connection refused: گوگل نتوانسته به سایت شما دسترسی داشته باشد چون سرور شما امکان برقراری اتصال را رد کرده است. ممکن است سرویس هاستینگ شما Googlebot را بلاک کرده باشد و با مشکلی در تنظیمات فایروال وجود داشته باشد.

Connect failed: گوگل نتوانسته به سرور شما وصل شود. چون شبکه غیرقابل دسترس یا غیرفعال است. این احتمال وجود دارد که سرور شما اورلود شده و یا تنظیماتش اشتباه است. اگر مشکل همچنان ادامه دارد با سرویس هاستینگ خود تماس بگیرید.

Connect timeout: گوگل نتوانسته به سرور شما وصل شود.

No response: گوگل نتوانسته به سرور شما وصل شود، اما اتصال قبل از اینکه سرور بتواند داده‌ای ارسال کند قطع شده است.

خطای Robot failures

این خطا مربوط به عدم امکان دسترسی به فایل robots.txt سایت شما است. قبل از اینکه Googlebot سایت شما را Crawl کند؛ و همچنین بعد از آن هم روزی یک‌بار؛ Googlebot فایل robots.txt شما را بررسی می‌کند تا ببیند کدام صفحات نباید Crawl شوند. شاید فایل robots.txt شما وجود داشته باشد اما قابل دسترس نباشد (به‌عبارت‌دیگر، اگر در پاسخ یک کد وضعی HTTP ٤٠٤ یا ۲۰۰ اعلام نکند). در این صورت فرآیند Crawl را به تعویق می‌افتد. به‌این‌ترتیب، Googlebot در اولین فرصتی که بتوانند به فایل robots.txt شما دسترسی پیدا کند به سایت شما برمی‌گردد و آن را Crawl می‌کند.

برطرف کردن خطاهای فایل robots.txt

  • لزوماً به یک فایل txt نیاز ندارید

تنها در صورتی به یک فایل robots.txt نیاز دارید که سای شما شامل محتوایی باشد که نخواهید موتورهای جستجو آن را فهرست کنند. اگر می‌خواهید موتورهای جستجو تمام محتوای سایت شما را در فهرست خود قرار دهند، نیاز به یک فایل robots.txt یا حتی یک فایل خالی نخواهید داشت. اگر فایل robots.txt ندارید، سرور شما در پاسخ به درخواست گوگل یک کد ۴۰۴ می‌فرستد و سپس ما به Crawl سایت شما ادامه می‌دهیم و مشکلی نخواهد بود.

  • مطمئن شوید گوگل می‌تواند به فایل txt شما دسترسی پیدا کند

این احتمال وجود دارد که وقتی ربات گوگل بخواهد به فایل robots.txt دسترسی پیدا کند، سرور شما یک خطای ۵xx بدهد (غیرقابل دسترس). ابتدا بررسی کنید که شرکت هاستینگ شما Googlebot را بلاک نکرده باشد. اگر فایروال دارید، دقت کنید که تنظیمات آن باعث بلاک شدن گوگل نشود.

مروری بر خطاهای URL

بخش خطاهای URL در این گزارش، به دسته‌بندی‌هایی تقسیم شده است که می‌تواند تا ۱۰۰۰ خطای URL مخصوص به هر دسته‌بندی را نمایش دهد. لزوماً تک‌تک خطاهایی که در این بخش می‌بینید نیازی به اقدامی از سوی شما ندارند؛ اما بهتر است روی این بخش نظارت داشته باشید و خطاهایی که ممکن است تأثیری منفی روی کاربران و ردیاب‌های گوگل داشته باشند را ببینید. ما کار را برای شما ساده‌تر کرده‌ایم و مهم‌ترین خطاها را در بالای ردیف قرار داده‌ایم. این اولویت‌بندی بر اساس عوامل مختلف مانند تعداد خطاها و صفحاتی که به آن URL برمی‌گردند انجام می‌شود. به‌طور خاص بهتر است به این موارد توجه کنید:

  • URL های مهمی را که برایشان پیام «خطایی یافت نشد» می‌بینید را با ریدایرکت ۳۰۱ اصلاح کنید

دیدن پیام «خطایی یافت نشد» امری عادی است؛ اما بهتر است به خطاهای صفحات مهم دقت کنید. منظور صفحاتی است که به سایت‌های دیگر، URL های قدیمی که روی نقشه سایت خود داشته‌اید و اکنون حذف کرده‌اید، URL های اشتباه برای صفحه‌های مهم، یا URL های صفحات محبوبی از سایت شما که دیگر وجود ندارد لینک شده باشند. به‌این‌ترتیب، اطلاعاتی که برایان مهم است به‌راحتی وسط گوگل و بازدیدکنندگان سایت شما قابل دسترس خواهد بود.

  • نقشه سایت خود را به‌روزرسانی کنید

URL های قدیمی را از نقشه سایت خود حذف کنید. اگر نقشه سایت‌های جدیدی اضافه را برای جایگزین کردن نقشه سایت‌های قدیمی‌تر اضافه می‌کنید، حتماً نمونه قدیمی را پاک کنید. (نه اینکه آن را به یک نمونه قدیمی‌تر ارجاع دهید).

  • ریداریکت‌ها واضح و کوتاه باشند

اگر چند URL دارید که به ترتیبی خاص به یکدیگر ارجاع داده شده‌اند (مثلاً صفحه A > صفحه B > صفحه C > صفحه D)، شاید دنبال کردن این زنجیره برای Googlebot مشکل باشد. سعی کنید تعداد حلقه‌های این زنجیره را تا حد ممکن کم نگه دارید.

مشاهده جزئیات خطای URL

خطاهای URL را می‌توانید به چند روش ملاحظه کنید:

  • روی دانلود کلیک کید تا لیستی از ۱۰۰۰ خطای مهم مربوط به آن نوع ردیاب (مانند دسکتاپ یا موبایلی) را به دست آورید.
  • از فیلتر بالای جدول استفاده کنید تا بتوانید URL های موردنظر را پیدا کنید.
  • با دنبال کردن لینک هر URL یا URI های اپلیکیشن جزئیات خطا را ببینید.

بخش دسکتاپ و موبایل، URL هایی را به شما نمایش می‌دهند که باعث بروز خطاهای Crawl می‌شوند. همچنین وضعیت هر خطا، فهرستی از صفحاتی که به URL موردنظر برمی‌گردند و لینکی به Fetch as Google به شما نمایش می‌دهند تا بتوانید مشکلات مربوط به آن URL را برطرف کنید.

خطاهای URL به‌عنوان «اصلاح‌شده» نشانه‌گذاری کنید

وقتی مشکلی که باعث ایجاد خطا در یک مورد خاص می‌شد را برطرف کردید، می‌توانید آن را از لیست خطاها حذف کنید. این کار را به‌صورت تکی یا چندتایی انجام دهید. کادر کنار URL را انتخاب کرده و روی Mark as Fixed کلیک کنید. به‌این‌ترتیب URL مذکور از لیست حذف خواهد شد. اگرچه این روش نشانه‌گذاری صرفاً یک روش برای آسودگی شما است. اگر ردیاب گوگل در Crawl بعدی به این خطا برخورد کند، URL مذکور در هنگام Crawl، دوباره در لیست قرار خواهد گرفت.

انواع خطاهای URL

خطای سرور: وقتی خطایی از این نوع در مورد URL ها می‌بینید، به این معنی است که Googlebot نتوانسته به URL شما دسترسی داشته باشد، درخواست دچار وقفه طولانی شده است و یا سایت شما مشغول بوده است. درنتیجه، Googlebot مجبور به صرف‌نظر کردن از آن درخواست شده است.

Soft ٤٠٤ : معمولاً وقتی یک بازدیدکننده می‌خواهد صفحه‌ای از سایت شما را ببیند که وجود ندارد، سرور وب یک خطای ۴۰۴ (به معنی یافت نشد) به او نشان می‌دهد. این کد پاسخگویی HTTP خیلی واضح به مرورگر و موتور جستجو می‌گوید که صفحه موردنظر وجود ندارد. درنتیجه، محتوای صفحه (اگر محتوایی داشته باشد) توسط موتورهای جستجو فهرست یا Crawl نمی‌شود.

خطای soft ٤٠٤ زمانی رخ می‌دهد که سرور شما یک صفحه واقعی را برای URL که اصلاً روی سایت شما وجود ندارد نمایش می‌دهد. این اتفاق معمولاً وقتی رخ می‌دهد که سرور شما URL های مشکل‌دار یا آن‌هایی که وجود ندارند را به‌عنوان یک URL بدون ایراد می‌شناسد، سپس کاربر را به یک صفحه سالم مانند صفحه خانه یا یک صفحه ۴۰۴ ساخته شده هدایت می‌کند.

این کار یک ایراد محسوب می‌شود. چون موتورهای جستجو زمان زیادی را صرف Crawl و فهرست کردن URL هایی از سایت شما که وجود ندارند یا تکراری هستند صرف می‌کنند. این موضوع تأثیری منفی روی میزان Crawl شدن سایت شما خواهد داشت. چون URL های واقعی و منحصربه‌فرد شما فوراً شناسایی نمی‌شود. همچنین به دفعات زیاد هم بازدید نمی‌شوند چون Googlebot زمانی را به خاطر صفحاتی که وجود ندارند هدر می‌دهد.

اگر صفحه شما واقعاً حذف شده است و جایگزینی هم ندارد، پیشنهاد می‌کنیم سرور خود را به‌گونه‌ای تنظیم کنید که همیشه یک کد پاسخ ۴۰۴ (به معنی یافت نشد) یا ۴۱۰ (به معنی حذف شده) در پاسخ به درخواست بازدید صفحاتی که وجود ندارند نشان دهد. برای وقتی که یک کد ۴۰۴ به‌عنوان پاسخ می‌خواهد ارسال شود، یک صفحه شخصی ۴۰۴ بسازید تا با این کار تجربه کاربری را بهبود بخشید. برای مثال، می‌توانید یک صفحه شامل فهرستی از محبوب‌ترین صفحات خود، یا لینکی به صفحه خانه سایت و یا یک لینک به ثبت بازخورد در آن قرار دهید؛ اما حتماً باید به خاطر داشته باشید که ساختن صفحه‌ای که فقط یک پیام ۴۰۴ را نمایش دهد کافی نیست. لازم است کد پاسخ HTTP ٤٠٤ یا ۴۰۱ صحیح را هم ارسال کنید.

۴۰۴ : Googlebot می‌خواهد یک URL را ببینید که روی سایت شما وجود ندارد.

اصلاح خطاهای ۴۰۴

اکثر خطاهای ۴۰۴ روی رتبه‌بندی سایت شما در نتایج گوگل تأثیری ندارد و می‌توانید از آن‌ها چشم‌پوشی کنید. این خطاها عموماً توسط خطاهای املایی، تنظیمات اشتباه سایت و یا تلاش زیاد گوگل برای شناسایی و Crawl لینک‌های گنجانده شده در محتوای سایت ازجمله جاوا اسکریپت ایجاد می‌شود. در اینجا به برخی نکا که می‌تواند به بررسی و برطرف کردن خطاهای ۴۰۴ کمک کند می‌پردازیم:

آیا اصلاح کردنش ارزشش را دارد؟ بسیاری از خطاهای ۴۰۴ ارزش اصلاح کردن ندارند. دلیلش را به شما می‌گوییم: ۴۰۴ های خود را بر اساس اولویت مرتب کنید و آن‌هایی که باید اصلاح شوند را درست کنید. می‌توانید با خیال راحت از بقیه بگذرید چون ۴۰۴ ها به رتبه‌بندی یا نحوه فهرست شدن سایت شما لطمه نمی‌زنند.

  • اگر صفحه‌ای است که حذف شده است و جایگزین یا مشابهی ندارد، کار صحیح این است که یک ۴۰۴ برای پاسخ به درخواست بازدید قرار دهید.
  • اگر URL نادرستی است که توسط یک اسکریپت ایجاد شده یا اصلاً روی سایت شما وجود نداشته است، نیازی نیست نگران این مشکل باشید. ممکن است دیدن آن در صفحه گزارش برایتان آزاردهنده باشد، اما نیازی به اصلاح آن نیست. مگر اینکه URL مذکور لینکی باشد که دچار یک خطای املایی رایج باشد (در ادامه توضیح داده شده است).

محل لینک‌های نادرست را پیدا کنید. روی URL کلیک کنید تا اطلاعاتی که توسط این صفحات لینک شده‌اند را ببینید. نحوه اصلاح آن به این بستگی دارد که لینک موردنظر از سایت خود شما نشأت می‌گیرد یا از سایت دیگری می‌آید:

لینک‌هایی که از سایت خود به صفحات حذف شده می‌روند را اصلاح کنید، یا اگر امکانش وجود دارد آن‌ها را پاک کنید.

* اگر محتوای موردنظر جابجا شده است، یک مسیر ارجاع (redirect) اضافه کنید.

* اگر محتوا را برای همیشه حذف کرده‌اید و قصد ندارید آن را با محتوایی جدیدتر و مرتبط جایگزین کنید، بگذارید URL قدیمی یک کد ۴۰۴ یا ۴۰۱ پاسخ دهد. در حال حاضر گوگل ۴۰۱ ها (حذف شده) را همانند ۴۰۴ ها (یافت نشده) تلقی می‌کند. اگر کدی غیر از ۴۰۴ یا ۴۰۱ برای صفحه‌ای که وجود ندارد پاسخ دهید یا بجای نمایش یک کد ۴۰۴ به کاربران، آن‌ها را به صفحه‌ای دیگر مانند صفحه خانه سایت هدایت کنید، ممکن است به مشکل برخورید. چنین صفحه‌هایی soft ٤٠٤ نامیده می‌شوند و ممکن است هم کاربران و هم موتورهای جستجو را سردرگم کنند.

* اگر URL ناشناخته است: ممکن است گاهی برای URL هایی که هیچ‌وقت در سایت شما وجود نداشته‌اند خطای ۴۰۴ ببینید. این URL های غیرمنتظره ممکن است توسط Googlebot ایجاد شده باشند. این اتفاق در حین تلاش Googlebot برای دنبال کردن لینک‌های یافت شده در جاوا اسکریپت، فایل‌های فلش، یا دیگر محتواهای داخل سایت و یا لینک‌هایی که فقط داخل نقشه سایت وجود دارند می‌افتد. برای مثال، ممکن است سایت شما از کدی شبیه به کد زیر برای شناسایی دانلود فایل در Google Analytics استفاده کند:

<a href=”helloworld.pdf”onClick=”_gaq.push([‘_trackPageview’,’/download-helloworld’]);”>Hello World PDF</a> وقتی Googlebot این کد را می‌بیند، ممکن است سعی کند URL روبرو را دنبال کند، حتی اگر یک صفحه واقعی نباشد:http://www.example.com/download-helloworld

در این مورد، این لینک ممکن است به شکل یک خطای ۴۰۴ (یافت نشده) در گزارش خطاهای Crawl نشان داده شود. گوگل در تلاش است تا از بروز این نوع خطای Crawl جلوگیری کند. این خطا هیچ تأثیری روی Crawl یا رتبه‌بندی سایت شما ندارد.

لینک‌های سایت‌های دیگر که غلط املایی دارند را اصلاح کنید. این کار را با ریدایرکت ۳۰۱ انجام دهید. برای مثال، املای غلط در یک URL ( example.com.redshoos بجای www.example.com/redshoes) احتمالاً وقتی رخ می‌دهد که فردی که در حال ایجاد لینک به سایت شما بوده یک کلمه را اشتباه تایپ کرده باشد. در این موارد، می‌تواند URL غلط را با ایجاد یک ریدایرکت ۳۰۱ به URL صحیح اصلاح کنید. همچنین می‌توانید با وبمستر سایتی که لینک آن اشتباه است تماس بگیرید و بخواهید که لینک را اصلاح یا حذف کنند.

 

از بقیه خطاها صرف‌نظر کنید. محتوای جعلی ایجاد نکنید، آن‌ها را به صفحه خانه ارجاع ندهید و یا با استفاده از robots.txt این URL ها را بلاک نکنید. همه این کارها فقط کار ما را برای شناسایی ساختار سایت شما و پردازش بهینه آن مشکل می‌کند. ما این‌ها را خطاهای soft ٤٠٤ می‌خوانیم. به یاد داشته باشید که کلیک کردن روی گزینه «این مشکل برطرف شده است» در گزارش خطاهای Crawl تنها به‌صورت موقتی این خطای ۴۰۴ را پنهان می‌کند. دفعه بعد که گوگل سعی کند آن URL را Crawl کند دوباره این خطا باز خواهد گشت. (وقتی گوگل URL را یک‌بار Crawl کند، می‌تواند تا همیشه برای Crawl آن URL تلاش کند. ایجاد یک ریدایرکت سطح ۳۰۰ نوبت بعدی این Crawl را به تأخیر می‌اندازد و این زمان می‌تواند بسیار طولانی باشد). دقت کید که ثبت درخواست حذف URL به کمک ابزار حذف URL، باعث حذف این خطا از گزارش نخواهد شد.

اگر URL در سایت شما وجود دارد که آن را نمی‌شناسید، می‌توانید از آن صرف‌نظر کنید. این خطاها زمانی رخ می‌دهند که فردی URL هایی را مرور می‌کند که در سایت شما وجود ندارد. احتمالاً فردی در تایپ آدرس موردنظر در مرورگر اشتباه کرده و یا لینک URL به اشتباه تایپ شده است. درهرصورت، بد نیست برخی از این URL های نادرست را طبق روندی که در بالا توضیح داده شد بررسی کنید.

Access denied

به‌طورکلی، گوگل محتوا را با دنبال کردن لینک‌های از صفحه‌ای به صفحه دیگر پیدا می‌کند. Googlebot برای اینکه بتواند صفحه‌ای را Crawl کند، باید به آن دسترسی داشته باشد. ممکن است مشاهده غیرمنتظره خطای عدم دسترسی غیرمنتظره‌ای به یکی از دلایل زیر باشد:

  • Googlebot نتوانسته به URL دسترسی داشته باشد. چون سایت شما کاربران را ملزم می‌کند که برای دیدن تمام محتوا یا بخشی از آن باید وارد ناحیه کاربری سایت شوند.
  • سرور شما با استفاده از یک پروکسی کاربران را ملزم به احراز هویت می‌کند. یا ممکن است مرکز ارائه هاستینگ شما مانع گوگل از دسترسی به سایت شما شده باشد.

نحوه اصلاح:

  • مطمئن شوید که txt شما آن‌طور که باید کار می‌کند و گوگل را بلاک نمی‌کند. ابزار تست robots.txt به شما اجازه می‌دهد نحوه تشریح محتوای فایل robots.txt شما توسط Googlebot را کاملاً ببینید. Googlebot همان user-agent گوگل است.

از Fetch as Google استفاده کنید تا بدانید Googlebot سایت شما را به چه شکل می‌بیند. دانستن این موضوع کمک بزرگی در حل مشکلات مربوط به محتوا یا پیدا شدن آن‌ها در نتایج جستجو خواهد بود.

Not followed: خطاهای Not followed، URL هایی را نمایش می‌دهد که گوگل نتوانسته دنبال کند. همچنین همراهش اطلاعاتی درباره علت بروز این خطا بیان می‌کند. تعدادی از دلایلی که چرا Googlebot نمی‌تواند برخی URL های سایت شما را دنبال کند شرح می‌دهیم:

فلش، جاوا اسکریپت، محتوای فعال: برخی امکانات ازجمله جاوا اسکریپت، کوکی‌ها، session ID ها، قالب‌ها، DHTML یا فلش ممکن است Crawl سایت شما را برای موتورهای جستجو سخت کنند. به موارد زیر دقت کنید:

  • با استفاده از یک مرورگر متنی مانند Lynx سایت خود را بررسی کنید. چون بسیاری از موتورهای جستجو سایت شما را همان‌طوری می‌بینند که Lynx می‌بیند. اگر قابلیت‌هایی مانند جاوا اسکریپت، کوکی‌ها، session ID ها، قالب‌ها، DHTML یا فلش مانع دیدن تمام سایت شما در یک مرورگر متنی می‌شوند، بنابراین ردیابان موتورهای جستجو هم در دیدن آن مشکل خواهند داشت.
  • به کمک ابزار Fetch s Google ببینید که گوگل چطور سایت شما را می‌بیند.
  • اگر از صفحات پویا استفاده می‌کنید (مثلاً اگر URL شما حاوی یک کاراکتر؟ باشد)، دقت کنید که همه ردیابان موتورهای جستجوی نمی‌توانند صفحات پویا و ثابت را Crawl کنند. به‌طورکلی، پیشنهاد می‌کنیم که پارامترها را تا حد ممکن کمتر و کوتاه بکار برید. اگر درباره نحوه کارکرد پارامترها برای سایت خود مطمئن هستید، می‌توانید تصمیم مناسب درباره آن‌ها را به گوگل اطلاع دهید.

ریداریکت‌ها

  • اگر دائماً صفحه‌ای را به صفحه دیگر ریدایرکت می‌کنید، دقت کنید که کد وضعیتی HTTP صحیح را بکار ببرید (۳۰۱ جابجا شده است).
  • هر جا که می‌توانید بجای لینک‌های نسبی از لینک‌های مطلق استفاده کنید. (برای مثال، برای لینک کردن یک صفحه به سایت خود بجای استفاده از html آن را به www.example.com/mypage.html لینک کنید).
  • سعی کنید هرکدام از صفحات سایت شما حداقل از طریق لینک متنی ثابت قابل دسترس باشد. به‌طورکلی، تعداد ریدایرکت‌های لازم برای دنبال کردن یک لینک از صفحه‌ای به صفحه دیگر را به حداقل برسانید.
  • مطمئن شوید که ریدایرکت‌هایتان به صفحات درست بروند! گاهی ریدایرکت‌ها به خودشان برمی‌گردند (و یک خطای چرخه‌ای ایجاد می‌کنند) و یا به URL های نامعتبر می‌رسد.
  • از URL های ریدایرکت شده در نقشه سایت خود استفاده نکنید.
  • URL ها تا حد امکان کوتاه باشند. مراقب باشید اطلاعاتی مانند session ID را به‌طور خودکار به URL های ریدایرکت شده‌تان پیوست نکنید.
  • مطمئن شوید که سایت شما به بات‌های جستجو اجازه می‌دهد بتوانند بدون session ID سایت شما را Crawl کنند. همچنین هیچ ابزار دیگری هم مسیر عبور آن‌ها از سایت را دنبال نمی‌کند.

خطای DNS: وقتی این خطا را برای URL ها می‌بینید، به این معنی است که Googlebot یا نتوانسته با سرور DNS ارتباط برقرار کند و یا سرور شما هیچ ورودی برای سایت شما نداشته است.

خطاهای URL مربوط به دستگاه‌های همراه (گوشی هوشمند)

ریدایرکت‌های اشتباه:

خطای ریدایرکت اشتباه در بخش خطاهای URL در صفحه Crawl > Crawl Errors و در بخش گوشی‌های هوشمند نمایش داده می‌شود.

بعضی سایت‌ها از URL های جداگانه‌ای برای استفاده کاربران دستگاه‌های دسکتاپ و گوشی هوشمند استفاده می‌کنند و صفحات دسکتاپ خود را به نحوی تنظیم می‌کنند که کاربران موبایل را به نسخه موبایلی سایت هدایت کنند (مانند m.example.com). یک ریدایرکت اشتباه زمانی رخ می‌دهد که یک صفحه دسکتاپ به اشتباه کاربران موبایل را به یک صفحه موبایلی هدایت می‌کند که هیچ ارتباطی با صفحه درخواستی‌شان ندارد. یک نمونه رایج این خطا زمانی رخ می‌دهد که تمام صفحات دسکتاپ، کاربران موبایل را به صفحه خانه سایت که برای موبایل تنظیم شده است هدایت می‌کنند. در شکل زیر ریدایرکت‌هایی که با فلش قرمزرنگ مشخص شده‌اند نادرست هستند.

www.example.com/ m.example.com/

www.example.com/foo m.example.com/foo

www.example.com/bar m.example.com/bar

این ریدایرکت، جریان کاری کاربران را مختل کرده و می‌تواند باعث شود که دیگر از سایت استفاده نکنند و سراغ سایت دیگری بروند.

در ادامه به ارائه نکاتی می‌پردازیم که می‌تواند در ایجاد یک تجربه جستجوی مناسب برای موبایل و جلوگیری از ریدایرکت‌های نادرست به شما کمک کند:

  • چند بار روی گوشی موبایل خودتان جستجو انجام دهید یا مرورگر خود را روی حالت موبایلی قرار دهید تا رفتار سایت خود را ببینید.
  • از URL های نمونه ارائه شده در این گزارش به‌عنوان نقطه شروعی برای رفع ایرادات در محل دقیق مشکل تنظیمات سرور خود استفاده کنید.
  • سرور خود را به نحوی تنظیم کنید که کاربران گوشی موبایل را به URL های جایگزین مناسب در نسخه موبایل سایت شما هدایت کند.
  • اگر صفحه‌ای در سایت شما وجود دارد که جایگزین موبایلی ندارد، بجای اینکه کاربران را به صفحه خانه نسخه موبایلی هدایت کنید، آن‌ها را در همان نسخه دسکتاپ نگه دارید. در چنین مواردی اگر هیچ کاری انجام ندهید بهتر از این است که کار اشتباهی انجام دهید.
  • بهتر است استفاده از یک طراحی وب واکنش گرا را هم مدنظر قرار دهید. این طراحی از همان محتوای یکسان برای کاربران دسکتاپ و موبایل استفاده می‌کند.
  • درنهایت، پیشنهاد‌های ما را برای داشتن URL های جداگانه برای کاربران دسکتاپ و موبایل بخوانید.

URL های بلاک شده برای گوشی‌های هوشمند

خطای «بلاک شده» را می‌توانید در بخش گوشی هوشمند در قسمت خطاهای URL در صفحه Crawl > Crawl Errors ببینید. اگر در مورد یک URL سایت خود با خطای «بلاک شده» روبرو شدید، به این معنی است که URL موردنظر در فایل robots.txt سایت شما برای Googlebot گوشی‌های هوشمند گوگل بلاک شده است.

این موضوع لزوماً یک مشکل مختص گوشی‌های هوشمند نیست (برای مثال، ممکن است صفحات دسکتاپ معادل آن‌ها هم بلاک شده باشند)؛ اما عموماً نشانگر این است که باید فایل robots.txt را تغییر دهید تا اجازه Crawl URL های مربوط به گوشی‌های هوشمند را بدهد.

وقتی URL های مربوط به گوشی‌های هوشمند بلاک شده باشند، صفحاتی موبایل غیرقابل Crawl خواهند بود و به همین دلیل ممکن است در میان نتایج جستجو دیده نشوند.

اگر برای URL های سایت خود با خطای «بلاک شده» برای Crawl موبایلی روبرو شدید، فایل robots.txt سایت خود را بررسی کنید و مطمئن شوید که سهواً بخشی‌هایی از سایت‌ها در برابر Crawl توسط Googlebot مخصوص گوشی هوشمند بلاک نکرده باشید.

امتیاز این نوشته

امتیاز

امتیاز کاربران: 4.73 ( 2 رای)

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا