امکان Crawl سایت شما توسط موتورهای جستجو، کلید اصلی دیده شدن سایت شما در میان نتایج توسط کاربران و افزایش آمار بازدید سایت است. با شناخت بخشهای مختلف گزارش خطاهای Crawl سایت و آشنایی با نحوه رفع این مشکلات میتوانید مطمئن شوید که محتوای سایت شما هدر نرفته و عملکرد خود برای جذب بازدید و کاربر را به نحو احسن انجام میدهد.
کنسول جستجوی گوگل کمک میکند تا شیوه عملکرد گوگل نسبت به سایت خود را بررسی کنید در واقع Google search console هر آنچه را که خزندههای گوگل بهدست میآورند، نمایش میدهد. یکی از بخشهای بسیار مهم و کاربردی این ابزار، بخشی تحت عنوان Crawl Errors است که در آن خطاهایی که خزندههای گوگل هنگام بررسی سایت شما با آنها مواجه شده است را به نمایش میگذارد.
گزارش خطاهای کراول Crawl Errors Repot یک سایت، جزئیاتی درباره URL های سایت ارائه میدهد که گوگل نتوانسته آنها را Crawl کند و یا کد خطای HTTP داشتند.
این گزارش شامل دو بخش اصلی است:
- خطاهای سایت: این بخش از گزارش مشکلات اصلی مربوط به ۹۰ روز گذشته را نشان میدهد که مانع دسترسی Googlebot به تمام سایت شما شدهاند. (با کلیک بر روی هر کادر میتوانید جدول مربوط به آن را ببینید).
- خطاهای URL: این بخش خطاهایی را نشان میدهد که گوگل در حین تلاش برای Crawl برخی صفحات دسکتاپ یا موبایلی خاص به آنها برخورده است. هر بخش اصلی در گزارش خطاهای URL، مربوط به مکانیسمهای Crawl مختلفی است که گوگل برای دسترسی به صفحات شما استفاده میکند. خطاهای نمایش داده شده مربوط به آن صفحات خاص هستند.
مروری بر خطاهای سایت
بخش خطاهای سایت در گزارش خطاهای Crawl سایتی که بدون مشکل در حال فعالیت است، هیچ خطایی نشان داده نمیشود (این موضوع در مورد اکثر سایتهایی که Crawl میشود صادق است). اگر گوگل شمار خطاهای قابلتوجهی در سایت تشخیص دهد، آن را در قالب یک پیام به شما گزارش میدهیم. فرقی هم نمیکند که ابعاد سایت شما چقدر باشد.
وقتی برای بار اول صفحه خطاهای Crawl را میبینید، بخش خطاهای سایت یک کد وضعیت را در کنار هر یک از سه نوع خطا نشان میدهد. این سه نوع خطا شامل DNS، اتصال شبکه و robots.txt میشود. اگر علامتی غیر از یک تیک سبزرنگ میبینید، میتوانید روی کادر کلیک کنید تا نموداری از جزئیات مربوط به اطلاعات Crawl ٩٠ روز گذشته را مشاهده کنید.
تعداد بالای خطاها
اگر سایت شما تعداد خطای ۱۰۰ درصدی در هر یک از سه دسته ذکر شده را نشان بدهد، به این معنی است که سایت شما غیرقابل دسترس است و یا به نحوی در تنظیمات دچار مشکل است. احتمالات مختلفی میتوانند باعث این مشکل شود که میتوانید آنها را بررسی کنید:
- مطمئن شوید تغییرات احتمالی سایت اجازه دسترسی به بخشی از سایت را تغییر نداده باشد.
- اگر تغییراتی در سایت اعمال کردهاید، مطمئن شوید که لینکهای خارجی هنوز کار میکنند.
- هر نوع کد دستوری جدید را بررسی کنید و اطمینان یابید که بهدرستی کار میکنند.
- تمام دایرکتوریها وجود داشته باشند و سهواً جابجا یا حذف نشده باشند.
اگر هیچیک از این اتفاقات در سایت شما رخ نداده باشد، احتمالاً این تعداد بالای خطا تنها یک اشکال موقتی است و یا میتواند ناشی از یک عامل خارجی باشد (فردی لینکی به صفحاتی که وجود ندارد ساخته باشد) پس شاید اصلاً ایرادی وجود نداشته باشد.
تعداد پایین خطاها
اگر سایت شما دارای شمار خطایی کمتر از ۱۰۰ درصد در هر یک از دستهبندیهای ذکر شده باشد، ممکن است نشانگر یک وضعیت موقتی باشد؛ اما درعینحال ممکن است به معنی اورلود شدن سایت و یا تنظیمات اشتباه آن باشد. بهتر است این مشکلات را بررسی کنید و در صورت لزوم برای راهنمایی از یک متخصص کمک بگیرید. تجربه به ما نشان داده است که سایتی که بهخوبی تنظیم شده باشد نباید در این دستهبندیها خطایی داشته باشد.
انواع خطاهای سایت
خطاهای زیر در بخش «سایت» گزارش نشان داده میشوند.
خطاهای DNS
منظور از خطای DNS چیست؟
خطای DNS یعنی Googlebot نمیتواند به سرور DNS وصل شود. مشکل میتواند در دسترس نبودن سرور و یا مربوط به ارتباط DNS با دامین شما باشد. اکثر هشدارها و خطاهای DNS روی امکان دسترسی Googlebot به سایت شما تأثیری ندارند؛ اما ممکن است نشانهای از وجود تأخیر زیاد باشند که میتواند تأثیری منفی روی استفاده کاربران شما بگذارد.
اصلاح خطاهای DNS
- مطمئن شوید گوگل میتواند سایت شما را Crawl کند
از ابزار Fetch as Google روی یک صفحه اصلی مانند صفحه خانه استفاده کنید. اگر محتوای صفحه خانه بدون هیچ مشکلی برگشت، میتوانید مطمئن شوید که گوگل بهخوبی به سایت شما دسترسی دارد.
- در مورد خطاهای مداوم و پرتکرار DNS از ارائهدهنده DNS خود کمک بگیرید
معمولاً ارائهدهنده DNS شما و سرویس هاستینگ وب شما یکسان هستند.
- سرور خود را به نحوی تنظیم کنید که به اسم هاستهایی که وجود ندارند با یک کد خطای HTTP ماد ۴۰۴ یا ۵۰۰ پاسخ دهد
سایتی مانند example.com را میتوان به نحوی تنظیم کرد که با یک Wildcard DNS به درخواستهایی برای آدرسهایی همچون foo.example.com، made-=up-name.examplae.com یا هر دامین فرعی دیگر پاسخ دهد. این موضوع وقتی قابل درک است که یک سایت با محتوای کاربر محور، به هر یک از کاربران یک دامین مخصوص خود میدهد (http://username.example.com). اگرچه در بعضی موارد این نوع تنظیم میتواند باعث شود که محتوا چندین بار در هاستهای متعدد تکرار شود. این موضوع امری بیهوده است و حتی میتواند روی Crawl Googlebot هم تأثیر بگذارد.
فهرست خطای DNS
Timeout DNS: گوگل نتوانسته به سایت شما دسترسی پیدا کند. چون سرور DNS شما در زمان مشخص به درخواست پاسخ نداده است.
DNS Lookup: گوگل نتوانسته به سایت شما دسترسی پیدا کند چون سرور DNS شما نتوانسته نام هاست شما را شناسایی کند (مانند www.example.com).
خطاهای سمت سرور
وقتی با این نوع خطا در URL های خود مواجه میشوید، به این معنی است که Googlebot نتوانسته به سایت شما دسترسی داشته باشد، زمان درخواست سپری شده و یا سایت شما مشغول بوده است. درنتیجه Googlebot مجبور شده است درخواست را رد کند.
اصلاح خطاهای اتصال به سرور
-
از حجم بارگذاریهای سنگین صفحات بکاهید تا درخواستها بهصورت پویا انجام شوند
سایتی که محتوایی یکسان را برای چند URL مختلف ارائه میدهد، محتوا را به شکلی پویا ارائه میکند (مثلاً www.example.com/shoes.php?color=red&size=٧ محتوایی یکسان با www.example.com/shoes.php?size=٧&color=red ارائه میکند). زمان پاسخگویی صفحات پویا میتواند بیشازحد طولانی باشد که به مشکلات محدودیت زمانی منجر میشود. همچنین ممکن است سرور یک وضعیت اورلود شده را برگرداند و از Googlebot بخواهد که سایت را آهستهتر Crawl کند. بهطورکلی، پیشنهاد میکنیم که پارامترهای کوتاه و در تعداد کم بکار ببرید. اگر کاملاً میدانید پارامترها چه عملکردی برای سایت شما دارند، میتوانید نحوه مدیریت آنها را به گوگل اعلام کنید.
-
مطمئن شوید سرور هاست سایت شما غیرفعال، اورلود شده و یا دچار مشکلات در تنظیم نباشد
اگر مشکلات اتصال، محدودیت زمانی و یا پاسخگویی سرور همچنان ادامه داشتند، با مرکز هاست وب خود موضوع را مطرح کنید. بد نیست گزینه افزایش توان ترافیکی سایت خود را هم در نظر بگیرید.
-
بررسی کنید سهواً گوگل را بلاک نکرده باشید
ممکن است به دلیل یک مشکل سیستمی مانند یک مشکل در تنظیمات DNS، یک فایروال یا سیستم امنیتی DoS با تنظیمات اشتباه، یا هماهنگی نادرست سیستم مدیریت محتوا، گوگل را بلاک کرده باشید. سیستمهای امنیتی بخش مهمی از یک سرویس هاستینگ خوب محسوب میشوند و عموماً بهگونهای تنظیم میشوند که بهصورت خودکار جلوی شمار غیرعادی و بالای درخواستها را بگیرد. از آنجا که Googlebot عموماً درخواستهای بیشتری نسبت به یک کاربر انسانی ارسال میکند، ممکن است توجه این سیستمهای امنیتی را به خود جلب کند. درنتیجه آنها هم Googlebot را بلاک میکنند و اجازه Crawl سایت شما را به آن نمیدهند. برای برطرف کردن این مشکل باید مشخص کنید که کدام بخش از زیرساخت سایت شما Googlebot را بلاک میکند و این مانع را بردارید. فایروال شاید تحت کنترل شما نباشد. پس شاید نیاز باشد موضوع را با مرکز ارائه هاست خود در میان بگذارید.
-
Crawl و فهرست بندی سایت توسط موتور جستجو را به شکلی هوشمندانه کنترل کنید
برخی وبمسترها عمداً جلوی دسترسی Googlebot به سایتهایشان را میگیرند و احتمالاً به کمک یک فایروال و به روشی که در بالا اشاره شد این کار را میکنند. معمولاً هدف آنها در اینگونه موارد این نیست که Googlebot را بهطورکلی بلاک کنند. بلکه میخواهند نحوه Crawl و فهرست شدن سایت خود را کنترل کنند. اگر شما همچنین هدفی دارید به موارد زیر دقت کنید:
- برای کنترل Crawl محتوای سایت شما توسط Googlebot، از پروتکل ربات خروجی استفاده کنید که شامل استفاده از یک فایل txt و تنظیم پارامترهای URL است.
- اگر نگران استفاده باتهای مخرب از حالت user agent در Googlebot هستید، باید قبل از هر چیز مطمئن شوید که این ردیاب، Googlebot است یا خیر.
اگر میخواهید تعداد دفعاتی که Googlebot سایت شما را Crawl میکند را تغییر دهید، میتوانید درخواستی برای تغییر در دفعات تکرار Crawl Googlebot ارسال کنید. ارائهدهندگان سرویس هاستینگ میتوانند مالکیت آدرسهای IP خود را هم بررسی کنند.
خطاهای مربوط به اتصال شبکه
timeout: سرور زمان انتظار را متوقف میکند.
Truncated headers: گوگل موفق شده به سرور شما وصل شود، اما قبل از اینکه عناوین بهصورت کامل فرستاده شوند ارتباط را قطع کرده است. لطفاً کمی بعد دوباره تلاش کنید.
Connection reset: سرور شما با موفقیت درخواست گوگل را پردازش کرده؛ اما به دلیل ریست شدن اتصال سرور، هیچ محتوایی را برنمیگرداند. لطفاً بعداً دوباره تلاش کنید.
Truncated response: سرور شما قبل از اینکه بتواند پاسخی دریافت کند اتصال را قطع کرده است. درنتیجه جواب به دست رسیده ناقص به نظر میرسد.
Connection refused: گوگل نتوانسته به سایت شما دسترسی داشته باشد چون سرور شما امکان برقراری اتصال را رد کرده است. ممکن است سرویس هاستینگ شما Googlebot را بلاک کرده باشد و با مشکلی در تنظیمات فایروال وجود داشته باشد.
Connect failed: گوگل نتوانسته به سرور شما وصل شود. چون شبکه غیرقابل دسترس یا غیرفعال است. این احتمال وجود دارد که سرور شما اورلود شده و یا تنظیماتش اشتباه است. اگر مشکل همچنان ادامه دارد با سرویس هاستینگ خود تماس بگیرید.
Connect timeout: گوگل نتوانسته به سرور شما وصل شود.
No response: گوگل نتوانسته به سرور شما وصل شود، اما اتصال قبل از اینکه سرور بتواند دادهای ارسال کند قطع شده است.
خطای Robot failures
این خطا مربوط به عدم امکان دسترسی به فایل robots.txt سایت شما است. قبل از اینکه Googlebot سایت شما را Crawl کند؛ و همچنین بعد از آن هم روزی یکبار؛ Googlebot فایل robots.txt شما را بررسی میکند تا ببیند کدام صفحات نباید Crawl شوند. شاید فایل robots.txt شما وجود داشته باشد اما قابل دسترس نباشد (بهعبارتدیگر، اگر در پاسخ یک کد وضعی HTTP ٤٠٤ یا ۲۰۰ اعلام نکند). در این صورت فرآیند Crawl را به تعویق میافتد. بهاینترتیب، Googlebot در اولین فرصتی که بتوانند به فایل robots.txt شما دسترسی پیدا کند به سایت شما برمیگردد و آن را Crawl میکند.
برطرف کردن خطاهای فایل robots.txt
-
لزوماً به یک فایل txt نیاز ندارید
تنها در صورتی به یک فایل robots.txt نیاز دارید که سای شما شامل محتوایی باشد که نخواهید موتورهای جستجو آن را فهرست کنند. اگر میخواهید موتورهای جستجو تمام محتوای سایت شما را در فهرست خود قرار دهند، نیاز به یک فایل robots.txt یا حتی یک فایل خالی نخواهید داشت. اگر فایل robots.txt ندارید، سرور شما در پاسخ به درخواست گوگل یک کد ۴۰۴ میفرستد و سپس ما به Crawl سایت شما ادامه میدهیم و مشکلی نخواهد بود.
-
مطمئن شوید گوگل میتواند به فایل txt شما دسترسی پیدا کند
این احتمال وجود دارد که وقتی ربات گوگل بخواهد به فایل robots.txt دسترسی پیدا کند، سرور شما یک خطای ۵xx بدهد (غیرقابل دسترس). ابتدا بررسی کنید که شرکت هاستینگ شما Googlebot را بلاک نکرده باشد. اگر فایروال دارید، دقت کنید که تنظیمات آن باعث بلاک شدن گوگل نشود.
مروری بر خطاهای URL
بخش خطاهای URL در این گزارش، به دستهبندیهایی تقسیم شده است که میتواند تا ۱۰۰۰ خطای URL مخصوص به هر دستهبندی را نمایش دهد. لزوماً تکتک خطاهایی که در این بخش میبینید نیازی به اقدامی از سوی شما ندارند؛ اما بهتر است روی این بخش نظارت داشته باشید و خطاهایی که ممکن است تأثیری منفی روی کاربران و ردیابهای گوگل داشته باشند را ببینید. ما کار را برای شما سادهتر کردهایم و مهمترین خطاها را در بالای ردیف قرار دادهایم. این اولویتبندی بر اساس عوامل مختلف مانند تعداد خطاها و صفحاتی که به آن URL برمیگردند انجام میشود. بهطور خاص بهتر است به این موارد توجه کنید:
-
URL های مهمی را که برایشان پیام «خطایی یافت نشد» میبینید را با ریدایرکت ۳۰۱ اصلاح کنید
دیدن پیام «خطایی یافت نشد» امری عادی است؛ اما بهتر است به خطاهای صفحات مهم دقت کنید. منظور صفحاتی است که به سایتهای دیگر، URL های قدیمی که روی نقشه سایت خود داشتهاید و اکنون حذف کردهاید، URL های اشتباه برای صفحههای مهم، یا URL های صفحات محبوبی از سایت شما که دیگر وجود ندارد لینک شده باشند. بهاینترتیب، اطلاعاتی که برایان مهم است بهراحتی وسط گوگل و بازدیدکنندگان سایت شما قابل دسترس خواهد بود.
-
نقشه سایت خود را بهروزرسانی کنید
URL های قدیمی را از نقشه سایت خود حذف کنید. اگر نقشه سایتهای جدیدی اضافه را برای جایگزین کردن نقشه سایتهای قدیمیتر اضافه میکنید، حتماً نمونه قدیمی را پاک کنید. (نه اینکه آن را به یک نمونه قدیمیتر ارجاع دهید).
-
ریداریکتها واضح و کوتاه باشند
اگر چند URL دارید که به ترتیبی خاص به یکدیگر ارجاع داده شدهاند (مثلاً صفحه A > صفحه B > صفحه C > صفحه D)، شاید دنبال کردن این زنجیره برای Googlebot مشکل باشد. سعی کنید تعداد حلقههای این زنجیره را تا حد ممکن کم نگه دارید.
مشاهده جزئیات خطای URL
خطاهای URL را میتوانید به چند روش ملاحظه کنید:
- روی دانلود کلیک کید تا لیستی از ۱۰۰۰ خطای مهم مربوط به آن نوع ردیاب (مانند دسکتاپ یا موبایلی) را به دست آورید.
- از فیلتر بالای جدول استفاده کنید تا بتوانید URL های موردنظر را پیدا کنید.
- با دنبال کردن لینک هر URL یا URI های اپلیکیشن جزئیات خطا را ببینید.
بخش دسکتاپ و موبایل، URL هایی را به شما نمایش میدهند که باعث بروز خطاهای Crawl میشوند. همچنین وضعیت هر خطا، فهرستی از صفحاتی که به URL موردنظر برمیگردند و لینکی به Fetch as Google به شما نمایش میدهند تا بتوانید مشکلات مربوط به آن URL را برطرف کنید.
خطاهای URL بهعنوان «اصلاحشده» نشانهگذاری کنید
وقتی مشکلی که باعث ایجاد خطا در یک مورد خاص میشد را برطرف کردید، میتوانید آن را از لیست خطاها حذف کنید. این کار را بهصورت تکی یا چندتایی انجام دهید. کادر کنار URL را انتخاب کرده و روی Mark as Fixed کلیک کنید. بهاینترتیب URL مذکور از لیست حذف خواهد شد. اگرچه این روش نشانهگذاری صرفاً یک روش برای آسودگی شما است. اگر ردیاب گوگل در Crawl بعدی به این خطا برخورد کند، URL مذکور در هنگام Crawl، دوباره در لیست قرار خواهد گرفت.
انواع خطاهای URL
خطای سرور: وقتی خطایی از این نوع در مورد URL ها میبینید، به این معنی است که Googlebot نتوانسته به URL شما دسترسی داشته باشد، درخواست دچار وقفه طولانی شده است و یا سایت شما مشغول بوده است. درنتیجه، Googlebot مجبور به صرفنظر کردن از آن درخواست شده است.
Soft ٤٠٤ : معمولاً وقتی یک بازدیدکننده میخواهد صفحهای از سایت شما را ببیند که وجود ندارد، سرور وب یک خطای ۴۰۴ (به معنی یافت نشد) به او نشان میدهد. این کد پاسخگویی HTTP خیلی واضح به مرورگر و موتور جستجو میگوید که صفحه موردنظر وجود ندارد. درنتیجه، محتوای صفحه (اگر محتوایی داشته باشد) توسط موتورهای جستجو فهرست یا Crawl نمیشود.
خطای soft ٤٠٤ زمانی رخ میدهد که سرور شما یک صفحه واقعی را برای URL که اصلاً روی سایت شما وجود ندارد نمایش میدهد. این اتفاق معمولاً وقتی رخ میدهد که سرور شما URL های مشکلدار یا آنهایی که وجود ندارند را بهعنوان یک URL بدون ایراد میشناسد، سپس کاربر را به یک صفحه سالم مانند صفحه خانه یا یک صفحه ۴۰۴ ساخته شده هدایت میکند.
این کار یک ایراد محسوب میشود. چون موتورهای جستجو زمان زیادی را صرف Crawl و فهرست کردن URL هایی از سایت شما که وجود ندارند یا تکراری هستند صرف میکنند. این موضوع تأثیری منفی روی میزان Crawl شدن سایت شما خواهد داشت. چون URL های واقعی و منحصربهفرد شما فوراً شناسایی نمیشود. همچنین به دفعات زیاد هم بازدید نمیشوند چون Googlebot زمانی را به خاطر صفحاتی که وجود ندارند هدر میدهد.
اگر صفحه شما واقعاً حذف شده است و جایگزینی هم ندارد، پیشنهاد میکنیم سرور خود را بهگونهای تنظیم کنید که همیشه یک کد پاسخ ۴۰۴ (به معنی یافت نشد) یا ۴۱۰ (به معنی حذف شده) در پاسخ به درخواست بازدید صفحاتی که وجود ندارند نشان دهد. برای وقتی که یک کد ۴۰۴ بهعنوان پاسخ میخواهد ارسال شود، یک صفحه شخصی ۴۰۴ بسازید تا با این کار تجربه کاربری را بهبود بخشید. برای مثال، میتوانید یک صفحه شامل فهرستی از محبوبترین صفحات خود، یا لینکی به صفحه خانه سایت و یا یک لینک به ثبت بازخورد در آن قرار دهید؛ اما حتماً باید به خاطر داشته باشید که ساختن صفحهای که فقط یک پیام ۴۰۴ را نمایش دهد کافی نیست. لازم است کد پاسخ HTTP ٤٠٤ یا ۴۰۱ صحیح را هم ارسال کنید.
۴۰۴ : Googlebot میخواهد یک URL را ببینید که روی سایت شما وجود ندارد.
اصلاح خطاهای ۴۰۴
اکثر خطاهای ۴۰۴ روی رتبهبندی سایت شما در نتایج گوگل تأثیری ندارد و میتوانید از آنها چشمپوشی کنید. این خطاها عموماً توسط خطاهای املایی، تنظیمات اشتباه سایت و یا تلاش زیاد گوگل برای شناسایی و Crawl لینکهای گنجانده شده در محتوای سایت ازجمله جاوا اسکریپت ایجاد میشود. در اینجا به برخی نکا که میتواند به بررسی و برطرف کردن خطاهای ۴۰۴ کمک کند میپردازیم:
آیا اصلاح کردنش ارزشش را دارد؟ بسیاری از خطاهای ۴۰۴ ارزش اصلاح کردن ندارند. دلیلش را به شما میگوییم: ۴۰۴ های خود را بر اساس اولویت مرتب کنید و آنهایی که باید اصلاح شوند را درست کنید. میتوانید با خیال راحت از بقیه بگذرید چون ۴۰۴ ها به رتبهبندی یا نحوه فهرست شدن سایت شما لطمه نمیزنند.
- اگر صفحهای است که حذف شده است و جایگزین یا مشابهی ندارد، کار صحیح این است که یک ۴۰۴ برای پاسخ به درخواست بازدید قرار دهید.
- اگر URL نادرستی است که توسط یک اسکریپت ایجاد شده یا اصلاً روی سایت شما وجود نداشته است، نیازی نیست نگران این مشکل باشید. ممکن است دیدن آن در صفحه گزارش برایتان آزاردهنده باشد، اما نیازی به اصلاح آن نیست. مگر اینکه URL مذکور لینکی باشد که دچار یک خطای املایی رایج باشد (در ادامه توضیح داده شده است).
محل لینکهای نادرست را پیدا کنید. روی URL کلیک کنید تا اطلاعاتی که توسط این صفحات لینک شدهاند را ببینید. نحوه اصلاح آن به این بستگی دارد که لینک موردنظر از سایت خود شما نشأت میگیرد یا از سایت دیگری میآید:
لینکهایی که از سایت خود به صفحات حذف شده میروند را اصلاح کنید، یا اگر امکانش وجود دارد آنها را پاک کنید.
* اگر محتوای موردنظر جابجا شده است، یک مسیر ارجاع (redirect) اضافه کنید.
* اگر محتوا را برای همیشه حذف کردهاید و قصد ندارید آن را با محتوایی جدیدتر و مرتبط جایگزین کنید، بگذارید URL قدیمی یک کد ۴۰۴ یا ۴۰۱ پاسخ دهد. در حال حاضر گوگل ۴۰۱ ها (حذف شده) را همانند ۴۰۴ ها (یافت نشده) تلقی میکند. اگر کدی غیر از ۴۰۴ یا ۴۰۱ برای صفحهای که وجود ندارد پاسخ دهید یا بجای نمایش یک کد ۴۰۴ به کاربران، آنها را به صفحهای دیگر مانند صفحه خانه سایت هدایت کنید، ممکن است به مشکل برخورید. چنین صفحههایی soft ٤٠٤ نامیده میشوند و ممکن است هم کاربران و هم موتورهای جستجو را سردرگم کنند.
* اگر URL ناشناخته است: ممکن است گاهی برای URL هایی که هیچوقت در سایت شما وجود نداشتهاند خطای ۴۰۴ ببینید. این URL های غیرمنتظره ممکن است توسط Googlebot ایجاد شده باشند. این اتفاق در حین تلاش Googlebot برای دنبال کردن لینکهای یافت شده در جاوا اسکریپت، فایلهای فلش، یا دیگر محتواهای داخل سایت و یا لینکهایی که فقط داخل نقشه سایت وجود دارند میافتد. برای مثال، ممکن است سایت شما از کدی شبیه به کد زیر برای شناسایی دانلود فایل در Google Analytics استفاده کند:
<a href=”helloworld.pdf”onClick=”_gaq.push([‘_trackPageview’,’/download-helloworld’]);”>Hello World PDF</a> وقتی Googlebot این کد را میبیند، ممکن است سعی کند URL روبرو را دنبال کند، حتی اگر یک صفحه واقعی نباشد:http://www.example.com/download-helloworld
در این مورد، این لینک ممکن است به شکل یک خطای ۴۰۴ (یافت نشده) در گزارش خطاهای Crawl نشان داده شود. گوگل در تلاش است تا از بروز این نوع خطای Crawl جلوگیری کند. این خطا هیچ تأثیری روی Crawl یا رتبهبندی سایت شما ندارد.
لینکهای سایتهای دیگر که غلط املایی دارند را اصلاح کنید. این کار را با ریدایرکت ۳۰۱ انجام دهید. برای مثال، املای غلط در یک URL ( example.com.redshoos بجای www.example.com/redshoes) احتمالاً وقتی رخ میدهد که فردی که در حال ایجاد لینک به سایت شما بوده یک کلمه را اشتباه تایپ کرده باشد. در این موارد، میتواند URL غلط را با ایجاد یک ریدایرکت ۳۰۱ به URL صحیح اصلاح کنید. همچنین میتوانید با وبمستر سایتی که لینک آن اشتباه است تماس بگیرید و بخواهید که لینک را اصلاح یا حذف کنند.
از بقیه خطاها صرفنظر کنید. محتوای جعلی ایجاد نکنید، آنها را به صفحه خانه ارجاع ندهید و یا با استفاده از robots.txt این URL ها را بلاک نکنید. همه این کارها فقط کار ما را برای شناسایی ساختار سایت شما و پردازش بهینه آن مشکل میکند. ما اینها را خطاهای soft ٤٠٤ میخوانیم. به یاد داشته باشید که کلیک کردن روی گزینه «این مشکل برطرف شده است» در گزارش خطاهای Crawl تنها بهصورت موقتی این خطای ۴۰۴ را پنهان میکند. دفعه بعد که گوگل سعی کند آن URL را Crawl کند دوباره این خطا باز خواهد گشت. (وقتی گوگل URL را یکبار Crawl کند، میتواند تا همیشه برای Crawl آن URL تلاش کند. ایجاد یک ریدایرکت سطح ۳۰۰ نوبت بعدی این Crawl را به تأخیر میاندازد و این زمان میتواند بسیار طولانی باشد). دقت کید که ثبت درخواست حذف URL به کمک ابزار حذف URL، باعث حذف این خطا از گزارش نخواهد شد.
اگر URL در سایت شما وجود دارد که آن را نمیشناسید، میتوانید از آن صرفنظر کنید. این خطاها زمانی رخ میدهند که فردی URL هایی را مرور میکند که در سایت شما وجود ندارد. احتمالاً فردی در تایپ آدرس موردنظر در مرورگر اشتباه کرده و یا لینک URL به اشتباه تایپ شده است. درهرصورت، بد نیست برخی از این URL های نادرست را طبق روندی که در بالا توضیح داده شد بررسی کنید.
Access denied
بهطورکلی، گوگل محتوا را با دنبال کردن لینکهای از صفحهای به صفحه دیگر پیدا میکند. Googlebot برای اینکه بتواند صفحهای را Crawl کند، باید به آن دسترسی داشته باشد. ممکن است مشاهده غیرمنتظره خطای عدم دسترسی غیرمنتظرهای به یکی از دلایل زیر باشد:
- Googlebot نتوانسته به URL دسترسی داشته باشد. چون سایت شما کاربران را ملزم میکند که برای دیدن تمام محتوا یا بخشی از آن باید وارد ناحیه کاربری سایت شوند.
- سرور شما با استفاده از یک پروکسی کاربران را ملزم به احراز هویت میکند. یا ممکن است مرکز ارائه هاستینگ شما مانع گوگل از دسترسی به سایت شما شده باشد.
نحوه اصلاح:
- مطمئن شوید که txt شما آنطور که باید کار میکند و گوگل را بلاک نمیکند. ابزار تست robots.txt به شما اجازه میدهد نحوه تشریح محتوای فایل robots.txt شما توسط Googlebot را کاملاً ببینید. Googlebot همان user-agent گوگل است.
از Fetch as Google استفاده کنید تا بدانید Googlebot سایت شما را به چه شکل میبیند. دانستن این موضوع کمک بزرگی در حل مشکلات مربوط به محتوا یا پیدا شدن آنها در نتایج جستجو خواهد بود.
Not followed: خطاهای Not followed، URL هایی را نمایش میدهد که گوگل نتوانسته دنبال کند. همچنین همراهش اطلاعاتی درباره علت بروز این خطا بیان میکند. تعدادی از دلایلی که چرا Googlebot نمیتواند برخی URL های سایت شما را دنبال کند شرح میدهیم:
فلش، جاوا اسکریپت، محتوای فعال: برخی امکانات ازجمله جاوا اسکریپت، کوکیها، session ID ها، قالبها، DHTML یا فلش ممکن است Crawl سایت شما را برای موتورهای جستجو سخت کنند. به موارد زیر دقت کنید:
- با استفاده از یک مرورگر متنی مانند Lynx سایت خود را بررسی کنید. چون بسیاری از موتورهای جستجو سایت شما را همانطوری میبینند که Lynx میبیند. اگر قابلیتهایی مانند جاوا اسکریپت، کوکیها، session ID ها، قالبها، DHTML یا فلش مانع دیدن تمام سایت شما در یک مرورگر متنی میشوند، بنابراین ردیابان موتورهای جستجو هم در دیدن آن مشکل خواهند داشت.
- به کمک ابزار Fetch s Google ببینید که گوگل چطور سایت شما را میبیند.
- اگر از صفحات پویا استفاده میکنید (مثلاً اگر URL شما حاوی یک کاراکتر؟ باشد)، دقت کنید که همه ردیابان موتورهای جستجوی نمیتوانند صفحات پویا و ثابت را Crawl کنند. بهطورکلی، پیشنهاد میکنیم که پارامترها را تا حد ممکن کمتر و کوتاه بکار برید. اگر درباره نحوه کارکرد پارامترها برای سایت خود مطمئن هستید، میتوانید تصمیم مناسب درباره آنها را به گوگل اطلاع دهید.
ریداریکتها
- اگر دائماً صفحهای را به صفحه دیگر ریدایرکت میکنید، دقت کنید که کد وضعیتی HTTP صحیح را بکار ببرید (۳۰۱ جابجا شده است).
- هر جا که میتوانید بجای لینکهای نسبی از لینکهای مطلق استفاده کنید. (برای مثال، برای لینک کردن یک صفحه به سایت خود بجای استفاده از html آن را به www.example.com/mypage.html لینک کنید).
- سعی کنید هرکدام از صفحات سایت شما حداقل از طریق لینک متنی ثابت قابل دسترس باشد. بهطورکلی، تعداد ریدایرکتهای لازم برای دنبال کردن یک لینک از صفحهای به صفحه دیگر را به حداقل برسانید.
- مطمئن شوید که ریدایرکتهایتان به صفحات درست بروند! گاهی ریدایرکتها به خودشان برمیگردند (و یک خطای چرخهای ایجاد میکنند) و یا به URL های نامعتبر میرسد.
- از URL های ریدایرکت شده در نقشه سایت خود استفاده نکنید.
- URL ها تا حد امکان کوتاه باشند. مراقب باشید اطلاعاتی مانند session ID را بهطور خودکار به URL های ریدایرکت شدهتان پیوست نکنید.
- مطمئن شوید که سایت شما به باتهای جستجو اجازه میدهد بتوانند بدون session ID سایت شما را Crawl کنند. همچنین هیچ ابزار دیگری هم مسیر عبور آنها از سایت را دنبال نمیکند.
خطای DNS: وقتی این خطا را برای URL ها میبینید، به این معنی است که Googlebot یا نتوانسته با سرور DNS ارتباط برقرار کند و یا سرور شما هیچ ورودی برای سایت شما نداشته است.
خطاهای URL مربوط به دستگاههای همراه (گوشی هوشمند)
ریدایرکتهای اشتباه:
خطای ریدایرکت اشتباه در بخش خطاهای URL در صفحه Crawl > Crawl Errors و در بخش گوشیهای هوشمند نمایش داده میشود.
بعضی سایتها از URL های جداگانهای برای استفاده کاربران دستگاههای دسکتاپ و گوشی هوشمند استفاده میکنند و صفحات دسکتاپ خود را به نحوی تنظیم میکنند که کاربران موبایل را به نسخه موبایلی سایت هدایت کنند (مانند m.example.com). یک ریدایرکت اشتباه زمانی رخ میدهد که یک صفحه دسکتاپ به اشتباه کاربران موبایل را به یک صفحه موبایلی هدایت میکند که هیچ ارتباطی با صفحه درخواستیشان ندارد. یک نمونه رایج این خطا زمانی رخ میدهد که تمام صفحات دسکتاپ، کاربران موبایل را به صفحه خانه سایت که برای موبایل تنظیم شده است هدایت میکنند. در شکل زیر ریدایرکتهایی که با فلش قرمزرنگ مشخص شدهاند نادرست هستند.
www.example.com/ m.example.com/
www.example.com/foo m.example.com/foo
www.example.com/bar m.example.com/bar
این ریدایرکت، جریان کاری کاربران را مختل کرده و میتواند باعث شود که دیگر از سایت استفاده نکنند و سراغ سایت دیگری بروند.
در ادامه به ارائه نکاتی میپردازیم که میتواند در ایجاد یک تجربه جستجوی مناسب برای موبایل و جلوگیری از ریدایرکتهای نادرست به شما کمک کند:
- چند بار روی گوشی موبایل خودتان جستجو انجام دهید یا مرورگر خود را روی حالت موبایلی قرار دهید تا رفتار سایت خود را ببینید.
- از URL های نمونه ارائه شده در این گزارش بهعنوان نقطه شروعی برای رفع ایرادات در محل دقیق مشکل تنظیمات سرور خود استفاده کنید.
- سرور خود را به نحوی تنظیم کنید که کاربران گوشی موبایل را به URL های جایگزین مناسب در نسخه موبایل سایت شما هدایت کند.
- اگر صفحهای در سایت شما وجود دارد که جایگزین موبایلی ندارد، بجای اینکه کاربران را به صفحه خانه نسخه موبایلی هدایت کنید، آنها را در همان نسخه دسکتاپ نگه دارید. در چنین مواردی اگر هیچ کاری انجام ندهید بهتر از این است که کار اشتباهی انجام دهید.
- بهتر است استفاده از یک طراحی وب واکنش گرا را هم مدنظر قرار دهید. این طراحی از همان محتوای یکسان برای کاربران دسکتاپ و موبایل استفاده میکند.
- درنهایت، پیشنهادهای ما را برای داشتن URL های جداگانه برای کاربران دسکتاپ و موبایل بخوانید.
URL های بلاک شده برای گوشیهای هوشمند
خطای «بلاک شده» را میتوانید در بخش گوشی هوشمند در قسمت خطاهای URL در صفحه Crawl > Crawl Errors ببینید. اگر در مورد یک URL سایت خود با خطای «بلاک شده» روبرو شدید، به این معنی است که URL موردنظر در فایل robots.txt سایت شما برای Googlebot گوشیهای هوشمند گوگل بلاک شده است.
این موضوع لزوماً یک مشکل مختص گوشیهای هوشمند نیست (برای مثال، ممکن است صفحات دسکتاپ معادل آنها هم بلاک شده باشند)؛ اما عموماً نشانگر این است که باید فایل robots.txt را تغییر دهید تا اجازه Crawl URL های مربوط به گوشیهای هوشمند را بدهد.
وقتی URL های مربوط به گوشیهای هوشمند بلاک شده باشند، صفحاتی موبایل غیرقابل Crawl خواهند بود و به همین دلیل ممکن است در میان نتایج جستجو دیده نشوند.
اگر برای URL های سایت خود با خطای «بلاک شده» برای Crawl موبایلی روبرو شدید، فایل robots.txt سایت خود را بررسی کنید و مطمئن شوید که سهواً بخشیهایی از سایتها در برابر Crawl توسط Googlebot مخصوص گوشی هوشمند بلاک نکرده باشید.