robots.txt

فایل robots.txt چیست و چه کاربردی در سئو سایت دارد؟

تمام فعالیت ها و اقدامات بهینه سازی که بر روی سایت انجام می دهیم باید توسط ربات های گوگل ایندکس شود تا اثر گذاری آن بر رتبه بندی سایت مشخص شود و در نتایج در رتبه های بهتری قرار بگیرد. به همین دلیل باید گوگل را به نحوی هدایت کنیم که صفحات سایت ما به صورت صحیح و طبق برنامه ایی که برای سئو سایت داریم ایندکس شود. یکی از این روش ها استفاده از فایل Robots.txt میباشد که در ادامه راجب آن صحبت خواهیم کرد.
این مقاله از مطالب آموزش سئو گروه تبلیغاتی فورسی است که امیدواریم مورد توجه شما قرار بگیرد.

فایل Robots.txt چیست؟

فایل Robots.txt مثل یک مجوز دهنده به ربات‌ها است. وقتی ربات‌ها می‌خواهند صفحه‌هایی از سایت را بررسی کنند، اول فایل Robots.txt را می‌خوانند. در این فایل با چند دستور ساده مشخص می‌کنیم که ربات اجازه بررسی کدام صفحه‌ها را دارد و کدام صفحه‌ها را نباید بررسی کند.
مثل تصویر زیر که در آن اجازه دسترسی به پوشه‌ای به نام photos و اجازه دسترسی به صفحه‌ای به نام files.html را ندادیم.

robots txt defined min

همانطور که گفتیم مهم‌ترین ربات‌ها در اینترنت ربات‌های موتور جستجوی گوگل هستند پس ما در ادامه مقاله هرجا می‌گوییم ربات منظورمان ربات‌های گوگل است.

البته ربات‌های دیگری متعلق به سرویس ‌دهنده‌های مختلف اینترنتی هستند. بعد از خواندن این مقاله می‌توانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید.

اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی می‌افتد؟

اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و ربات‌های موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.

اگر فایل robots.txt به درستی تهیه و آپلود نشود چه می‌شود؟

نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، ربات‌های موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و می‌توانند آن‌ها را ایندکس کنند. به عبارت دیگر، ربات‌ها فقط زمانی تغییر رفتار می‌دهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آن‌ها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخش‌های سایت ادامه خواهند داد.

از ایندکس شدن چه صفحاتی باید جلوگیری شود؟

با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.

  • صفحاتی که محتوای تکراری دارند ( duplicate content)
  • تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
  • فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و … می شوند
  • صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند ( در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
  • تمامی صفحات ادمین و پنل سایت
  • صفحه پروفایل کاربران سایت
  • صفحات چت
  • برخی از فایل های قالب که نیازی به دیده شدن توسط گوگل ندارند

فایل robots.txt

در مثال های بالا به ربات گوگل پیشنهاد می دهیم که از خزیدن و ایندکس کردن تمام صفحات مربوط به حساب های کاربری، سبد خرید و صفحات پویا که کاربران در نوار جستجو ایجاد می کنند و یا ایجاد مرتب سازی بر اساس قیمت و غیره، جلوگیری کند.
فایل robots.txt به طور عمومی در وب موجود است. برای دسترسی به پرونده robots.txt، به سادگی تایپ کنید:

www.website-example.com/robots.txt

این در دسترس بودن بدان معنی است که شما نمی توانید هیچ داده ای را درون آن ایمن یا مخفی کنید. علاوه بر این ، ربات های بد و خزنده های مخرب می توانند از یک فایل robots.txt استفاده کنند و از آن به عنوان یک نقشه تفصیلی برای حرکت در سایت شما استفاده کنند.
همچنین به خاطر داشته باشید که دستورات robots.txt فقط دستورالعمل هستند. این بدان معنی است که رباتهای جستجو می توانند سایت شما را خزش کرده و ایندکس کنند، حتی اگر به آنها دستور دهید. خبر خوب این است که اکثر موتورهای جستجو (مانند گوگل، بینگ، یاهو و یاندکس) به دستورالعمل های robots.txt احترام می گذارند.

آشنایی با ربات‌های گوگل

گوگل تعدادی ربات خزنده (Crawler) دارد که به صورت خودکار وبسایت‌ها را اسکن می‌کنند و صفحه‌ها را با دنبال کردن لینک‌ها از صفحه‌ای به صفحه دیگر پیدا می‌کنند.
لیست زیر شامل مهم‌ترین ربات‌های گوگل است که بهتر است بشناسید:

  • AdSense –  رباتی برای بررسی صفحه‌ها با هدف نمایش تبلیغات مرتبط
  • Googlebot Image – رباتی که تصاویر را پیدا و بررسی می‌کند
  • Googlebot News – رباتی برای ایندکس کردن سایت‌های خبری
  • Googlebot Video – ربات بررسی ویدیوها
  • Googlebot – این ربات صفحات وب را کشف و ایندکس می‌کند. دو نوع Desktop و Smartphone دارد

هر کدام از این ربات‌ها به صورت مداوم، صفحه‌های وبسایت را بررسی می‌کنند. شما می‌توانید در صورت نیاز هرکدام از ربات‌ها را محدود کنید.
این که ربات‌های خزنده هر چند وقت یک بار به سایت شما سر می‌زنند به چند فاکتور بستگی دارد. هر چه در طول روز  تعداد بیشتری محتوا در وب‌سایت‌تان قرار بگیرد و تغییرات سایت اهمیت زیادی داشته باشد، ربات‌های جستجوگر دفعات بیشتری به سایت شما مراجعه می‌کنند. برای مثال، در وبسایت‌های خبری که همیشه در حال انتشار خبر و به‌روزرسانی اخبارشان هستند ربات‌ها با سرعت بیشتری صفحات را بررسی و ایندکس می‌کنند.
در سرچ کنسول بخشی به نام Crawl Stats وجود دارد که دفعات بررسی صفحه‌های سایت به صورت روزانه را نمایش می‌دهد. در همین صفحه، حجم دانلود شده توسط ربات‌ها و همینطور زمان بارگذاری صفحه‌ها را می‌توانید ببینید.

فایل robots.txt
آموزش ساخت فایل robots.txt

در لاین اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent می آوریم. به شکل زیر :

User-agent: *

علامت *  به این معناست که همه ی ربات های پیمایشگر ، این دستورات را باید رعایت کنند.

در صورتی کع بخواهید فقط روبات های گوگل این محدودیت ها رو داشته باشند ، این دستور رو به این شکل داریم :

Useragent: googlebot
 

دستور Disallow در فایل روبوت

۱- برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

۲- برای عدم دسترسی به یک فولدر یا دسته از وبسایت می توانید نام آن را وارد کنید:

Disallow: /wp-admin/

۳- برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید:

Disallow: /blog/robotstxt-file/

۴- برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید:

User-agent: Googlebot-Image
Disallow: /images/image.jpg

۵-  برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید

User-agent: Googlebot-Image
Disallow: /

۶- همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif

User-agent: Googlebot
Disallow: /*.gif$

نکته مهم : توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. همچنین پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور  و در ریشه اصلی کپی کنید.

تست فایل Robots با ابزار گوگل

برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،‌می‌توانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید.

اگر وبسایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید، وقتی این ابزار تست را باز کنید از شما می‌خواهد که سایت متصل شده مورد نظر را انتخاب کنید.

بعد از انتخاب وبسایت به صفحه‌ای هدایت می‌شوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش می‌دهد. می‌توانید فایل را در همین صفحه ویرایش کنید و بعد با زدن دکمه submit صفحه‌ای باز می‌شود.

در این صفحه مثل تصویر زیر سه دکمه می‌بینید.

با دکمه اول فایل Robots.txt جدید را دانلود می‌کنید.

حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید.

بعد از آپلود، اگر دکمه View uploaded version را بزنید نسخه جدید را باز می‌کند.

در انتها هم با زدن دکمه submit از گوگل بخواهید تا فایل جدید را دریافت و بررسی کند. اگر این کارها را با موفقیت انجام دهید، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر می‌کند. برای اطمینان هم می‌توانید دوباره از همین ابزار برای مطمئن شدن استفاده کنید.

این ابزار نمی‌تواند به صورت مستقیم فایل robots.txt را ویرایش کند. بعد از زدن دکمه submit پنجره‌ای باز می‌شود که از شما می‌خواهد فایل جدید ویرایش شده را دانلود کرده و به جای فایل قبلی در سرور میزبان وبسایت جایگزین کنید.

اگر هم می‌خواهید صفحه‌های مشخصی را تست کنید،‌ کافی است آدرس آن را در نوار پایینی وارد کنید و بعد ربات گوگلی که مد نظرتان است را انتخاب کنید. هر بار که دکمه test  را بزنید در همان لحظه به شما نشان می‌دهد اجازه دسترسی ربات‌ها به صفحه را داده‌اید یا نه.

مثلاً می‌توانید بررسی کنید آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا نه. امکان به همان صفحه اجازه دسترسی ربات وب را داده باشید اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد.

فایل robots.txt

چطور از گوگل بخواهیم صفحه‌ای را در نتایج جستجو نمایش ندهد؟

گوگل بعد از این که گفت استفاده از دستورات noindex و disallow کمکی به خارج کردن صفحات از نتایج جستجو نمی‌کند، راهکارهای دیگری برای این کار معرفی کرد.

گوگل می‌گوید اگر می‌خواهید صفحه‌هایی از نتایج جستجو به صورت کامل حذف شوند باید دستوران noindex را در همان صفحه قرار دهید.

راحت‌ترین راه حذف کردن صفحه‌ای از نتایج جستجو استفاده از دستورهای به اصطلاح متا تگ (meta tag) در قسمت هد (head) صفحه است.

برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از را‌های دیگری مثل افزونه‌ها برای نوایندکس کردن استفاده کنید. در واقع افزونه‌ها هم فقط این کد را به صفحه اضافه می‌کنند.

اگر کمی با کدهای HTML آشنایی داشته باشید پس می‌دانید که هر صفحه دو قسمت هد (head) و بدنه (body) دارد. دستور نوایندکس را باید در قسمت هد قرار دهید.

بنابراین، کد شما باید این شکلی شود:

noindex in page head min

نتیجه‌گیری

بحث robots.txt چیزی نیست که بخواهید وقت زیادی روی آن بگذارید و یا به صورت مستمر آن را مورد آزمون و خطا قرار دهید. اگر نیاز به بهره‌مند شدن از این قابلیت دارید، بهترین کار استفاده از ابزار آنلاین Google Search Console است. به کمک این ابزار خیلی راحت‌تر می‌توانید فایل robots.txt خود را مدیریت، ویرایش، اشکال‌زدایی و بروزرسانی کنید.

همچنین پیشنهاد می‌شود تا حد امکان از بروزرسانی پشت هم این فایل خودداری کنید. بهترین کار این است که درست بعد از ساخت وب‌سایت، یک فایل کامل و نهایی از robots.txt تهیه کنید. بروزرسانی‌های پیاپی این فایل اگرچه در روند فعالیت سایت شما به ظاهر تأثیر زیادی نخواهد گذاشت، اما می‌تواند منجر به پیچیده شدن فرآیند دسترسی خزندگان و ربات‌ها به سایت شما شود.

0 0 دادگاه‌ها
امتیاز مطلب
اشتراک در
اطلاع از
guest
0 دادگاه‌ها
بازخورد (Feedback) های اینلاین
نمایش همه دیدگاه‌ها
0
با نوشتن دیدگاهتان ما را مهمان کنید.x
()
x