تمام فعالیت ها و اقدامات بهینه سازی که بر روی سایت انجام می دهیم باید توسط ربات های گوگل ایندکس شود تا اثر گذاری آن بر رتبه بندی سایت مشخص شود و در نتایج در رتبه های بهتری قرار بگیرد. به همین دلیل باید گوگل را به نحوی هدایت کنیم که صفحات سایت ما به صورت صحیح و طبق برنامه ایی که برای سئو سایت داریم ایندکس شود. یکی از این روش ها استفاده از فایل Robots.txt میباشد که در ادامه راجب آن صحبت خواهیم کرد.
این مقاله از مطالب آموزش سئو گروه تبلیغاتی فورسی است که امیدواریم مورد توجه شما قرار بگیرد.
فایل Robots.txt چیست؟
فایل Robots.txt مثل یک مجوز دهنده به رباتها است. وقتی رباتها میخواهند صفحههایی از سایت را بررسی کنند، اول فایل Robots.txt را میخوانند. در این فایل با چند دستور ساده مشخص میکنیم که ربات اجازه بررسی کدام صفحهها را دارد و کدام صفحهها را نباید بررسی کند.
مثل تصویر زیر که در آن اجازه دسترسی به پوشهای به نام photos و اجازه دسترسی به صفحهای به نام files.html را ندادیم.
همانطور که گفتیم مهمترین رباتها در اینترنت رباتهای موتور جستجوی گوگل هستند پس ما در ادامه مقاله هرجا میگوییم ربات منظورمان رباتهای گوگل است.
البته رباتهای دیگری متعلق به سرویس دهندههای مختلف اینترنتی هستند. بعد از خواندن این مقاله میتوانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید.
اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی میافتد؟
اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.
اگر فایل robots.txt به درستی تهیه و آپلود نشود چه میشود؟
نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، رباتهای موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و میتوانند آنها را ایندکس کنند. به عبارت دیگر، رباتها فقط زمانی تغییر رفتار میدهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آنها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخشهای سایت ادامه خواهند داد.
از ایندکس شدن چه صفحاتی باید جلوگیری شود؟
با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.
- صفحاتی که محتوای تکراری دارند ( duplicate content)
- تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
- فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و … می شوند
- صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند ( در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
- تمامی صفحات ادمین و پنل سایت
- صفحه پروفایل کاربران سایت
- صفحات چت
- برخی از فایل های قالب که نیازی به دیده شدن توسط گوگل ندارند
در مثال های بالا به ربات گوگل پیشنهاد می دهیم که از خزیدن و ایندکس کردن تمام صفحات مربوط به حساب های کاربری، سبد خرید و صفحات پویا که کاربران در نوار جستجو ایجاد می کنند و یا ایجاد مرتب سازی بر اساس قیمت و غیره، جلوگیری کند.
فایل robots.txt به طور عمومی در وب موجود است. برای دسترسی به پرونده robots.txt، به سادگی تایپ کنید:
www.website-example.com/robots.txt
این در دسترس بودن بدان معنی است که شما نمی توانید هیچ داده ای را درون آن ایمن یا مخفی کنید. علاوه بر این ، ربات های بد و خزنده های مخرب می توانند از یک فایل robots.txt استفاده کنند و از آن به عنوان یک نقشه تفصیلی برای حرکت در سایت شما استفاده کنند.
همچنین به خاطر داشته باشید که دستورات robots.txt فقط دستورالعمل هستند. این بدان معنی است که رباتهای جستجو می توانند سایت شما را خزش کرده و ایندکس کنند، حتی اگر به آنها دستور دهید. خبر خوب این است که اکثر موتورهای جستجو (مانند گوگل، بینگ، یاهو و یاندکس) به دستورالعمل های robots.txt احترام می گذارند.
آشنایی با رباتهای گوگل
گوگل تعدادی ربات خزنده (Crawler) دارد که به صورت خودکار وبسایتها را اسکن میکنند و صفحهها را با دنبال کردن لینکها از صفحهای به صفحه دیگر پیدا میکنند.
لیست زیر شامل مهمترین رباتهای گوگل است که بهتر است بشناسید:
- AdSense – رباتی برای بررسی صفحهها با هدف نمایش تبلیغات مرتبط
- Googlebot Image – رباتی که تصاویر را پیدا و بررسی میکند
- Googlebot News – رباتی برای ایندکس کردن سایتهای خبری
- Googlebot Video – ربات بررسی ویدیوها
- Googlebot – این ربات صفحات وب را کشف و ایندکس میکند. دو نوع Desktop و Smartphone دارد
هر کدام از این رباتها به صورت مداوم، صفحههای وبسایت را بررسی میکنند. شما میتوانید در صورت نیاز هرکدام از رباتها را محدود کنید.
این که رباتهای خزنده هر چند وقت یک بار به سایت شما سر میزنند به چند فاکتور بستگی دارد. هر چه در طول روز تعداد بیشتری محتوا در وبسایتتان قرار بگیرد و تغییرات سایت اهمیت زیادی داشته باشد، رباتهای جستجوگر دفعات بیشتری به سایت شما مراجعه میکنند. برای مثال، در وبسایتهای خبری که همیشه در حال انتشار خبر و بهروزرسانی اخبارشان هستند رباتها با سرعت بیشتری صفحات را بررسی و ایندکس میکنند.
در سرچ کنسول بخشی به نام Crawl Stats وجود دارد که دفعات بررسی صفحههای سایت به صورت روزانه را نمایش میدهد. در همین صفحه، حجم دانلود شده توسط رباتها و همینطور زمان بارگذاری صفحهها را میتوانید ببینید.

آموزش ساخت فایل robots.txt
در لاین اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent می آوریم. به شکل زیر :
User-agent: *
علامت * به این معناست که همه ی ربات های پیمایشگر ، این دستورات را باید رعایت کنند.
در صورتی کع بخواهید فقط روبات های گوگل این محدودیت ها رو داشته باشند ، این دستور رو به این شکل داریم :
دستور Disallow در فایل روبوت
۱- برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم
Disallow: /
۲- برای عدم دسترسی به یک فولدر یا دسته از وبسایت می توانید نام آن را وارد کنید:
Disallow: /wp-admin/
۳- برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید:
Disallow: /blog/robotstxt-file/
۴- برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید:
User-agent: Googlebot-Image
Disallow: /images/image.jpg
۵- برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید
User-agent: Googlebot-Image
Disallow: /
۶- همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif
User-agent: Googlebot
Disallow: /*.gif$
نکته مهم : توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. همچنین پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید.
تست فایل Robots با ابزار گوگل
برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،میتوانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید.
اگر وبسایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید، وقتی این ابزار تست را باز کنید از شما میخواهد که سایت متصل شده مورد نظر را انتخاب کنید.
بعد از انتخاب وبسایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد. میتوانید فایل را در همین صفحه ویرایش کنید و بعد با زدن دکمه submit صفحهای باز میشود.
در این صفحه مثل تصویر زیر سه دکمه میبینید.
با دکمه اول فایل Robots.txt جدید را دانلود میکنید.
حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید.
بعد از آپلود، اگر دکمه View uploaded version را بزنید نسخه جدید را باز میکند.
در انتها هم با زدن دکمه submit از گوگل بخواهید تا فایل جدید را دریافت و بررسی کند. اگر این کارها را با موفقیت انجام دهید، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر میکند. برای اطمینان هم میتوانید دوباره از همین ابزار برای مطمئن شدن استفاده کنید.
این ابزار نمیتواند به صورت مستقیم فایل robots.txt را ویرایش کند. بعد از زدن دکمه submit پنجرهای باز میشود که از شما میخواهد فایل جدید ویرایش شده را دانلود کرده و به جای فایل قبلی در سرور میزبان وبسایت جایگزین کنید.
اگر هم میخواهید صفحههای مشخصی را تست کنید، کافی است آدرس آن را در نوار پایینی وارد کنید و بعد ربات گوگلی که مد نظرتان است را انتخاب کنید. هر بار که دکمه test را بزنید در همان لحظه به شما نشان میدهد اجازه دسترسی رباتها به صفحه را دادهاید یا نه.
مثلاً میتوانید بررسی کنید آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا نه. امکان به همان صفحه اجازه دسترسی ربات وب را داده باشید اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد.
چطور از گوگل بخواهیم صفحهای را در نتایج جستجو نمایش ندهد؟
گوگل بعد از این که گفت استفاده از دستورات noindex و disallow کمکی به خارج کردن صفحات از نتایج جستجو نمیکند، راهکارهای دیگری برای این کار معرفی کرد.
گوگل میگوید اگر میخواهید صفحههایی از نتایج جستجو به صورت کامل حذف شوند باید دستوران noindex را در همان صفحه قرار دهید.
راحتترین راه حذف کردن صفحهای از نتایج جستجو استفاده از دستورهای به اصطلاح متا تگ (meta tag) در قسمت هد (head) صفحه است.
برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از راهای دیگری مثل افزونهها برای نوایندکس کردن استفاده کنید. در واقع افزونهها هم فقط این کد را به صفحه اضافه میکنند.
اگر کمی با کدهای HTML آشنایی داشته باشید پس میدانید که هر صفحه دو قسمت هد (head) و بدنه (body) دارد. دستور نوایندکس را باید در قسمت هد قرار دهید.
بنابراین، کد شما باید این شکلی شود:
نتیجهگیری
بحث robots.txt چیزی نیست که بخواهید وقت زیادی روی آن بگذارید و یا به صورت مستمر آن را مورد آزمون و خطا قرار دهید. اگر نیاز به بهرهمند شدن از این قابلیت دارید، بهترین کار استفاده از ابزار آنلاین Google Search Console است. به کمک این ابزار خیلی راحتتر میتوانید فایل robots.txt خود را مدیریت، ویرایش، اشکالزدایی و بروزرسانی کنید.
همچنین پیشنهاد میشود تا حد امکان از بروزرسانی پشت هم این فایل خودداری کنید. بهترین کار این است که درست بعد از ساخت وبسایت، یک فایل کامل و نهایی از robots.txt تهیه کنید. بروزرسانیهای پیاپی این فایل اگرچه در روند فعالیت سایت شما به ظاهر تأثیر زیادی نخواهد گذاشت، اما میتواند منجر به پیچیده شدن فرآیند دسترسی خزندگان و رباتها به سایت شما شود.