پس از ساخت وبسایت، باید به رباتهای گوگل و دیگر موتورهای جستجو اعلام کنید که کدام صفحات سایتتان را کرال (Crawl) کنند و کدام را نکنند. برای این منظور، فایل robots.txt را میسازیم. این فایل راهنمای رباتهای موتورهای جستجوست و از نظر سئو تأثیر بسیار زیادی بر نحوه ایندکس شدن سایت دارد. در این مطلب، با نحوه عملکرد فایل robots.txt، چگونگی ساخت، بهینهسازی و معرفی آن به گوگل آشنا خواهید شد.
متا تگ Robots
همه ما به اهمیت ایندکس شدن صفحات سایت در گوگل واقف هستیم. بدون ایندکس شدن صفحات، رتبهای به آنها داده نمیشود. نکته مهم در ایندکس شدن صفحات این است که اگر تعداد صفحات ایندکسشده زیاد باشد اما تعداد صفحاتی که رتبه بالایی در گوگل دارند کم باشد، اعتبار دامنه کاهش مییابد. هر چه اعتبار دامنه کمتر شود، رتبه گرفتن برای سایت سختتر خواهد شد.
این موارد باعث شده است که سایتها به دنبال راهکاری برای جلوگیری از ایندکس شدن برخی صفحات باشند. برای این منظور، متا تگ Robots ایجاد شده است. وظیفه این متا تگ این است که وقتی ربات جستجو به صفحه میرسد، با دیدن این متا تگ، آن صفحه را نادیده گرفته و به سراغ صفحات دیگر میرود.
متا تگ Robots در صفحاتی مانند صفحه جستجوی سایت اهمیت زیادی دارد، زیرا این صفحات برای کاربران سایت بسیار حائز اهمیت هستند و به عنوان پل ارتباطی بین صفحات سایت عمل میکنند. اما برای کاربری که از گوگل به سایت منتقل میشود، این صفحه اهمیت کمتری دارد. کاربر معمولاً نمیخواهد از گوگل به صفحه جستجوی دیگری منتقل شود. با جلوگیری از ایندکس شدن این صفحه، مانع از ورود کاربران از گوگل به آن میشویم، در حالی که کاربران خود سایت همچنان به این صفحه دسترسی دارند.
فایل Robots.txt چیست؟
فایل robots.txt یک فایل متنی است که وبمستران باید خودشان بسازند. این فایل به رباتهای موتورهای جستجو فرمان میدهد کدام صفحات وب را خزش کرده یا کدام صفحات را نباید خزش کرال کنند. طبق پروتکل REP (Robots Exclusion Protocol) استانداردهایی برای ساماندهی به وضعیت خزیدن وب توسط رباتها، دسترسی به صفحات وب و ایندکس کردن آنها برای دسترسی کاربران تعیین شده است. فایل robots.txt و لینکهای فالو و نوفالو نیز بخشی از پروتکل REP هستند.
دستورات قابل پشتیبانی در فایل robots.txt
به طور کلی پنج دستور مهم در فایل robots.txt وجود دارد که در ادامه با آنها آشنا خواهید شد:
دستور user-agent
دستور user-agent به تنهایی نمیتواند یک دستور کامل باشد، بلکه باید در کنار یکی از سه دستور بعدی استفاده شود. این دستور نوع رباتی که باید از دستورات بعدی اطاعت کند را مشخص میکند.
برای مثال اگر قصد داشته باشید برای رباتهای گوگل دستوری صادر کنید، نام رباتهای گوگل (googlebot) را مینویسید. همچنین اگر دستور برای تمام رباتهاست باید در مقابل user-agent: از علامت ستاره (*) استفاده شود.
دستور disallow
بعد از اینکه رباتهای موردنظر مشخص شدند، وقت آن است تا برایشان دستور صادر شود. دستور disallow به معنی «اجازه ندادن» است. بنابراین طبعاً باید صفحاتی را که ربات مذکور نباید کرول کند (بخزد) را در مقابل آن نوشت. توجه داشته باشید که روت دامین نباید نوشته شود و فقط بعد از اسلش را بنویسید. نکته دیگر اینکه، چنانچه قصد دارید چندین صفحه را disallow کنید، باید چند دستور disallow بنویسید. به مثال زیر توجه کنید:
User-agent:
*
Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*
دستور allow
دستور allow به معنی اجازه دادن است و همان طور که حدس میزنید به رباتهای مشخصشده اجازه میدهد صفحاتی را که در مقابل این دستور نوشته میشوند بخزند.
البته نوشتن این دستور ضرورتی ندارد؛ چراکه رباتها به صورت پیشفرض تمام صفحات سایت را میخزند. با این حال برخی وبمستران برای تأکید بر برخی صفحات سایتشان، از دستور allow استفاده میکنند. نحوه استفاده از دستور allow نیز دقیقاً مانند دستور disallow است.
دستور crawl-delay
این دستور میتواند بر سرعت لود صفحات سایتتان اثر بگذارد. به این ترتیب سرعت سایت به دلیل ورود تعداد زیاد خزندهها کاهش پیدا نمیکند. شما میتوانید عددی را در مقابل این دستور تایپ کنید. این عدد نشان میدهد که رباتهای تعیین شده باید به آن مقدار ثانیه صبر کرده و سپس سایت را بخزند. البته توجه داشته باشید که این دستور برای رباتهای گوگل اثر ندارد.
دستور sitemap
در مقابل این دستور باید آدرس سایت مپ را وارد کنید. سایت مپ نیازی به دستور user-agent ندارد.
یک فایل Robots.txt باید حاوی چه چیزی باشد؟
معمولاً در این فایل، چنانچه سایت وردپرسی باشد، صفحات /wp-admin/ و /readme.html/ که حاوی اطلاعات نسخه وردپرس شماست و همچنین صفحه افزونهها /plugins/ باید disallow شوند. همچنین آدرس sitemap را در این فایل تعریف میکنند تا خزندههای گوگل جایگاه صفحات مختلف سایت را پیدا کنند. موارد گفتهشده از ضروریات ساخت یک فایل robots است؛ اما شما میتوانید بنا بر نیاز خود هر فایلی که تمایل دارید را disallow کرده و یا برای تأکید فایلهای ضروری را allow نمایید.
چرا باید از فایل robots.txt برای سایت خود استفاده کنیم؟
این فایل در برخی موارد میتواند خیلی به کار شما بیاید. برای مثال:
- در مواقعی که محتوای تکراری روی سایت داشته باشید، یکی از صفحات را disallow کنید.
- بخشی از سایت را در دسترس عموم قرار ندهید. برای مثال صفحه عقد قراردادها.
- مکان نقشه سایت را برای رباتهای گوگل با دستور allow مشخص کنید.
- اجازه ندهید رباتها برخی فایلهای روی سایتتان (مانند فایلهای PDF یا تصاویر) را ایندکس کرده و در فهرست نتایج نمایش دهند.
- برای رباتها یک زمان تأخیر در خزیدن تعریف کنید تا وقتی سایت شلوغ میشود، سرعت پایین نیاید.
فایل robots.txt چگونه کار میکند؟
رباتها لینکها را دنبال میکنند. پس اگر از یک سایت به سایت دیگری لینک داده شود، رباتها آن لینک را دنبال کرده و به سایت دیگر راه پیدا میکنند. اما پیش از اینکه سایت جدید را بخزند به فایل robots.txt نگاه میکنند. اگر این فایل وجود داشته باشد از اطلاعات آن پیروی میکنند و اگر وجود نداشته باشد، تمام صفحات سایت را میخزند.
چک کردن وجود فایل robots.txt برای یک سایت
برای اینکه فایل robots.txt یک سایت را ببینید کافی است در انتهای ریشه دامین اصلی سایت یک اسلش گذاشته و عبارت robots.txt را تایپ کنید. مانند مثال زیر:
Example.com/robots.txt
به این ترتیب، محتویات فایل robots.txt آن سایت را مشاهده خواهید کرد.
چنانچه سایت دارای فایل robots.txt نباشد، با تایپ کردن آدرس ذکرشده در آدرس بار، با خطای 404 مواجه خواهید شد.
ساخت فایل robots.txt
- برای ساخت فایل robots.txt به صفحه اصلیهاست خود در سی پنل یا دایرکت ادمین بروید.
- سپس بر روی file manager کلیک کنید.
- وارد پوشه public_html شوید.
- در این پوشه یک فایل جدید ایجاد کنید به نام robots.txt.
- بر روی فایلی که ایجاد کردهاید دو بار کلیک نمایید تا در کامپیوترتان ذخیره شود. سپس آن را با برنامه notepad باز کنید و دستورات لازم را در آن وارد کرده و تغییرات را ذخیره کنید.
- فایل را مجدداً درهاست خود جایگزین فایل قبلی نمایید.
در تمام مراحل توجه داشته باشید که فایل robots.txt نسبت به کوچکی و بزرگی حروف حساس است. نام خود فایل باید با حروف کوچک نوشته شود. در نوشتن دستورات نیز به کوچکی یا بزرگی نام فایلها توجه کنید.
بهینهسازی فایل robots.txt برای سئو
از نظر سئو، چند نکته مهم در مورد فایل robots.txt وجود دارد که باید به آنها توجه شود:
- فایلهایی که در دستور disallow قرار میگیرند، به طور کلی خزیده نمیشوند: این بدان معناست که حتی لینکهای داخل این فایلها نیز تبدیل به نوفالو میشوند. بنابراین اگر قصد دارید لینکهای داخل صفحه فالو باشند، باید از روش دیگری به جای disallow استفاده کنید.
- استفاده از دستور disallow برای جلوگیری از نمایش اطلاعات خصوصی کاربران بیفایده است: اگر از صفحات دیگر سایت به این صفحات لینک داده باشید، خزندهها یا رباتها میتوانند از طریق آن لینکها به صفحه مذکور رسیده و آن را ایندکس نمایند. برای جلوگیری از این اتفاق، باید از روشهای دیگری مانند احراز هویت یا محدود کردن دسترسی استفاده کنید.
- اطلاعات فایل robots.txt در موتورهای جستجو معمولاً برای یک روز در کش ذخیره میشود: بنابراین اگر محتوای این فایل را تغییر دادید و قصد دارید موتورهای جستجو زودتر از این تغییرات مطلع شوند، لازم است فایل را مجدداً در کنسول گوگل قرار دهید.
توجه به این نکات میتواند به بهبود سئو و مدیریت بهتر محتوای سایت کمک کند.
قرار دادن robots.txt در سرچ کنسول گوگل
بعد از ساخت فایل robots.txt، باید آن را در کنسول گوگل ثبت کنید تا رباتهای گوگل سریعتر به صفحات allow یا disallow سایت شما دسترسی پیدا کرده و سایتتان را سریعتر خزیده کنند. برای این منظور مراحل زیر را دنبال کنید:
- باز کردن لینک کنسول گوگل: به کنسول جستجوی گوگل وارد شوید.
- انتخاب سایت مورد نظر: اگر قبلاً در کنسول گوگل ثبتنام نکردهاید، ابتدا باید مراحل ثبتنام را انجام دهید. سپس سایت مورد نظرتان را انتخاب کنید.
- مشاهده صفحه مدیریت فایل robots.txt: بعد از انتخاب سایت، وارد صفحهای میشوید که اگر قبلاً فایل robots.txt آپلود کرده باشید، محتویات فایل قبلی را نشان میدهد.
- آپلود فایل robots.txt جدید: اگر قبلاً فایل robots.txt آپلود نکردهاید، از نوار پایین صفحه فایل robots.txt جدید را آپلود کرده و دکمه submit را کلیک کنید.
با انجام این مراحل، رباتهای گوگل سریعتر به تنظیمات جدید شما دسترسی پیدا خواهند کرد و فرآیند خزیدن سایت بهبود خواهد یافت.
جمع بندی
ساخت فایل robots.txt یکی از مباحث بسیار مهم در بهینهسازی سئو تکنیکال است که به موتورهای جستجو، به خصوص گوگل، کمک میکند که صفحات مختلف سایت شما را به بهترین شکل خزش و ایندکس کنند. این فایل متنی ساده در ریشه دامنه سایتتان (مثلاً `https://example.com/robots.txt`) قرار میگیرد و با استفاده از دستورات مختلف، به کرالرها دستوراتی را میدهید که کدام صفحات را خزش کنند و کدام را نخزش کنند. استفاده صحیح از این فایل میتواند به بهبود رتبهبندی صفحات شما در نتایج جستجو کمک کند، زیرا اجازه میدهید تا صفحات مهمتر و مطلوب تری برای خزش و ایندکس شدن توسط موتورهای جستجو در اولویت قرار بگیرند.