فشردهسازی میتواند توسط موتورهای جستجو برای شناسایی صفحات با کیفیت پایین استفاده شود. اگرچه این موضوع چندان شناخته شده نیست، اما برای آشنایی با اصول سئو دانستن آن مفید است.
مفهوم فشردهسازی به عنوان یک نشانه کیفیت چندان شناخته شده نیست، اما متخصصان سئو باید از آن مطلع باشند. موتورهای جستجو میتوانند از فشردهسازی صفحات وب برای شناسایی صفحات تکراری، صفحات درگاه با محتوای مشابه و صفحاتی با کلمات کلیدی تکراری استفاده کنند، که این موضوع برای سئو مفید است.
اگرچه مقاله تحقیقاتی زیر استفاده موفقیتآمیز از ویژگیهای درونصفحهای برای شناسایی هرزنامه را نشان میدهد، اما عدم شفافیت عمدی موتورهای جستجو باعث میشود که به طور قطعی نگوییم که آیا موتورهای جستجو از این روشها یا روشهای مشابه استفاده میکنند یا خیر.
فشردهسازی چیست؟
در حوزه محاسبات، فشردهسازی به این معنا است که یک فایل (داده) تا چه اندازه میتواند کاهش یابد در حالی که اطلاعات ضروری آن حفظ شود، معمولاً به منظور حداکثرسازی فضای ذخیرهسازی یا انتقال دادههای بیشتر از طریق اینترنت.
توضیح مختصر فشردهسازی
فشردهسازی کلمات و عبارات تکراری را با مراجع کوتاهتر جایگزین میکند و حجم فایل را به میزان قابل توجهی کاهش میدهد. موتورهای جستجو معمولاً صفحات وب ایندکس شده را فشرده میکنند تا فضای ذخیرهسازی را به حداکثر برسانند، پهنای باند را کاهش دهند و سرعت بازیابی را افزایش دهند، و دلایل دیگر.
این توضیح سادهای از نحوه عملکرد فشردهسازی است:
- شناسایی الگوها: یک الگوریتم فشردهسازی متن را اسکن میکند تا کلمات، الگوها و عبارات تکراری را پیدا کند.
- کدهای کوتاهتر فضای کمتری اشغال میکنند: کدها و نمادها کمتر از کلمات و عبارات اصلی فضا اشغال میکنند، که منجر به کاهش حجم فایل میشود.
- مراجع کوتاهتر از بیتهای کمتری استفاده میکنند: “کد” که اساساً نشاندهنده کلمات و عبارات جایگزین شده است، نسبت به اصل کلمات داده کمتری مصرف میکند.
یکی از اثرات جانبی استفاده از فشردهسازی این است که میتواند برای شناسایی صفحات تکراری، صفحات درگاه با محتوای مشابه و صفحاتی با کلمات کلیدی تکراری استفاده شود.
مقاله تحقیقاتی درباره شناسایی هرزنامه
این مقاله تحقیقاتی مهم است زیرا توسط دانشمندان برجستهای که در زمینههای هوش مصنوعی، محاسبات توزیع شده، بازیابی اطلاعات و دیگر حوزهها به دستاوردهای بزرگی رسیدهاند، نوشته شده است.
مارک ناجورک (Marc Najork)
یکی از نویسندگان این مقاله مارک ناجورک است، یک دانشمند تحقیقاتی برجسته که در حال حاضر به عنوان دانشمند برجسته تحقیقات در گوگل دیپمایند فعالیت میکند. او یکی از نویسندگان مقالات TW-BERT است، در زمینه افزایش دقت استفاده از بازخوردهای کاربر ضمنی مانند کلیکها تحقیق کرده و در ایجاد بازیابی اطلاعات مبتنی بر هوش مصنوعی بهبود یافته (DSI++: بهروزرسانی حافظه ترانسفورماتور با اسناد جدید) و بسیاری از پیشرفتهای بزرگ دیگر در بازیابی اطلاعات مشارکت داشته است.
دنیس فِتِرلی (Dennis Fetterly)
نویسنده دیگر این مقاله دنیس فِتِرلی است که در حال حاضر به عنوان مهندس نرمافزار در گوگل فعالیت میکند. او به عنوان مخترع مشترک در یک پتنت برای یک الگوریتم رتبهبندی که از لینکها استفاده میکند ثبت شده است و به خاطر تحقیقات خود در زمینه محاسبات توزیع شده و بازیابی اطلاعات شناخته شده است.
این تنها دو نفر از پژوهشگران برجستهای هستند که به عنوان نویسندگان مشترک مقاله تحقیقاتی مایکروسافت در سال ۲۰۰۶ در مورد شناسایی هرزنامه از طریق ویژگیهای محتوای درونصفحه حضور داشتند. از جمله چندین ویژگی محتوای درونصفحه که این مقاله تحلیل کرده، فشردهسازی است که آنها کشف کردند میتوان از آن به عنوان یک طبقهبندیکننده برای شناسایی اینکه یک صفحه وب هرزنامه است، استفاده کرد.
شناسایی صفحات هرزنامه از طریق تحلیل محتوا
اگرچه این مقاله تحقیقاتی در سال ۲۰۰۶ نوشته شده، یافتههای آن همچنان تا به امروز کاربرد دارد. در آن زمان، و همچنین اکنون، برخی افراد تلاش میکردند صدها یا هزاران صفحه وب مبتنی بر مکان جغرافیایی را که اساساً محتوای تکراری به جز نام شهر، منطقه یا ایالت بودند، رتبهبندی کنند.
در آن زمان و همچنان امروز، متخصصان سئو اغلب صفحاتی برای موتورهای جستجو ایجاد میکنند که با تکرار بیش از حد کلمات کلیدی در عنوانها، توضیحات متا، سرفصلها، متنهای لنگری داخلی و محتوای داخل صفحه سعی در بهبود رتبهبندی داشتند.
بخش 4.6 از این مقاله تحقیقاتی توضیح میدهد:
“برخی موتورهای جستجو به صفحاتی که چندین بار شامل کلمات کلیدی جستجو هستند، امتیاز بیشتری میدهند. برای مثال، برای یک عبارت جستجو مشخص، صفحهای که آن را ده بار شامل شده است ممکن است رتبه بالاتری نسبت به صفحهای که آن را فقط یک بار شامل شده است، داشته باشد. برای استفاده از این موتورهای جستجو، برخی صفحات هرزنامه محتوای خود را چندین بار تکرار میکنند تا سعی کنند رتبه بالاتری کسب کنند.”
این مقاله تحقیقاتی توضیح میدهد که موتورهای جستجو صفحات وب را فشرده میکنند و از نسخه فشردهشده برای ارجاع به صفحه اصلی استفاده میکنند. آنها اشاره میکنند که مقادیر زیاد کلمات تکراری منجر به سطح بالاتری از فشردهسازی میشود. بنابراین، آنها آزمایش کردند که آیا رابطهای بین سطح بالای فشردهسازی و هرزنامه وجود دارد.
آنها نوشتند:
“روش ما در این بخش برای یافتن محتوای تکراری در یک صفحه این است که آن صفحه را فشرده کنیم؛ برای صرفهجویی در فضا و زمان دیسک، موتورهای جستجو اغلب صفحات وب را پس از ایندکس کردن فشرده میکنند، اما قبل از اینکه آنها را به حافظه نهان صفحه اضافه کنند.
…ما با نسبت فشردهسازی، یعنی اندازه صفحه فشردهنشده تقسیم بر اندازه صفحه فشردهشده، تکراری بودن صفحات وب را اندازهگیری میکنیم. ما از GZIP برای فشردهسازی صفحات استفاده کردیم، یک الگوریتم فشردهسازی سریع و مؤثر.”
فشردهسازی بالا با هرزنامه همبستگی دارد
نتایج تحقیق نشان داد که صفحات وب با نسبت فشردهسازی حداقل 4.0 تمایل به صفحات وب با کیفیت پایین و هرزنامهای داشتند. با این حال، بالاترین نرخهای فشردهسازی به دلیل تعداد کمتر دادهها کمتر قابل تفسیر بودند.
شکل 9: شیوع هرزنامه نسبت به فشردهسازی صفحه.
محققان نتیجهگیری کردند:
“70 درصد از تمام صفحات نمونهگیری شده با نسبت فشردهسازی حداقل 4.0 به عنوان هرزنامه قضاوت شدند.”
اما آنها همچنین کشف کردند که استفاده از نسبت فشردهسازی به تنهایی منجر به تشخیص اشتباه صفحات غیرهرزنامهای به عنوان هرزنامه میشود:
“روش نسبت فشردهسازی که در بخش 4.6 توصیف شد، بهترین عملکرد را داشت و 660 (27.9٪) از صفحات هرزنامه را در مجموعه ما به درستی شناسایی کرد، در حالی که 2,068 (12.0٪) از کل صفحات قضاوت شده را به اشتباه شناسایی کرد.
با استفاده از تمام ویژگیهای ذکر شده، دقت طبقهبندی پس از فرآیند اعتبارسنجی دهگانه دلگرمکننده است:
95.4٪ از صفحات قضاوتشده به درستی طبقهبندی شدند، در حالی که 4.6٪ به اشتباه طبقهبندی شدند.
به طور خاصتر، برای دسته هرزنامه، 1,940 از 2,364 صفحه به درستی طبقهبندی شدند. برای دسته غیرهرزنامه، 14,440 از 14,804 صفحه به درستی طبقهبندی شدند. در نتیجه، 788 صفحه به اشتباه طبقهبندی شدند.”
نکاتی درباره رتبهبندی کیفیت
این مقاله تحقیقاتی چندین نشانه درونصفحهای، از جمله فشردهسازی، را مورد بررسی قرار داد. آنها کشف کردند که هر نشانه (طبقهبندیکننده) به طور جداگانه قادر به یافتن برخی هرزنامهها بود، اما تکیه بر یک نشانه به تنهایی منجر به تشخیص اشتباه صفحات غیرهرزنامهای به عنوان هرزنامه شد، که به آنها مثبت کاذب میگویند.
محققان یک کشف مهم کردند که همه علاقهمندان به سئو باید بدانند و آن این است که استفاده از چندین طبقهبندیکننده دقت شناسایی هرزنامه را افزایش داده و احتمال وقوع مثبتهای کاذب را کاهش میدهد. به همان اندازه مهم، نشانه فشردهسازی تنها یک نوع از هرزنامه را شناسایی میکند و نه همه انواع آن.
نتیجهگیری این است که فشردهسازی راه خوبی برای شناسایی یک نوع هرزنامه است، اما انواع دیگری از هرزنامه وجود دارد که با این نشانه قابل شناسایی نیستند. انواع دیگری از هرزنامه با نشانه فشردهسازی شناسایی نمیشوند.
این قسمت برای هر متخصص سئو و ناشری باید شناخته شود:
“در بخش قبلی، ما تعدادی از روشهای تجربی را برای بررسی صفحات هرزنامه وب ارائه کردیم. یعنی، ما چندین ویژگی صفحات وب را اندازهگیری کردیم و دامنههایی از این ویژگیها را یافتیم که با هرزنامه بودن یک صفحه ارتباط داشتند. با این حال، وقتی به طور جداگانه استفاده میشدند، هیچ تکنیکی بیشترین هرزنامه موجود در مجموعه داده ما را بدون نشانهگذاری بسیاری از صفحات غیرهرزنامهای به عنوان هرزنامه کشف نکرد.
برای مثال، در نظر گرفتن روش نسبت فشردهسازی که در بخش 4.6 توصیف شده است، یکی از روشهای امیدوارکننده ما بود، احتمال میانگین هرزنامه برای نسبتهای 4.2 و بالاتر 72٪ است. اما تنها حدود 1.5٪ از تمام صفحات در این دامنه قرار میگیرند. این رقم بسیار کمتر از 13.8٪ از صفحات هرزنامهای است که ما در مجموعه داده خود شناسایی کردیم.”
بنابراین، حتی اگر فشردهسازی یکی از نشانههای بهتر برای شناسایی هرزنامه بود، هنوز نمیتوانست همه انواع هرزنامه را در مجموعه دادهای که محققان برای آزمون نشانهها استفاده کردند، شناسایی کند.
ترکیب چندین نشانه
نتایج بالا نشان داد که نشانههای فردی از کیفیت پایین دقت کمتری دارند. بنابراین، آنها استفاده از چندین نشانه را آزمایش کردند. آنها کشف کردند که ترکیب چندین نشانه درونصفحهای برای شناسایی هرزنامه منجر به نرخ دقت بهتری با صفحات کمتری که به اشتباه به عنوان هرزنامه طبقهبندی شدهاند، شد.
محققان توضیح دادند که آنها استفاده از چندین نشانه را آزمایش کردند:
“یکی از روشهای ترکیب روشهای تجربی ما این است که مسئله شناسایی هرزنامه را به عنوان یک مسئله طبقهبندی در نظر بگیریم. در این مورد، ما میخواهیم یک مدل طبقهبندی (یا طبقهبندیکننده) ایجاد کنیم که، با توجه به یک صفحه وب، از ویژگیهای آن صفحه به صورت مشترک استفاده کند تا آن را به درستی (امیدواریم) در یکی از دو دسته هرزنامه و غیرهرزنامه طبقهبندی کند.”
اینها نتایج آنها در مورد استفاده از چندین نشانه است:
“ما جنبههای مختلف هرزنامه مبتنی بر محتوا در وب را با استفاده از یک مجموعه داده واقعی از خزشگر MSNSearch مطالعه کردهایم. ما چندین روش تجربی برای شناسایی هرزنامه مبتنی بر محتوا ارائه کردهایم. برخی از روشهای شناسایی هرزنامه ما مؤثرتر از دیگران بودند، اما هنگامی که به طور جداگانه استفاده میشدند، روشهای ما ممکن است همه صفحات هرزنامه را شناسایی نکنند. به همین دلیل، ما روشهای شناسایی هرزنامه خود را ترکیب کردیم تا یک طبقهبندیکننده C4.5 با دقت بالا ایجاد کنیم. طبقهبندیکننده ما میتواند 86.2٪ از تمام صفحات هرزنامه را به درستی شناسایی کند، در حالی که تعداد کمی از صفحات مشروع به عنوان هرزنامه شناسایی میشوند.”
نکته مهم
تشخیص ندادن “تعداد کمی از صفحات مشروع به عنوان هرزنامه” یک پیشرفت مهم بود. نکته مهمی که همه افرادی که در زمینه سئو فعالیت میکنند باید از آن مطلع باشند این است که یک نشانه به تنهایی میتواند منجر به تشخیص نادرست شود. استفاده از چندین نشانه دقت را افزایش میدهد.
این به این معنی است که آزمونهای سئو از نشانههای رتبهبندی یا کیفیت جداگانه نتایج قابل اعتمادی ارائه نمیدهند که بتوان به آنها برای تصمیمگیریهای استراتژی یا تجاری اعتماد کرد.
نکات کلیدی
ما با قطعیت نمیدانیم که آیا از فشردهسازی در موتورهای جستجو استفاده میشود یا خیر، اما این یک نشانه ساده است که در ترکیب با دیگر نشانهها میتواند برای کشف انواع ساده هرزنامه مانند هزاران صفحه درگاه با نام شهرهای مشابه استفاده شود.
با این حال، حتی اگر موتورهای جستجو از این نشانه استفاده نکنند، این موضوع نشان میدهد که کشف این نوع دستکاری در موتورهای جستجو چقدر آسان است و اینکه امروز موتورهای جستجو توانایی انجام این کار را دارند.
نکات کلیدی این مقاله که باید به خاطر داشته باشید:
- صفحات درگاه با محتوای تکراری به راحتی قابل شناسایی هستند زیرا آنها با نسبت بالاتری نسبت به صفحات وب معمولی فشرده میشوند.
- گروههای صفحات وب با نسبت فشردهسازی بالاتر از 4.0 عمدتاً هرزنامه هستند.
- نشانههای منفی کیفیت که به تنهایی استفاده میشوند میتوانند منجر به تشخیص اشتباه شوند.
- در این آزمایش خاص، آنها کشف کردند که نشانههای منفی کیفیت درونصفحهای تنها انواع خاصی از هرزنامه را شناسایی میکنند.
- وقتی به تنهایی استفاده میشوند، نشانه فشردهسازی تنها هرزنامههای نوع تکراری را شناسایی میکند، نمیتواند دیگر انواع هرزنامه را شناسایی کند و منجر به تشخیصهای اشتباه میشود.
- ترکیب نشانههای کیفیت دقت شناسایی هرزنامه را بهبود میبخشد و تشخیص اشتباه را کاهش میدهد.
- موتورهای جستجوی امروزی با استفاده از هوش مصنوعی مانند Spam Brain دقت بالاتری در شناسایی هرزنامه دارند.
منبع: searchenginejournal