اگر عبارت معروف “چیزها، نه رشتهها”، “Things, not strings” را نشنیده اید، این عبارت از یک پست وبلاگ معروف گوگل است که راه اندازی نمودار دانش گوگل را اعلام کرد. این بیانیه بیان می کند که گوگل دیگر تنها به دنبال نتایج ساده بر اساس کلمات کلیدی نیست، بلکه می خواهد موجودیت ها و روابط بین موجودیت های مختلف را درک کند تا نتایج بهتری ارائه دهد.
اگرچه 11 سال از انتشار این جمله معروف می گذرد، اما هنوز بسیاری از مردم معنای واقعی و اهمیت این جمله برای سئو را درک نکرده اند. این جمله تلاشی بود برای نشان دادن اینکه گوگل دیگر یک الگوریتم ساده برای شناسایی کلمات کلیدی نیست و چیزهای پیچیده تری را درک می کند.
Entity SEO در می 2012 با معرفی قابلیت های یادگیری ماشینی گوگل متولد شد. گوگل با استفاده از پایگاه داده های نیمه ساختاریافته و ساختاریافته توانست معنی کلمات کلیدی را درک کند. به این ترتیب ابهام ماهیت زبان بالاخره راه حلی درازمدت پیدا کرده است. اما با وجود اهمیت موجودیتها برای گوگل، چرا کارشناسان سئو هنوز بیش از 10 سال است که در مورد موجودیت ها سردرگم هستند؟
چهار دلیل اصلی برای این وجود دارد:
- اصطلاح سئوی موجودیت به اندازه کافی برای ارائه دهندگان خدمات SEO استفاده نشده است تا تعریف آن را بدانند و بنابراین آن را در واژگان خود بگنجانند.
- بهینهسازی فهرست با روشهای قدیمیتر متمرکز بر کلمه کلیدی همپوشانی زیادی دارد. در نتیجه، موجودیتها اغلب با کلمات کلیدی اشتباه گرفته می شوند. علاوه بر این، مشخص نبود که موجودیتها چه نقشی در ارتقای وب سایت دارند و گاهی اوقات از عبارت «موضوعات» در گوگل به جای «topics» استفاده می شود.
- درک موجودیت ها و کسب دانش و یادگیری عمیق در مورد آنها مستلزم مطالعه منابع پیچیده ای مانند پتنت های گوگل و آشنایی با موجودیتهایی مانند یادگیری ماشینی است که برای بسیاری از افراد کاری خسته کننده و ناخوشایند به حساب می آید. سئوی موجودیت ی رویکردی بسیار علمی تر از سئوی معمولی است و علم برای همه مناسب نیست!
- یوتیوب تأثیر زیادی در گسترش علم و دانش داشته است، اما در عین حال تجربه یادگیری را در بسیاری از موضوعات ساده کرده است. آن دسته از تولیدکنندگان محتوا که در این پلتفرم محبوبتر شدهاند، معمولاً راه آسانی را برای آموزش مخاطبان خود انتخاب کردهاند. در نتیجه، سازندگان محتوا تا چند سال گذشته زمان زیادی را صرف آموزش درباره اشیا نکردهاند. به همین دلیل برای یادگیری اشیا باید از منابعی مانند پژوهشگران پردازش زبان طبیعی (محققان NLP) کمک گرفت و سپس این دانش را در زمینه سئو به کار برد. مقالات علمی و اختراعات نیز در این زمینه نقش اساسی دارند. این یک بار دیگر نکته اول را تایید می کند که عدم آشنایی سئوکاران با مفهوم اشیا است.
توضیح: در اینجا کلمه NLP ذکر شده است. این کلمه مخفف Natural language processing به معنای پردازش زبان طبیعی است. پردازش زبان طبیعی (NLP) شاخهای از هوش مصنوعی (AI) است که به رایانهها اجازه میدهد تا زبان انسان را درک، تولید و دستکاری کنند. پردازش زبان طبیعی توانایی بازگویی و بازنویسی داده ها را با متن یا صدای زبان طبیعی دارد.
این مقاله راه حل هایی برای چهار مشکل اصلی در یادگیری و پیاده سازی SEO مبتنی بر شی ارائه می دهد و می تواند به متخصصان سئو کمک کند تا به طور کامل بر رویکرد مبتنی بر شی تسلط پیدا کنند.
با مطالعه این مقاله موارد زیر را خواهید آموخت:
- موجودیت Entity چیست و چرا مهم است؟
- تاریخچه جستجوی معنایی (semantic search) چیست؟
- چگونه موجودیتها را در صفحات نتایج جستجو شناسایی و استفاده کنیم؟
- چگونه از موجودیتها برای رتبهبندی محتوای وب استفاده کنیم؟
توجه داشته باشید که Semantic SEO با معادل «سئوی معنایی» را نباید با Entity SEO با معادل «سئوی موجودیت» اشتباه گرفت. توضیح بیشتر این است که Semantic SEO به دنبال یافتن معنی و هدف کاربر از جستجوی عبارت کلیدی است و روابط بین موجودیت ها را تشخیص می دهد و عبارات مرتبط را که با هدف کاربر مطابقت دارد ترکیب و معادل سازی می کند. در زیر تعریف دقیق تری از سئو را مشاهده خواهید کرد.
چرا موجودیت یا انتیتی در سئو سایت مهم است؟
سئوی موجودیت آینده موتورهای جستجو در انتخاب محتوا و رتبه بندی و تعیین اهمیت آن است. وقتی این را با اعتماد مبتنی بر دانش ترکیب کنیم، سئوی موجودیت آینده سئو را برای چند سال آینده (حدود 2 سال) شکل خواهد داد. به عبارت دیگر، اشیاء بسیار مهم هستند زیرا جستجوگران به سمت درک بهتر محتوا بر اساس آنها حرکت می کنند و آینده سئو بر اساس اشیا خواهد بود.
نمونههایی از انتیتی ها
با این تفاسیر چگونه می توان یک موجود را شناسایی کرد؟ صفحات نتایج جستجو حاوی نمونه های زیادی از اشیایی است که احتمالاً قبلاً دیده اید. رایج ترین انواع موجودیت ها شامل نام شهرها، کشورها، افراد مشهور، برندها و شرکت هایی است که در صفحات نتایج جستجو یافت می شوند.
شاید بهترین مثال از اشیاء در صفحات نتایج جستجو، گروه بندی بر اساس هدف جستجوی کاربر باشد. هرچه یک موضوع بیشتر درک شود، این ویژگی های جستجو بیشتر ظاهر می شوند. جالب است بدانید که یک کمپین سئو می تواند چهره صفحات نتایج جستجو را با تمرکز بر اشیا تغییر دهد. مدخلهای ویکیپدیا نمونه دیگری از موجودیتهایی هستند که نمونهای عالی از اطلاعات مربوط به موجودیت را ارائه میدهند.
همانطور که در عکس بالا سمت چپ مشاهده می کنید، این موجود دارای ویژگی های مختلف مرتبط با “ماهی” از جمله اهمیت و ارزش غذایی آن برای انسان است.
اگرچه ویکی پدیا اطلاعات زیادی در مورد موضوعات مختلف دارد، اما تمام جوانب و جزئیات یک موضوع را پوشش نمی دهد و منابع آن جامع است. در واقع، ویکی پدیا تنها کسری از دانش موجود در مورد یک موضوع را در اختیار کاربران قرار می دهد.
انتیتی (Entity) یا موجودیت چیست؟
موجودیت Entity به موضوع یا چیزی گفته میشود که به طور منحصربفرد قابل شناسایی باشد. اشیاء را می توان با نام، نوع، ویژگی ها و روابط با اشیاء دیگر تعریف کرد. یک شی تنها زمانی در کاتالوگ شی وجود دارد که به عنوان یک شی شناخته شود.
لیست موجودیت ها به هر موجودیت یک شناسه منحصر به فرد اختصاص می دهند. اگر کلمه یا عبارتی در فهرست نباشد، لزوماً به معنای نبودن آن نیست، اما وجود موضوعی در فهرست معمولاً نشان دهنده وجود آن است.
ویکی پدیا تنها منبعی برای شناسایی موجودیت ها است و وجود یا عدم وجود یک مقاله در ویکی پدیا به معنای موجود بودن یا نبودن آن نیست. با این حال، ویکیپدیا بیشتر به خاطر پایگاه دادههای بزرگش شناخته میشود. وقتی صحبت از موجودیت ها می شود، هر پایگاه داده یا لیستی که حاوی اطلاعات ساختاریافته در مورد موجودیت ها باشد می تواند مبنایی برای تعریف و شناسایی موجودیت ها باشد. موجودیت ها معمولاً شامل افراد، مکان ها و اشیاء می شوند، اما ایده ها و موجودیت های انتزاعی نیز می توانند موجودیت در نظر گرفته شوند.
چند نمونه از فهرستهای موجودیت:
- ویکیپدیا (Wikipedia): دائرةالمعارف آنلاین که حاوی مقالات متعددی درباره موجودیتهای مختلف است.
- ویکیداده (Wikidata): پایگاه داده ساختاریافته اطلاعات ویکیپدیا
- دیبیپدیا (DBpedia): پایگاه دادهای که اطلاعات ساختاریافتهای از ویکیپدیا استخراج میکند.
- فریبیس (Freebase): پایگاه دادهای حاوی اطلاعات درباره موجودیتها که توسط گوگل توسعه یافتهاست.
- یاگو (Yago): پایگاه داده بزرگی از اطلاعات ساختاریافته درباره موجودیتها.
موجودیت ها به پر کردن شکاف بین داده های ساختاریافته و بدون ساختار کمک می کنند و می توانند برای غنی سازی معنایی متون بدون ساختار استفاده شوند، در حالی که منابع متنی می توانند برای استخراج موجودیت ها و ذخیره آنها در پایگاه های داده استفاده شوند. بنابراین موجودیت ها پلی بین این دو نوع داده ایجاد می کنند و باعث ایجاد ارتباط و تعامل بین آنها می شوند.
شناسایی ارجاعات موجود در متن و پیوند دادن آنها به مقادیر متناظر آنها در پایگاه داده “پیوند نهاد” نامیده می شود. موجودیت ها درک بهتری از معنای متن، هم برای انسان و هم برای ماشین ها امکان پذیر می کنند. اگرچه انسان ها می توانند ابهام موجودیت ها را بر اساس بافت حل کنند، اما برای ماشین ها چالش برانگیز است. فهرست کردن هر عامل در پایگاه داده خلاصه ای از آنچه را که در مورد آن می دانیم ارائه می دهد.
با توجه به تغییرات مستمر در جهان و ظهور حقایق و اطلاعات جدید، پیگیری این تغییرات و به روز نگه داشتن اطلاعات موجودیت ها در پایگاه های اطلاعاتی نیازمند تلاش مستمر ویراستاران و مدیران محتوا است و این کار آسانی نیست. . در مقیاس بزرگ. با تجزیه و تحلیل متون حاوی ارجاعات موجودیت، فرآیند یافتن اطلاعات و حقایق جدید یا به روز شده را می توان تسهیل یا حتی کاملاً خودکار کرد. محققان از این مشکل به عنوان “مشکل غنی سازی پایگاه داده” یاد می کنند، به همین دلیل است که پیوند دادن به بدن بسیار مهم است.
موجودیت های موجود درک معنایی از نیازهای اطلاعاتی کاربر و محتوای اسناد ارائه می دهند. آنها نیاز کاربر را همانطور که در عبارت جستجو و همچنین محتوای سند به شکل موجودیت بیان شده است، نشان می دهند. بنابراین، نهادها می توانند برای بهبود نمایش عبارات جستجو یا محتوای سند استفاده شوند. موجودیت ها ابزار مفیدی برای درک بهتر نیازها و محتوای کاربر و بهبود فرآیند جستجو و در واقع تسهیل درک معنایی هستند.
در مقاله تحقیقاتی Extended Named Entity، نویسنده حدود 160 نوع موجودیت را شناسایی می کند. در اینجا دو تا از هفت اسکرین شات از لیست آمده است.
تعریف برخی از انواع موجودیت ها آسان تر است، اما مهم است که بدانیم مفاهیم و ایده ها نیز موجودیت در نظر گرفته می شوند. گوگل آن را چالش برانگیز می داند که به تنهایی در این دو دسته مقیاس بندی کند.
وقتی با مفاهیم مبهم کار می کنید، نمی توانید تنها با یک صفحه به گوگل آموزش دهید. درک موجودیت مستلزم مقالات بسیاری و مراجع بسیاری است که در طول زمان حفظ شده باشند.
سابقه گوگل با موجودیت ها
در 16 جولای 2010، گوگل Freebase را خریداری کرد. این خرید اولین گام مهمی بود که به سیستم جستجوی موجودیت فعلی منجر شد.پس از سرمایه گذاری در Freebase، گوگل متوجه شد که Wikidata راه حل بهتری دارد. سپس گوگل برای ادغام Freebase در Wikidata کار کرد، کاری که بسیار دشوارتر از حد انتظار بود.
خریداری freebase توسط گوگل
پنج دانشمند گوگل مقاله ای با عنوان «از Freebase به Wikidata: مهاجرت بزرگ» نوشتند.که شامل نکات کلیدی بود.
- Freebase بر اساس مفاهیم اشیاء، حقایق، انواع و خصوصیات ساخته شده است. هر شی Freebase یک شناسه پایدار به نام “mid” (برای Machine ID) دارد.
- مدل داده Wikidata بر مفاهیم آیتم و اظهارات (statement) تکیه دارد. یک آیتم نمایانگر یک موجودیت است، دارای یک شناسه پایدار به نام “qid” است و ممکن است دارای برچسب ها، توضیحات و نام های دیگر در چندین زبان باشد؛ علاوه بر این، دارای اظهارات بیشتر و پیوندهایی به صفحات مربوط به موجودیت در پروژه های دیگر ویکیمدیا – به ویژه ویکیپدیا – میباشد.بر خلاف Freebase، اظهارات Wikidata هدف از کدگذاری حقایق واقعی نیست، بلکه ادعاهای مختلف از منابع مختلف هستند که ممکن است با یکدیگر تضاد داشته باشند…
موجودیتها در این پایگاههای دانش تعریف میشوند، اما Google هنوز باید دانش موجودیت خود را برای دادههای بدون ساختار (یعنی وبلاگها) بسازد.گوگل با بینگ و یاهو همکاری کرد و Schema.org را برای انجام این کار ایجاد کرد.
Google دستورالعملهای اسکیما را ارائه میکند تا مدیران وبسایت بتوانند ابزارهایی داشته باشند که به Google در درک محتوا کمک میکنند. به یاد داشته باشید، گوگل می خواهد روی اشیا تمرکز کند، نه رشته ها.
به قول گوگل: «شما میتوانید با ارائه سرنخهای صریح درباره معنای یک صفحه برای Google با گنجاندن دادههای ساختاریافته در صفحه به ما کمک کنید. دادههای ساختاریافته یک قالب استاندارد شده برای ارائه اطلاعات در مورد یک صفحه و طبقهبندی محتوای صفحه است. به عنوان مثال، در یک صفحه دستور غذا، مواد اولیه، زمان و دمای پخت، کالری و غیره ذکر میشود.”
گوگل در ادامه می گوید: “برای ظاهر شدن در نتایج جستجوی Google با نمایش پیشرفته، ضروری است که تمام ویژگیهای لازم برای یک شی را داشته باشید. ارائه ویژگیهای توصیهشده میتواند احتمال نمایش اطلاعات شما در نتایج جستجو را با نمایش پیشرفته افزایش دهد.بهتر است تعداد کمتری از ویژگیهای پیشنهادی را ارائه داده ولی کامل و دقیق باشند، تا سعی کردن برای ارائه هر ویژگی پیشنهادی ممکن با دادههای کمتر کامل، بد شکل یا نادرست.”
در مورد اسکیما می توان بیشتر صحبت کرد، اما کافی است بگوییم که اسکیما ابزاری باورنکردنی برای سئوکارانی است که به دنبال شفاف سازی محتوای صفحه برای موتورهای جستجو هستند. آخرین قطعه از این پازل از اعلامیه وبلاگ گوگل با عنوان “بهبود جستجو برای 20 سال آینده” آمده است.
ارتباط و کیفیت سند ایده های اصلی پشت این اعلامیه است. اولین روشی که گوگل برای تعیین محتوای یک صفحه استفاده کرد کاملاً بر روی کلمات کلیدی متمرکز بود.سپس گوگل لایه های موضوعی را به جستجو اضافه کرد. این لایه توسط نمودارهای دانش و با خراش دادن و ساختاردهی سیستماتیک داده ها در سراسر وب امکان پذیر شد.
این ما را به سیستم جستجوی فعلی می رساند. گوگل در کمتر از 10 سال از 570 میلیون موجودیت و 18 میلیارد واقعیت به 800 میلیارد واقعیت و 8 میلیارد موجودیت تبدیل شد. با افزایش این تعداد، جستجوی موجودیت بهبود می یابد.
چگونه مدل موجودیت نسبت به مدلهای جستجوی قبلی بهبود یافته است؟
مدلهای سنتی بازیابی اطلاعات (IR) مبتنی بر کلمات کلیدی محدودیت ذاتی دارند که قادر به بازیابی اسناد (مرتبط) نیستند که هیچ تطابق صریحی با پرس و جو نداشته باشند.اگر از ctrl + f برای یافتن متن در یک صفحه استفاده می کنید، از چیزی شبیه به مدل سنتی بازیابی اطلاعات مبتنی بر کلمه کلیدی استفاده می کنید.
هر روز حجم عجیبی از داده ها در وب منتشر می شود. درک معنای هر کلمه، هر پاراگراف، هر مقاله و هر وب سایت برای گوگل به سادگی امکان پذیر نیست. در عوض، موجودیتها ساختاری را ارائه میکنند که از طریق آن Google میتواند بار محاسباتی را به حداقل برساند و درک را بهبود بخشد.
روشهای بازیابی مبتنی بر مفهوم سعی میکنند با تکیه بر ساختارهای کمکی برای به دست آوردن نمایشهای معنایی پرسشها و اسناد در فضای مفهومی سطح بالاتر، با این چالش مقابله کنند. چنین ساختارهایی شامل واژگان کنترل شده (لغت نامه ها و اصطلاحنامه ها)، هستی شناسی ها و موجودیت های یک مخزن دانش است. جستجوی موجودیت گرا, فصل 8.3
Krisztian Balog، نویسنده این کتاب مرجع در مورد موجودیتها، سه راهکار برای بهبود مدل سنتی بازیابی اطلاعات پیشنهاد میکند:
- مبتنی بر گسترش(Expansion-based): از موجودیت ها به عنوان منبعی برای گسترش پرس و جو با عبارات مختلف استفاده می کند.
- مبتنی بر طرحریزی(Projection-based): ارتباط بین یک پرس و جو و یک سند با نمایش آنها در فضای پنهان موجودیت ها درک می شود.
- مبتنی بر موجودیت(Entity-based): نمایش های معنایی صریح پرس و جوها و اسناد در فضای موجودیت به دست می آیند تا بازنمایی های مبتنی بر اصطلاح را تقویت کنند.
هدف این سه رویکرد بدست آوردن نمایشی غنی تر از اطلاعات مورد نیاز کاربر با شناسایی موجودیت هایی است که به شدت با پرس و جو مرتبط هستند. سپس Balog شش الگوریتم مرتبط با روشهای مبتنی بر طرحریزی نگاشت موجودیت را شناسایی میکند (روشهای طرح ریزی مربوط به تبدیل موجودیتها به فضای سهبعدی و اندازهگیری بردارها با استفاده از هندسه).
- تحلیل معنایی صریح (ESA): معناشناسی یک کلمه داده شده توسط یک برداری توصیف می شود که نقاط قوت ارتباط کلمه را با مفاهیم مشتق شده از ویکی پدیا ذخیره می کند.
- مدل فضای موجودیت پنهان (LES): بر اساس یک چارچوب احتمالی مولد. امتیاز بازیابی سند ترکیبی خطی از امتیاز فضای موجودیت پنهان و امتیاز احتمال پرس و جو اصلی است.
- EsdRank :EsdRank برای رتبهبندی اسناد، با استفاده از ترکیبی از ویژگیهای query-entity و entity-document است. اینها به ترتیب با مفاهیم طرح پرس و جو و اجزای طرح سند از LES از قبل مطابقت دارند. با استفاده از یک چارچوب یادگیری متمایز، سیگنالهای اضافی را نیز میتوان به راحتی ترکیب کرد، مانند محبوبیت موجودیت یا کیفیت سند.
- رتبه بندی معنایی صریح (ESR): مدل رتبهبندی معنایی صریح اطلاعات رابطه را از یک نمودار دانش ترکیب میکند تا «تطبیق نرم» را در فضای موجودیت فعال کند.
- چارچوب دوتایی کلمه-موجودیت: این شامل تعاملات متقابل بین نمایشهای مبتنی بر اصطلاح(term-based) و موجودیت(entity-based) است که منجر به چهار نوع تطبیق میشود: عبارتهای پرسوجو برای شرایط مستند، موجودیتهای پرسوجو برای شرایط سند، شرایط پرس و جو برای موجودیتهای سند، و موجودیتهای پرس و جو برای موجودیتهای سند.
- مدل رتبه بندی مبتنی بر توجه(Attention-based): این تا حد زیادی پیچیده ترین مورد برای توصیف است.
در اینجا چیزی است که بالوگ می نویسد: در مجموع چهار ویژگی توجه طراحی شده است که برای هر موجودیت پرس و جو استخراج می شود. ویژگیهای ابهام موجودیت به منظور مشخص کردن ریسک مرتبط با حاشیهنویسی موجودیت است. اینها عبارتند از: (1) آنتروپی احتمال پیوند شکل سطحی به موجودات مختلف (مثلاً در ویکی پدیا)، (2) آیا موجودیت مشروح شده محبوب ترین حس شکل سطحی است (یعنی بیشترین اشتراک را دارد.
امتیاز، و (3) تفاوت در نمرات مشترک بین محتمل ترین و دومین نامزد محتمل برای فرم سطح داده شده. ویژگی چهارم نزدیک بودن است که به عنوان شباهت کسینوس بین موجودیت پرس و جو و پرس و جو در یک فضای تعبیه شده تعریف می شود. به طور خاص، یک جاسازی موجودیت-شرط مشترک با استفاده از مدل skip-gram بر روی یک مجموعه آموزش داده میشود، جایی که ذکر موجودیت با شناسههای موجودیت مربوطه جایگزین میشود. جاسازی پرس و جو به عنوان مرکز جاسازی اصطلاحات پرس و جو در نظر گرفته می شود.
نکته اصلی و کلیدی این است که دو رویکرد اصلی برای استفاده از موجودیتها در بازیابی اطلاعات وجود دارد:
- تصویرسازی و نگاشت اسناد به یک لایه یا فضای نهان از موجودیتها
- حاشیهنویسی و برچسبگذاری صریح موجودیتها در درون متن اسناد
این دو رویکرد اصلی، محور اغلب الگوریتمهای مبتنی بر موجودیت در بازیابی اطلاعات هستند.
سه نوع ساختار داده
تصویر بالا روابط پیچیده ای را نشان می دهد که در فضای برداری وجود دارد. در حالی که مثال پیوندهای نمودار دانش را نشان می دهد، همین الگو را می توان در سطح اسکیما صفحه به صفحه تکرار کرد.
برای درک موجودیت ها، دانستن سه نوع ساختار داده ای که الگوریتم ها استفاده می کنند، مهم است.
- با استفاده از توصیف موجودیت های ساختار نیافته، ارجاع به موجودیت های دیگر باید شناسایی و رفع ابهام شود. لبه های هدایت شده (هایپرلینک ها) از هر موجودیت به همه موجودیت های دیگر ذکر شده در توضیحات آن اضافه می شود.
- در یک محیط نیمه ساختاریافته (به عنوان مثال، ویکی پدیا)، پیوندهایی به موجودیت های دیگر ممکن است به صراحت ارائه شود.
- هنگام کار با داده های ساخت یافته، سه گانه RDF یک گراف (یعنی نمودار دانش) را تعریف می کند. به طور خاص، منابع موضوع و شی (URI) گره هستند و محمول ها یال هستند.
مشکل اصلی حالت نیمه ساختاریافته در محاسبه امتیاز بازیابی اطلاعات این است که اگر سندی برای موضوع خاصی در نظر گرفته نشده باشد و محتوای آن پراکنده باشد، ممکن است به دلیل وجود بافت های مختلف در سند، امتیاز بازیابی آن ضعیف شود. در نتیجه رتبه این سند در مقایسه با سایر اسناد متنی کاهش می یابد. دلیل این مشکل وجود ارتباطات واژگانی ضعیف و نامناسب و همچنین فاصله نامناسب بین کلمات در سند است.
کلمات مرتبطی که مکمل یکدیگر هستند باید در یک پاراگراف یا بخشی از سند در کنار یکدیگر استفاده شوند تا موضوع با وضوح بیشتری به سیستم منتقل شود و در نتیجه امتیاز بازیابی اطلاعات آن سند افزایش یابد. . بنابراین، استفاده از کلمات مرتبط با هم در یک زمینه خاص، موضوع سند را واضح تر می کند و امتیاز بازیابی را بهبود می بخشد.
استفاده از ویژگی ها و روابط موجودیت باعث بهبود نسبی در محدوده 5 تا 20 درصد می شود. بهره برداری از اطلاعات نوع موجودیت حتی با پیشرفت های نسبی از 25% تا بیش از 100% سودمندتر است. حاشیه نویسی اسناد با موجودیت ها می تواند ساختار را به اسناد بدون ساختار بیاورد، که می تواند به پر کردن پایگاه های دانش با اطلاعات جدید در مورد موجودیت ها کمک کند.
استفاده از ویکی پدیا به عنوان چارچوب سئوی موجودیت شما
ساختار صفحات ویکی پدیا
- عنوان
- بخش ابتدایی
- پیوندهای ابهام زدایی
- صندوق اطلاعات
- متن مقدمه
- فهرست مطالب
- محتوای بدنه(Body content)
- پیوستها و موارد پایینی
- ارجاعات و یادداشت ها
- پیوندهای خارجی
- دسته بندی ها
بیشتر مقالههای ویکیپدیا شامل یک متن مقدماتی، «سرنخ»، خلاصهای از مقاله است – معمولاً بیش از چهار پاراگراف طول نمیکشد. این باید به گونه ای نوشته شود که باعث ایجاد علاقه در مقاله شود.جمله اول و پاراگراف آغازین اهمیت ویژه ای دارند. اولین جمله “می توان به عنوان تعریف موجودیت توصیف شده در مقاله در نظر گرفت.” پاراگراف اول تعریف دقیق تری را بدون جزئیات زیاد ارائه می دهد.
ارزش لینک ها به فراتر از اهداف محوریت مسیریابی می رسد؛ آنها روابط معنایی بین مقالات را ثبت می کنند. علاوه بر این، متون لنگری منبع غنی از نسخه های نام موجودیت هستند. لینک های ویکی پدیا می توانند برای کمک به شناسایی و برطرف کردن اشکال موجودیت ها در متن استفاده شوند.
- خلاصه حقایق کلیدی در مورد موجودیت (جعبه اطلاعات).
- معرفی مختصر.
- لینک های داخلی یک قانون کلیدی که به ویراستاران داده می شود این است که فقط به اولین رخداد یک موجودیت یا مفهوم پیوند دهند.
- شامل تمام مترادف های رایج برای یک موجودیت باشد.
- تعیین صفحه دسته بندی.
- الگوی ناوبری.
- منابع.
- ابزارهای تجزیه ویژه برای درک صفحات ویکی.
- انواع رسانه های متعدد.
نحوه بهینه سازی برای موجودیت ها
موارد زیر ملاحظات کلیدی هنگام بهینه سازی موجودیت ها برای جستجو هستند:
- گنجاندن کلمات مرتبط معنایی در یک صفحه.
- فراوانی کلمات و عبارات در یک صفحه.
- سازماندهی مفاهیم در یک صفحه.
- از جمله داده های بدون ساختار، داده های نیمه ساختاریافته و داده های ساخت یافته در یک صفحه.
- جفتهای موضوع-گزاره-فاعل (SPO)(Subject-Predicate-Object Pairs).
- اسناد وب در یک سایت که به عنوان صفحات یک کتاب عمل می کنند.
- سازماندهی اسناد وب در یک وب سایت.
- مفاهیمی را در یک سند وب بگنجانید که ویژگی های شناخته شده موجودیت ها هستند.
نکته مهم: هنگامی که بر روابط بین موجودیت ها تأکید می شود، پایگاه دانش اغلب به عنوان نمودار دانش شناخته می شود.
از آنجایی که قصد همراه با گزارشهای جستجوی کاربر و سایر قسمتهای زمینه تحلیل میشود، عبارت جستجوی یکسانی از شخص 1 میتواند نتیجه متفاوتی از شخص 2 ایجاد کند. فرد میتواند دقیقاً با همان پرس و جو قصد متفاوتی داشته باشد.اگر صفحه شما هر دو نوع هدف را پوشش می دهد، صفحه شما کاندیدای بهتری برای رتبه بندی وب است.
میتوانید از ساختار پایگاههای دانش برای هدایت الگوهای پرس و جوی خود استفاده کنید (همانطور که در بخش قبلی ذکر شد). افراد همچنین می پرسند، افراد جستجو برای، و تکمیل خودکار از نظر معنایی با درخواست ارسال شده مرتبط هستند و یا عمیق تر در جهت جستجوی فعلی فرو می روند یا به جنبه دیگری از کار جستجو می روند. ما این را می دانیم، پس چگونه می توانیم برای آن بهینه سازی کنیم؟
اسناد شما باید تا حد امکان دارای تنوع هدف جستجو باشد. وب سایت شما باید شامل هر گونه تنوع هدف جستجو برای خوشه شما باشد. خوشه بندی بر سه نوع شباهت متکی است:
- شباهت واژگانی.
- شباهت معنایی.
- شباهت کلیک.
پوشش موضوعی
دستورالعمل نوشتن محتوایی جامع در مورد یک موضوع به این شکل است:
توضیح موضوع ← فهرست ویژگیها و خصوصیات ← اختصاص بخشی به هر خصوصیت ← لینکدهی هر بخش به مقالهای که کاملاً به آن موضوع اختصاص دارد← شناسایی مخاطبان هدف و تعیین تعاریف بخشهای فرعی ← بررسی نکاتی که باید مدنظر قرار گیرند ← بیان مزایا ← بیان مزایای تکمیلی و اصلاحی ← توضیح عملکرد موضوع ← چگونگی دستیابی به موضوع ← نحوه انجام آن ← چه کسانی قادر به انجام آن هستند؟ ← لینکدهی مجدد به همه دستهبندیها
Google ابزاری را ارائه میکند که امتیاز برجسته (مشابه نحوه استفاده ما از کلمه «قدرت» یا «اطمینان») ارائه میکند که به شما میگوید Google چگونه محتوا را میبیند.
مثال بالا از یک مقاله در مورد موجودیتها در سال ۲۰۱۸ بر گرفته شده است.
میتوانید شخص، دیگران و سازمانها را از این مثال ببینید. ابزار Google Cloud’s Natural Language API است. هر کلمه، جمله و پاراگراف هنگام صحبت در مورد یک موجودیت مهم است. نحوه سازماندهی افکارتان می تواند درک Google از محتوای شما را تغییر دهد.
شما ممکن است یک کلمه کلیدی در مورد سئو وارد کنید، اما آیا گوگل آن کلمه کلیدی را آنطور که می خواهید درک می کند؟ سعی کنید یک یا دو پاراگراف را در ابزار قرار دهید و مثال را دوباره سازماندهی و اصلاح کنید تا ببینید که چگونه برجستگی را افزایش یا کاهش می دهد.این تمرین که «ابهامزدایی» نامیده میشود، برای نهادها بسیار مهم است.
زبان مبهم است، بنابراین باید کلمات خود را برای گوگل کمتر مبهم کنیم.
روشهای مدرن ابهامزدایی برای تشخیص صحیح موجودیتها، از سه نوع شاهد و مدرک استفاده میکنند:
- اول اینکه اهمیت و وزن قبلی موجودیتها و واژههایی که به آنها ارجاع داده میشود را در نظر میگیرند.
- دوم اینکه میزان تشابه معنایی و متنی بین متن اطراف یک ارجاع به موجودیت و خود آن موجودیت را محاسبه میکنند.
- سوم اینکه انسجام کلی بین تمام تصمیمگیریهای مربوط به لینکدهی موجودیتها در یک سند را در نظر میگیرند.
با در نظر گرفتن این شواهد مختلف، ابهامزدایی دقیقتری انجام میشود.
اسکیما یکی از راه های مورد علاقه من برای ابهام زدایی محتوا است. شما در حال پیوند نهادهای موجود در وبلاگ خود به مخازن دانش هستید. بالوگ می گوید: پیوند دادن موجودیتها در متن بدون ساختار به یک مخزن دانش ساختاریافته میتواند تا حد زیادی کاربران را در فعالیتهای مصرف اطلاعاتشان توانمند کند.
به عنوان مثال، خوانندگان یک سند می توانند با یک کلیک اطلاعات زمینه ای یا زمینه ای را به دست آورند و می توانند به آسانی به نهادهای مرتبط دسترسی پیدا کنند. حاشیه نویسی موجودیت همچنین می تواند در پردازش پایین دستی برای بهبود عملکرد بازیابی یا تسهیل تعامل بهتر کاربر با نتایج جستجو استفاده شود.
محتوای سوالات متداول که با استفاده از Schema برای موتور جستجوی گوگل ساختاردهی و برچسبگذاری شدهاست.
در این مثال Schema شامل توصیفی از متن، یک شناسه و اعلام موجودیت اصلی صفحه است.
یادآوری: گوگل برای درک بهتر ساختار و سلسلهمراتب اطلاعات در یک صفحه، نیاز به استفاده از عناوین یا تگ هدینگ H1 تا H6 دارد. پس برای بهینهسازی SEO، باید از این عناوین به درستی در ساختاردهی به محتوا استفاده کرد.
استفاده از Schema به گوگل اجازه می دهد تا رابطه بین متن یک صفحه و پایگاه داده های ساختار یافته مرتبط را شناسایی کند. همچنین با ارائه نامها و مترادفهای جایگزین برای موجودیتها، Schema به گوگل اجازه میدهد تا روابط معنایی بین کلمات مختلف اما مرتبط را برای یک موجودیت شناسایی کند.
هنگامی که شما با Schema بهینه سازی می کنید، در واقع در حال بهینه سازی برای NER (با نام مستعار entity detection) هستید که به آن تشخیص موجودیت، استخراج موجودیت و تکه تکه شدن موجودیت نیز می گویند. یعنی طرح بهینه به الگوریتم های تشخیص و استخراج موجودیت کمک می کند تا بهتر کار کنند و موجودیت ها را با دقت بیشتری شناسایی و استخراج کنند. ایده اصلی تلاش برای بهبود شناخت و درک موجودیت ها با توجه به مراحل زیر است:
- ابهامزدایی اسامی موجودیتها: تعیین معنای صحیح برای موجودیتهای دارای چند موجودیت در متن
- ویکیسازی(Wikification): لینکدهی به صفحات ویکیپدیای مرتبط با موجودیتها
- لینکدهی موجودیتها: لینک کردن موجودیتهای متن به موجودیتها در منابع ساختاریافته
با انجام این مراحل، ارتباطات و معانی موجودیتها بهتر درک شده و دقت سیستمها در شناسایی و دستهبندی آنها افزایش مییابد.
ایجاد ویکیپدیا به راحتی قابل شناسایی و تجزیه و تحلیل در مقیاس بزرگ است، زیرا ویکیپدیا فهرستی جامع از وجود آن تهیه میکند و همچنین منابعی را در قالبهای دیگر (مانند پیوندها، دستهها و صفحات تغییر مسیر) ارائه میدهد.» برگرفته از کتاب جستجوی موجودیتمحور.
چگونه فراتر از پیشنهادات ابزارهای سئو عمل کنیم؟
اکثر متخصصان سئو از ابزارهای سئو داخلی (روی صفحه) برای بهینه سازی درون صفحه استفاده می کنند که محدودیت هایی در شناسایی فرصت های ایجاد محتوا و ارائه عمق محتوا دارند و نمی توان به طور کامل به آنها اعتماد کرد. بیشتر این ابزارهای بهینهسازی تنها بهترین نتایج را از صفحات جستجو جمعآوری میکنند و بر اساس آن الگو یا میانگینی را به عنوان توصیههای بهینهسازی برای شما ارائه میدهند. البته باید به خاطر داشته باشید که گوگل به دنبال اطلاعات تکراری و تکراری نیست. تنها الگوبرداری از دیگران کافی نیست. بلکه باید محتوای ارزشمند و منحصر به فرد ایجاد شود تا وب سایت شما به یک مرجع معتبر و قابل اعتماد تبدیل شود
توضیح ساده از نحوه برخورد گوگل با محتوای جدید به شرح زیر است:
وقتی سند یا محتوای جدیدی ارسال میشود که به یک شی خاص مربوط میشود، Google محتوای جدید را بررسی میکند تا در صورت وجود اطلاعات جدیدی درباره آن شی، ورودی پایگاه دانش را برای آن شیء بهروزرسانی کند.
بالوگ مینویسد: ما میخواهیم به ویرایشگران کمک کنیم تا با شناسایی خودکار محتوا (مقالات خبری، پستهای وبلاگ و غیره) که ممکن است تغییراتی در ورودیهای دانشنامه مربوط به یک مجموعه خاص از موجودیتها را نشان دهد (به عبارت دیگر، موجودیتهایی که یک ویرایشگر خاص مسئول آنهاست)، آنها را در اطلاع از تغییرات بر روی آنها نگه داریم.
هرکسی که پایگاههای دانش، تشخیص موجودیت و قابلیت خزیدن اطلاعات را بهبود بخشد، مورد علاقه Google قرار خواهد گرفت. تغییرات ایجاد شده در مخزن دانش را می توان به سند به عنوان منبع اصلی ردیابی کرد.اگر شما محتوایی ارائه دهید که موضوع را پوشش دهد و یک سطح عمقی اضافه کنید که کمیاب یا جدید باشد، گوگل میتواند تشخیص دهد که آیا سند شما اطلاعات منحصر به فردی اضافه کرده است یا خیر.در نهایت، این اطلاعات جدید که در طی یک دوره زمانی ثابت می شود می تواند منجر به تبدیل شدن وب سایت شما به یک مرجع شود.این یک اعتبار مبتنی بر رتبه بندی دامنه نیست، بلکه پوشش موضوعی است، که به اعتقاد من بسیار ارزشمندتر است.
با رویکرد موجودیت به بهینهسازی موتورهای جستجو، شما محدود به هدفگذاری کلمات کلیدی با حجم جستجو نیستید.تنها کاری که شما باید انجام دهید این است که عبارت سر را تأیید کنید (مثلاً “میله های ماهیگیری با پرواز”)، و سپس می توانید بر روی هدف قرار دادن تغییرات هدف جستجو بر اساس تفکر خوب انسان تمرکز کنید.
ما با ویکی پدیا شروع می کنیم. برای مثال فلای فیشینگ، میتوانیم ببینیم که حداقل، مفاهیم زیر باید در وبسایت ماهیگیری پوشش داده شود: گونه های ماهی، تاریخچه، خاستگاه، توسعه، پیشرفت های تکنولوژیک، گسترش، روش های ماهیگیری با مگس، ریخته گری، ریخته گری اسپی، ماهیگیری با مگس برای ماهی قزل آلا، تکنیک های ماهیگیری با مگس، ماهیگیری در آب سرد، ماهیگیری قزل آلای مگس خشک، پورگی برای قزل آلا، آب ساکن ماهیگیری قزل آلا، قزل آلای بازی، قزل آلای رهاسازی، صید مگس آب شور، تکل، مگس مصنوعی و گره.
موضوعات بالا از صفحه ویکی پدیا فلای فیشینگ آمده است. در حالی که این صفحه نمای کلی عالی از موضوعات را ارائه می دهد، من دوست دارم ایده های دیگری را که از موضوعات مرتبط معنایی می آیند اضافه کنم. برای مبحث «ماهی» میتوانیم چندین موضوع دیگر از جمله ریشهشناسی، تکامل، آناتومی و فیزیولوژی، ارتباطات ماهی، بیماریهای ماهی، حفاظت و اهمیت برای انسان اضافه کنیم.
آیا کسی آناتومی ماهی قزل آلا را با اثربخشی برخی از تکنیک های ماهیگیری مرتبط کرده است؟ آیا یک وب سایت ماهیگیری تنها همه گونه های ماهی را پوشش داده است و در عین حال انواع تکنیک های ماهیگیری، میله ها و طعمه ها را به هر ماهی پیوند می دهد؟
در حال حاضر، شما باید بتوانید ببینید که چگونه گسترش موضوع می تواند رشد کند. این را هنگام برنامه ریزی یک کمپین محتوا در نظر داشته باشید.فقط تکرار نکنید ارزش اضافه کنید. منحصر به فرد باشید. از الگوریتم های ذکر شده در این مقاله به عنوان راهنمای خود استفاده کنید.
نتیجه
این مقاله بخشی از مجموعه مقالاتی است که بر موجودیت ها متمرکز شده است. در مقاله بعدی، به تلاشهای بهینهسازی پیرامون موجودیتها و برخی ابزارهای متمرکز بر موجودیت در بازار عمیقتر خواهم پرداخت.
من می خواهم این مقاله را با فریاد زدن به دو نفر پایان دهم که بسیاری از این مفاهیم را برای من توضیح دادند.
بیل اسلاوسکی از SEO by the Sea و کورای تاگبرت از Holistic SEO. در حالی که اسلاوسکی دیگر در بین ما نیست، کمک های او همچنان در صنعت سئو تاثیرات موجی دارد.
من به شدت به منابع زیر برای محتوای مقاله متکی هستم، زیرا این منابع بهترین منابعی هستند که در مورد موضوع وجود دارد:
- سلسله موجودیت توسعهیافته تحت عنوان ساتوشی کتین، کیوشی سودو و چیکاشی نوباتا
- جستجوی محوریت موجودیت ها توسط کریستین بالوگ، مجموعه بازیابی اطلاعات (INRE، جلد 39)
- بازنویسی پرس و جو با تشخیص Entity، اختراعی گوگل
- بهبود دستورات جستجو، پتنت گوگل
- همبندی یک Entity با یک پرسمان جستجو، Patent گوگل
سوالات متداولی که شاید برای شما پیش بیاید
یک Entity یک شی یا چیز منحصر به فرد قابل شناسایی است که با نام(ها)، نوع(ها)، ویژگی ها و روابط با Entity های دیگر مشخص می شود. Entity چیست؟
منبع: searchengineland