اگر عبارت معروف  “چیزها، نه رشته‌ها”، “Things, not strings” را نشنیده اید، این عبارت از یک پست وبلاگ معروف گوگل است که راه اندازی نمودار دانش گوگل را اعلام کرد. این بیانیه بیان می کند که گوگل دیگر تنها به دنبال نتایج ساده بر اساس کلمات کلیدی نیست، بلکه می خواهد موجودیت ها و روابط بین موجودیت های مختلف را درک کند تا نتایج بهتری ارائه دهد.

اگرچه 11 سال از انتشار این جمله معروف می گذرد، اما هنوز بسیاری از مردم معنای واقعی و اهمیت این جمله برای سئو را درک نکرده اند. این جمله تلاشی بود برای نشان دادن اینکه گوگل دیگر یک الگوریتم ساده برای شناسایی کلمات کلیدی نیست و چیزهای پیچیده تری را درک می کند.

Entity SEO در می 2012 با معرفی قابلیت های یادگیری ماشینی گوگل متولد شد. گوگل با استفاده از پایگاه داده های نیمه ساختاریافته و ساختاریافته توانست معنی کلمات کلیدی را درک کند. به این ترتیب ابهام ماهیت زبان بالاخره راه حلی درازمدت پیدا کرده است. اما با وجود اهمیت موجودیت‌ها برای گوگل، چرا کارشناسان سئو هنوز بیش از 10 سال است که در مورد موجودیت ها سردرگم هستند؟

چهار دلیل اصلی برای این وجود دارد:

  • اصطلاح سئوی موجودیت به اندازه کافی برای ارائه دهندگان خدمات SEO استفاده نشده است تا تعریف آن را بدانند و بنابراین آن را در واژگان خود بگنجانند.
  • بهینه‌سازی فهرست با روش‌های قدیمی‌تر متمرکز بر کلمه کلیدی همپوشانی زیادی دارد. در نتیجه، موجودیت‌ها اغلب با کلمات کلیدی اشتباه گرفته می شوند. علاوه بر این، مشخص نبود که موجودیت‌ها چه نقشی در ارتقای وب سایت دارند و گاهی اوقات از عبارت «موضوعات» در گوگل به جای «topics» استفاده می شود.
  • درک موجودیت ها و کسب دانش و یادگیری عمیق در مورد آنها مستلزم مطالعه منابع پیچیده ای مانند پتنت های گوگل و آشنایی با موجودیت‌هایی مانند یادگیری ماشینی است که برای بسیاری از افراد کاری خسته کننده و ناخوشایند به حساب می آید. سئوی موجودیت‌ ی رویکردی بسیار علمی تر از سئوی معمولی است و علم برای همه مناسب نیست!
  • یوتیوب تأثیر زیادی در گسترش علم و دانش داشته است، اما در عین حال تجربه یادگیری را در بسیاری از موضوعات ساده کرده است. آن دسته از تولیدکنندگان محتوا که در این پلتفرم محبوب‌تر شده‌اند، معمولاً راه آسانی را برای آموزش مخاطبان خود انتخاب کرده‌اند. در نتیجه، سازندگان محتوا تا چند سال گذشته زمان زیادی را صرف آموزش درباره اشیا نکرده‌اند. به همین دلیل برای یادگیری اشیا باید از منابعی مانند پژوهشگران پردازش زبان طبیعی (محققان NLP) کمک گرفت و سپس این دانش را در زمینه سئو به کار برد. مقالات علمی و اختراعات نیز در این زمینه نقش اساسی دارند. این یک بار دیگر نکته اول را تایید می کند که عدم آشنایی سئوکاران با مفهوم اشیا است.

توضیح: در اینجا کلمه NLP ذکر شده است. این کلمه مخفف Natural language processing به معنای پردازش زبان طبیعی است. پردازش زبان طبیعی (NLP) شاخه‌ای از هوش مصنوعی (AI) است که به رایانه‌ها اجازه می‌دهد تا زبان انسان را درک، تولید و دستکاری کنند. پردازش زبان طبیعی توانایی بازگویی و بازنویسی داده ها را با متن یا صدای زبان طبیعی دارد.

این مقاله راه حل هایی برای چهار مشکل اصلی در یادگیری و پیاده سازی SEO مبتنی بر شی ارائه می دهد و می تواند به متخصصان سئو کمک کند تا به طور کامل بر رویکرد مبتنی بر شی تسلط پیدا کنند.

با مطالعه این مقاله موارد زیر را خواهید آموخت:

  1. موجودیت Entity چیست و چرا مهم است؟
  2. تاریخچه جستجوی معنایی (semantic search) چیست؟
  3. چگونه موجودیت‌ها را در صفحات نتایج جستجو شناسایی و استفاده کنیم؟
  4. چگونه از موجودیت‌ها برای رتبه‌بندی محتوای وب استفاده کنیم؟

توجه داشته باشید که Semantic SEO  با معادل «سئوی معنایی» را نباید با Entity SEO با معادل «سئوی موجودیت» اشتباه گرفت. توضیح بیشتر این است که Semantic SEO به دنبال یافتن معنی و هدف کاربر از جستجوی عبارت کلیدی است و روابط بین موجودیت ها را تشخیص می دهد و عبارات مرتبط را که با هدف کاربر مطابقت دارد ترکیب و معادل سازی می کند. در زیر تعریف دقیق تری از سئو را مشاهده خواهید کرد.

چرا موجودیت‌ یا انتیتی در سئو سایت مهم است؟

سئوی موجودیت آینده موتورهای جستجو در انتخاب محتوا و رتبه بندی و تعیین اهمیت آن است. وقتی این را با اعتماد مبتنی بر دانش ترکیب کنیم، سئوی موجودیت آینده سئو را برای چند سال آینده (حدود 2 سال) شکل خواهد داد. به عبارت دیگر، اشیاء بسیار مهم هستند زیرا جستجوگران به سمت درک بهتر محتوا بر اساس آنها حرکت می کنند و آینده سئو بر اساس اشیا خواهد بود.

نمونه‌هایی از انتیتی ها

با این تفاسیر چگونه می توان یک موجود را شناسایی کرد؟ صفحات نتایج جستجو حاوی نمونه های زیادی از اشیایی است که احتمالاً قبلاً دیده اید. رایج ترین انواع موجودیت ها شامل نام شهرها، کشورها، افراد مشهور، برندها و شرکت هایی است که در صفحات نتایج جستجو یافت می شوند.

یک پروفایل کسب‌وکار در نتایج جستجوی گوگل
یک پروفایل کسب‌وکار در نتایج جستجوی گوگل
جستجوی تصویر در گوگل
جستجوی تصویر در گوگل
پنل دانش گوگل یا knowledge panel
پنل دانش گوگل یا knowledge panel
خوشه‌‌های نتایج جستجو بر اساس قصد و هدف کاربر از جستجو (Intent clusters)
خوشه‌‌های نتایج جستجو بر اساس قصد و هدف کاربر از جستجو (Intent clusters)

شاید بهترین مثال از اشیاء در صفحات نتایج جستجو، گروه بندی بر اساس هدف جستجوی کاربر باشد. هرچه یک موضوع بیشتر درک شود، این ویژگی های جستجو بیشتر ظاهر می شوند. جالب است بدانید که یک کمپین سئو می تواند چهره صفحات نتایج جستجو را با تمرکز بر اشیا تغییر دهد. مدخل‌های ویکی‌پدیا نمونه دیگری از موجودیت‌هایی هستند که نمونه‌ای عالی از اطلاعات مربوط به موجودیت را ارائه می‌دهند.

همانطور که در عکس بالا سمت چپ مشاهده می کنید، این موجود دارای ویژگی های مختلف مرتبط با “ماهی” از جمله اهمیت و ارزش غذایی آن برای انسان است.

نمونه انتیتی ماهی
نمونه انتیتی ماهی

اگرچه ویکی پدیا اطلاعات زیادی در مورد موضوعات مختلف دارد، اما تمام جوانب و جزئیات یک موضوع را پوشش نمی دهد و منابع آن جامع است. در واقع، ویکی پدیا تنها کسری از دانش موجود در مورد یک موضوع را در اختیار کاربران قرار می دهد.

انتیتی (Entity) یا موجودیت چیست؟

موجودیت Entity به موضوع یا چیزی گفته می‌شود که به طور منحصربفرد قابل شناسایی باشد. اشیاء را می توان با نام، نوع، ویژگی ها و روابط با اشیاء دیگر تعریف کرد. یک شی تنها زمانی در کاتالوگ شی وجود دارد که به عنوان یک شی شناخته شود.

لیست موجودیت ها به هر موجودیت یک شناسه منحصر به فرد اختصاص می دهند. اگر کلمه یا عبارتی در فهرست نباشد، لزوماً به معنای نبودن آن نیست، اما وجود موضوعی در فهرست معمولاً نشان دهنده وجود آن است.

ویکی پدیا تنها منبعی برای شناسایی موجودیت ها است و وجود یا عدم وجود یک مقاله در ویکی پدیا به معنای موجود بودن یا نبودن آن نیست. با این حال، ویکی‌پدیا بیشتر به خاطر پایگاه داده‌های بزرگش شناخته می‌شود. وقتی صحبت از موجودیت ها می شود، هر پایگاه داده یا لیستی که حاوی اطلاعات ساختاریافته در مورد موجودیت ها باشد می تواند مبنایی برای تعریف و شناسایی موجودیت ها باشد. موجودیت ها معمولاً شامل افراد، مکان ها و اشیاء می شوند، اما ایده ها و موجودیت های انتزاعی نیز می توانند موجودیت در نظر گرفته شوند.

چند نمونه از فهرست‌های موجودیت:

  • ویکی‌پدیا (Wikipedia): دائرةالمعارف آنلاین که حاوی مقالات متعددی درباره موجودیت‌های مختلف است.
  • ویکی‌داده (Wikidata): پایگاه داده ساختاریافته اطلاعات ویکی‌پدیا
  • دی‌بی‌پدیا (DBpedia): پایگاه داده‌ای که اطلاعات ساختاریافته‌ای از ویکی‌پدیا استخراج می‌کند.
  • فریبیس (Freebase): پایگاه داده‌ای حاوی اطلاعات درباره موجودیت‌ها که توسط گوگل توسعه یافته‌است.
  • یاگو (Yago): پایگاه داده بزرگی از اطلاعات ساختاریافته درباره موجودیت‌ها.

گراف دانش یاگو

موجودیت ها به پر کردن شکاف بین داده های ساختاریافته و بدون ساختار کمک می کنند و می توانند برای غنی سازی معنایی متون بدون ساختار استفاده شوند، در حالی که منابع متنی می توانند برای استخراج موجودیت ها و ذخیره آنها در پایگاه های داده استفاده شوند. بنابراین موجودیت ها پلی بین این دو نوع داده ایجاد می کنند و باعث ایجاد ارتباط و تعامل بین آنها می شوند.

شناسایی ارجاعات موجود در متن و پیوند دادن آنها به مقادیر متناظر آنها در پایگاه داده “پیوند نهاد” نامیده می شود. موجودیت ها درک بهتری از معنای متن، هم برای انسان و هم برای ماشین ها امکان پذیر می کنند. اگرچه انسان ها می توانند ابهام موجودیت ها را بر اساس بافت حل کنند، اما برای ماشین ها چالش برانگیز است. فهرست کردن هر عامل در پایگاه داده خلاصه ای از آنچه را که در مورد آن می دانیم ارائه می دهد.

بخوانید  10 موتور جستجو پر طرفدار در جهان + انواع موتور جستجو

با توجه به تغییرات مستمر در جهان و ظهور حقایق و اطلاعات جدید، پیگیری این تغییرات و به روز نگه داشتن اطلاعات موجودیت ها در پایگاه های اطلاعاتی نیازمند تلاش مستمر ویراستاران و مدیران محتوا است و این کار آسانی نیست. . در مقیاس بزرگ. با تجزیه و تحلیل متون حاوی ارجاعات موجودیت، فرآیند یافتن اطلاعات و حقایق جدید یا به روز شده را می توان تسهیل یا حتی کاملاً خودکار کرد. محققان از این مشکل به عنوان “مشکل غنی سازی پایگاه داده” یاد می کنند، به همین دلیل است که پیوند دادن به بدن بسیار مهم است.

موجودیت های موجود درک معنایی از نیازهای اطلاعاتی کاربر و محتوای اسناد ارائه می دهند. آنها نیاز کاربر را همانطور که در عبارت جستجو و همچنین محتوای سند به شکل موجودیت بیان شده است، نشان می دهند. بنابراین، نهادها می توانند برای بهبود نمایش عبارات جستجو یا محتوای سند استفاده شوند. موجودیت ها ابزار مفیدی برای درک بهتر نیازها و محتوای کاربر و بهبود فرآیند جستجو و در واقع تسهیل درک معنایی هستند.

در مقاله تحقیقاتی Extended Named Entity، نویسنده حدود 160 نوع موجودیت را شناسایی می کند. در اینجا دو تا از هفت اسکرین شات از لیست آمده است.

موجودیت با نام توسعه یافته – 1/7 انواع موجودیت
موجودیت با نام توسعه یافته – 1/7 انواع موجودیت
موجودیت با نام توسعه یافته – 3/7 انواع موجودیت
موجودیت با نام توسعه یافته – 3/7 انواع موجودیت

تعریف برخی از انواع موجودیت ها آسان تر است، اما مهم است که بدانیم مفاهیم و ایده ها نیز موجودیت در نظر گرفته می شوند. گوگل آن را چالش برانگیز می داند که به تنهایی در این دو دسته مقیاس بندی کند.

وقتی با مفاهیم مبهم کار می کنید، نمی توانید تنها با یک صفحه به گوگل آموزش دهید. درک موجودیت مستلزم مقالات بسیاری و مراجع بسیاری است که در طول زمان حفظ شده باشند.

سابقه گوگل با موجودیت ها

در 16 جولای 2010، گوگل Freebase را خریداری کرد. این خرید اولین گام مهمی بود که به سیستم جستجوی موجودیت فعلی منجر شد.پس از سرمایه گذاری در Freebase، گوگل متوجه شد که Wikidata راه حل بهتری دارد. سپس گوگل برای ادغام Freebase در Wikidata کار کرد، کاری که بسیار دشوارتر از حد انتظار بود.

خریداری freebase توسط گوگل

خریداری freebase توسط گوگل

پنج دانشمند گوگل مقاله ای با عنوان «از Freebase به Wikidata: مهاجرت بزرگ» نوشتند.که شامل نکات کلیدی بود.

  • Freebase بر اساس مفاهیم اشیاء، حقایق، انواع و خصوصیات ساخته شده است. هر شی Freebase یک شناسه پایدار به نام “mid” (برای Machine ID) دارد.
  • مدل داده Wikidata بر مفاهیم آیتم و اظهارات (statement) تکیه دارد. یک آیتم نمایانگر یک موجودیت است، دارای یک شناسه پایدار به نام “qid” است و ممکن است دارای برچسب ها، توضیحات و نام های دیگر در چندین زبان باشد؛ علاوه بر این، دارای اظهارات بیشتر و پیوندهایی به صفحات مربوط به موجودیت در پروژه های دیگر ویکی‌مدیا – به ویژه ویکی‌پدیا – می‌باشد.بر خلاف Freebase، اظهارات Wikidata هدف از کدگذاری حقایق واقعی نیست، بلکه ادعاهای مختلف از منابع مختلف هستند که ممکن است با یکدیگر تضاد داشته باشند…

موجودیت‌ها در این پایگاه‌های دانش تعریف می‌شوند، اما Google هنوز باید دانش موجودیت خود را برای داده‌های بدون ساختار (یعنی وبلاگ‌ها) بسازد.گوگل با بینگ و یاهو همکاری کرد و Schema.org را برای انجام این کار ایجاد کرد.

Google دستورالعمل‌های اسکیما را ارائه می‌کند تا مدیران وب‌سایت بتوانند ابزارهایی داشته باشند که به Google در درک محتوا کمک می‌کنند. به یاد داشته باشید، گوگل می خواهد روی اشیا تمرکز کند، نه رشته ها.

به قول گوگل: «شما می‌توانید با ارائه سرنخ‌های صریح درباره معنای یک صفحه برای Google با گنجاندن داده‌های ساختاریافته در صفحه به ما کمک کنید. داده‌های ساختاریافته یک قالب استاندارد شده برای ارائه اطلاعات در مورد یک صفحه و طبقه‌بندی محتوای صفحه است. به عنوان مثال، در یک صفحه دستور غذا، مواد اولیه، زمان و دمای پخت، کالری و غیره ذکر می‌شود.”

گوگل در ادامه می گوید: “برای ظاهر شدن در نتایج جستجوی Google با نمایش پیشرفته، ضروری است که تمام ویژگی‌های لازم برای یک شی را داشته باشید. ارائه ویژگی‌های توصیه‌شده می‌تواند احتمال نمایش اطلاعات شما در نتایج جستجو را با نمایش پیشرفته افزایش دهد.بهتر است تعداد کمتری از ویژگی‌های پیشنهادی را ارائه داده ولی کامل و دقیق باشند، تا سعی کردن برای ارائه هر ویژگی پیشنهادی ممکن با داده‌های کمتر کامل، بد شکل یا نادرست.”

در مورد اسکیما می توان بیشتر صحبت کرد، اما کافی است بگوییم که اسکیما ابزاری باورنکردنی برای سئوکارانی است که به دنبال شفاف سازی محتوای صفحه برای موتورهای جستجو هستند. آخرین قطعه از این پازل از اعلامیه وبلاگ گوگل با عنوان “بهبود جستجو برای 20 سال آینده” آمده است.

ارتباط و کیفیت سند ایده های اصلی پشت این اعلامیه است. اولین روشی که گوگل برای تعیین محتوای یک صفحه استفاده کرد کاملاً بر روی کلمات کلیدی متمرکز بود.سپس گوگل لایه های موضوعی را به جستجو اضافه کرد. این لایه توسط نمودارهای دانش و با خراش دادن و ساختاردهی سیستماتیک داده ها در سراسر وب امکان پذیر شد.

این ما را به سیستم جستجوی فعلی می رساند. گوگل در کمتر از 10 سال از 570 میلیون موجودیت و 18 میلیارد واقعیت به 800 میلیارد واقعیت و 8 میلیارد موجودیت تبدیل شد. با افزایش این تعداد، جستجوی موجودیت بهبود می یابد.

چگونه مدل موجودیت نسبت به مدل‌های جستجوی قبلی بهبود یافته است؟

مدل‌های سنتی بازیابی اطلاعات (IR) مبتنی بر کلمات کلیدی محدودیت ذاتی دارند که قادر به بازیابی اسناد (مرتبط) نیستند که هیچ تطابق صریحی با پرس و جو نداشته باشند.اگر از ctrl + f برای یافتن متن در یک صفحه استفاده می کنید، از چیزی شبیه به مدل سنتی بازیابی اطلاعات مبتنی بر کلمه کلیدی استفاده می کنید.

هر روز حجم عجیبی از داده ها در وب منتشر می شود. درک معنای هر کلمه، هر پاراگراف، هر مقاله و هر وب سایت برای گوگل به سادگی امکان پذیر نیست. در عوض، موجودیت‌ها ساختاری را ارائه می‌کنند که از طریق آن Google می‌تواند بار محاسباتی را به حداقل برساند و درک را بهبود بخشد.

روش‌های بازیابی مبتنی بر مفهوم سعی می‌کنند با تکیه بر ساختارهای کمکی برای به دست آوردن نمایش‌های معنایی پرسش‌ها و اسناد در فضای مفهومی سطح بالاتر، با این چالش مقابله کنند. چنین ساختارهایی شامل واژگان کنترل شده (لغت نامه ها و اصطلاحنامه ها)، هستی شناسی ها و موجودیت های یک مخزن دانش است. جستجوی موجودیت گرا, فصل 8.3

Krisztian Balog، نویسنده این کتاب مرجع در مورد موجودیت‌ها، سه راهکار برای بهبود مدل سنتی بازیابی اطلاعات پیشنهاد می‌کند:

  1. مبتنی بر گسترش(Expansion-based): از موجودیت ها به عنوان منبعی برای گسترش پرس و جو با عبارات مختلف استفاده می کند.
  2. مبتنی بر طرح‌ریزی(Projection-based): ارتباط بین یک پرس و جو و یک سند با نمایش آنها در فضای پنهان موجودیت ها درک می شود.
  3. مبتنی بر موجودیت(Entity-based): نمایش های معنایی صریح پرس و جوها و اسناد در فضای موجودیت به دست می آیند تا بازنمایی های مبتنی بر اصطلاح را تقویت کنند.

هدف این سه رویکرد بدست آوردن نمایشی غنی تر از اطلاعات مورد نیاز کاربر با شناسایی موجودیت هایی است که به شدت با پرس و جو مرتبط هستند. سپس Balog شش الگوریتم مرتبط با روش‌های مبتنی بر طرح‌ریزی نگاشت موجودیت را شناسایی می‌کند (روش‌های طرح ریزی مربوط به تبدیل موجودیت‌ها به فضای سه‌بعدی و اندازه‌گیری بردارها با استفاده از هندسه).

  • تحلیل معنایی صریح (ESA): معناشناسی یک کلمه داده شده توسط یک برداری توصیف می شود که نقاط قوت ارتباط کلمه را با مفاهیم مشتق شده از ویکی پدیا ذخیره می کند.
  • مدل فضای موجودیت پنهان (LES): بر اساس یک چارچوب احتمالی مولد. امتیاز بازیابی سند ترکیبی خطی از امتیاز فضای موجودیت پنهان و امتیاز احتمال پرس و جو اصلی است.
  • EsdRank  :EsdRank برای رتبه‌بندی اسناد، با استفاده از ترکیبی از ویژگی‌های query-entity و entity-document است. اینها به ترتیب با مفاهیم طرح پرس و جو و اجزای طرح سند از LES از قبل مطابقت دارند. با استفاده از یک چارچوب یادگیری متمایز، سیگنال‌های اضافی را نیز می‌توان به راحتی ترکیب کرد، مانند محبوبیت موجودیت یا کیفیت سند.
  • رتبه بندی معنایی صریح (ESR): مدل رتبه‌بندی معنایی صریح اطلاعات رابطه را از یک نمودار دانش ترکیب می‌کند تا «تطبیق نرم» را در فضای موجودیت فعال کند.
  • چارچوب دوتایی کلمه-موجودیت: این شامل تعاملات متقابل بین نمایش‌های مبتنی بر اصطلاح(term-based) و موجودیت(entity-based) است که منجر به چهار نوع تطبیق می‌شود: عبارت‌های پرس‌وجو برای شرایط مستند، موجودیت‌های پرس‌وجو برای شرایط سند، شرایط پرس و جو برای موجودیت‌های سند، و موجودیت‌های پرس و جو برای موجودیت‌های سند.
  • مدل رتبه بندی مبتنی بر توجه(Attention-based): این تا حد زیادی پیچیده ترین مورد برای توصیف است.
بخوانید  راهنمای کامل بهینه سازی گوگل دیسکاور

در اینجا چیزی است که بالوگ می نویسد: در مجموع چهار ویژگی توجه طراحی شده است که برای هر موجودیت پرس و جو استخراج می شود. ویژگی‌های ابهام موجودیت به منظور مشخص کردن ریسک مرتبط با حاشیه‌نویسی موجودیت است. اینها عبارتند از: (1) آنتروپی احتمال پیوند شکل سطحی به موجودات مختلف (مثلاً در ویکی پدیا)، (2) آیا موجودیت مشروح شده محبوب ترین حس شکل سطحی است (یعنی بیشترین اشتراک را دارد.

امتیاز، و (3) تفاوت در نمرات مشترک بین محتمل ترین و دومین نامزد محتمل برای فرم سطح داده شده. ویژگی چهارم نزدیک بودن است که به عنوان شباهت کسینوس بین موجودیت پرس و جو و پرس و جو در یک فضای تعبیه شده تعریف می شود. به طور خاص، یک جاسازی موجودیت-شرط مشترک با استفاده از مدل skip-gram بر روی یک مجموعه آموزش داده می‌شود، جایی که ذکر موجودیت با شناسه‌های موجودیت مربوطه جایگزین می‌شود. جاسازی پرس و جو به عنوان مرکز جاسازی اصطلاحات پرس و جو در نظر گرفته می شود.

نکته اصلی و کلیدی این است که دو رویکرد اصلی برای استفاده از موجودیت‌ها در بازیابی اطلاعات وجود دارد:

  • تصویرسازی و نگاشت اسناد به یک لایه یا فضای نهان از موجودیت‌ها
  • حاشیه‌نویسی و برچسب‌گذاری صریح موجودیت‌ها در درون متن اسناد

این دو رویکرد اصلی، محور اغلب الگوریتم‌های مبتنی بر موجودیت در بازیابی اطلاعات هستند.

سه نوع ساختار داده

سه نوع ساختار داده
سه نوع ساختار داده

تصویر بالا روابط پیچیده ای را نشان می دهد که در فضای برداری وجود دارد. در حالی که مثال پیوندهای نمودار دانش را نشان می دهد، همین الگو را می توان در سطح اسکیما صفحه به صفحه تکرار کرد.

برای درک موجودیت ها، دانستن سه نوع ساختار داده ای که الگوریتم ها استفاده می کنند، مهم است.

  • با استفاده از توصیف موجودیت های ساختار نیافته، ارجاع به موجودیت های دیگر باید شناسایی و رفع ابهام شود. لبه های هدایت شده (هایپرلینک ها) از هر موجودیت به همه موجودیت های دیگر ذکر شده در توضیحات آن اضافه می شود.
  • در یک محیط نیمه ساختاریافته (به عنوان مثال، ویکی پدیا)، پیوندهایی به موجودیت های دیگر ممکن است به صراحت ارائه شود.
  • هنگام کار با داده های ساخت یافته، سه گانه RDF یک گراف (یعنی نمودار دانش) را تعریف می کند. به طور خاص، منابع موضوع و شی (URI) گره هستند و محمول ها یال هستند.

مشکل اصلی حالت نیمه ساختاریافته در محاسبه امتیاز بازیابی اطلاعات این است که اگر سندی برای موضوع خاصی در نظر گرفته نشده باشد و محتوای آن پراکنده باشد، ممکن است به دلیل وجود بافت های مختلف در سند، امتیاز بازیابی آن ضعیف شود. در نتیجه رتبه این سند در مقایسه با سایر اسناد متنی کاهش می یابد. دلیل این مشکل وجود ارتباطات واژگانی ضعیف و نامناسب و همچنین فاصله نامناسب بین کلمات در سند است.

کلمات مرتبطی که مکمل یکدیگر هستند باید در یک پاراگراف یا بخشی از سند در کنار یکدیگر استفاده شوند تا موضوع با وضوح بیشتری به سیستم منتقل شود و در نتیجه امتیاز بازیابی اطلاعات آن سند افزایش یابد. . بنابراین، استفاده از کلمات مرتبط با هم در یک زمینه خاص، موضوع سند را واضح تر می کند و امتیاز بازیابی را بهبود می بخشد.

استفاده از ویژگی ها و روابط موجودیت باعث بهبود نسبی در محدوده 5 تا 20 درصد می شود. بهره برداری از اطلاعات نوع موجودیت حتی با پیشرفت های نسبی از 25% تا بیش از 100% سودمندتر است. حاشیه نویسی اسناد با موجودیت ها می تواند ساختار را به اسناد بدون ساختار بیاورد، که می تواند به پر کردن پایگاه های دانش با اطلاعات جدید در مورد موجودیت ها کمک کند.

محتوای هوش مصنوعی
محتوای هوش مصنوعی

استفاده از ویکی پدیا به عنوان چارچوب سئوی موجودیت شما

ساختار صفحات ویکی پدیا

  1. عنوان
  2. بخش ابتدایی
    • پیوندهای ابهام زدایی
    • صندوق اطلاعات
    • متن مقدمه
  3. فهرست مطالب
  4. محتوای بدنه(Body content)
  5. پیوست‌ها و موارد پایینی
    • ارجاعات و یادداشت ها
    • پیوندهای خارجی
    • دسته بندی ها

بیشتر مقاله‌های ویکی‌پدیا شامل یک متن مقدماتی، «سرنخ»، خلاصه‌ای از مقاله است – معمولاً بیش از چهار پاراگراف طول نمی‌کشد. این باید به گونه ای نوشته شود که باعث ایجاد علاقه در مقاله شود.جمله اول و پاراگراف آغازین اهمیت ویژه ای دارند. اولین جمله “می توان به عنوان تعریف موجودیت توصیف شده در مقاله در نظر گرفت.” پاراگراف اول تعریف دقیق تری را بدون جزئیات زیاد ارائه می دهد.

ارزش لینک ها به فراتر از اهداف محوریت مسیریابی می رسد؛ آنها روابط معنایی بین مقالات را ثبت می کنند. علاوه بر این، متون لنگری منبع غنی از نسخه های نام موجودیت هستند. لینک های ویکی پدیا می توانند برای کمک به شناسایی و برطرف کردن اشکال موجودیت ها در متن استفاده شوند.

  • خلاصه حقایق کلیدی در مورد موجودیت (جعبه اطلاعات).
  • معرفی مختصر.
  • لینک های داخلی یک قانون کلیدی که به ویراستاران داده می شود این است که فقط به اولین رخداد یک موجودیت یا مفهوم پیوند دهند.
  • شامل تمام مترادف های رایج برای یک موجودیت باشد.
  • تعیین صفحه دسته بندی.
  • الگوی ناوبری.
  • منابع.
  • ابزارهای تجزیه ویژه برای درک صفحات ویکی.
  • انواع رسانه های متعدد.

نحوه بهینه سازی برای موجودیت ها

موارد زیر ملاحظات کلیدی هنگام بهینه سازی موجودیت ها برای جستجو هستند:

  • گنجاندن کلمات مرتبط معنایی در یک صفحه.
  • فراوانی کلمات و عبارات در یک صفحه.
  • سازماندهی مفاهیم در یک صفحه.
  • از جمله داده های بدون ساختار، داده های نیمه ساختاریافته و داده های ساخت یافته در یک صفحه.
  • جفت‌های موضوع-گزاره-فاعل (SPO)(Subject-Predicate-Object Pairs).
  • اسناد وب در یک سایت که به عنوان صفحات یک کتاب عمل می کنند.
  • سازماندهی اسناد وب در یک وب سایت.
  • مفاهیمی را در یک سند وب بگنجانید که ویژگی های شناخته شده موجودیت ها هستند.

نکته مهم: هنگامی که بر روابط بین موجودیت ها تأکید می شود، پایگاه دانش اغلب به عنوان نمودار دانش شناخته می شود.

از آنجایی که قصد همراه با گزارش‌های جستجوی کاربر و سایر قسمت‌های زمینه تحلیل می‌شود، عبارت جستجوی یکسانی از شخص 1 می‌تواند نتیجه متفاوتی از شخص 2 ایجاد کند. فرد می‌تواند دقیقاً با همان پرس و جو قصد متفاوتی داشته باشد.اگر صفحه شما هر دو نوع هدف را پوشش می دهد، صفحه شما کاندیدای بهتری برای رتبه بندی وب است.

می‌توانید از ساختار پایگاه‌های دانش برای هدایت الگوهای پرس و جوی خود استفاده کنید (همانطور که در بخش قبلی ذکر شد). افراد همچنین می پرسند، افراد جستجو برای، و تکمیل خودکار از نظر معنایی با درخواست ارسال شده مرتبط هستند و یا عمیق تر در جهت جستجوی فعلی فرو می روند یا به جنبه دیگری از کار جستجو می روند. ما این را می دانیم، پس چگونه می توانیم برای آن بهینه سازی کنیم؟

اسناد شما باید تا حد امکان دارای تنوع هدف جستجو باشد. وب سایت شما باید شامل هر گونه تنوع هدف جستجو برای خوشه شما باشد. خوشه بندی بر سه نوع شباهت متکی است:

  • شباهت واژگانی.
  • شباهت معنایی.
  • شباهت کلیک.

پوشش موضوعی

دستورالعمل نوشتن محتوایی جامع در مورد یک موضوع به این شکل است:

توضیح موضوع ← فهرست ویژگی‌ها و خصوصیات ← اختصاص بخشی به هر خصوصیت ← لینک‌دهی هر بخش به مقاله‌ای که کاملاً به آن موضوع اختصاص دارد← شناسایی مخاطبان هدف و تعیین تعاریف بخش‌های فرعی ← بررسی نکاتی که باید مدنظر قرار گیرند ← بیان مزایا ← بیان مزایای تکمیلی و اصلاحی ← توضیح عملکرد موضوع ← چگونگی دستیابی به موضوع ← نحوه انجام آن ← چه کسانی قادر به انجام آن هستند؟ ← لینک‌دهی مجدد به همه دسته‌بندی‌ها

مردم هم می پرسند
مردم هم می پرسند

Google ابزاری را ارائه می‌کند که امتیاز برجسته (مشابه نحوه استفاده ما از کلمه «قدرت» یا «اطمینان») ارائه می‌کند که به شما می‌گوید Google چگونه محتوا را می‌بیند.

ابزار هوش مصنوعی گوگل
ابزار هوش مصنوعی گوگل

مثال بالا از یک مقاله در مورد موجودیت‌ها در سال ۲۰۱۸ بر گرفته شده است.

انواع داده ساختار یافته برای گوگل
انواع داده ساختار یافته برای گوگل

می‌توانید شخص، دیگران و سازمان‌ها را از این مثال ببینید. ابزار Google Cloud’s Natural Language API است. هر کلمه، جمله و پاراگراف هنگام صحبت در مورد یک موجودیت مهم است. نحوه سازماندهی افکارتان می تواند درک Google از محتوای شما را تغییر دهد.

شما ممکن است یک کلمه کلیدی در مورد سئو وارد کنید، اما آیا گوگل آن کلمه کلیدی را آنطور که می خواهید درک می کند؟ سعی کنید یک یا دو پاراگراف را در ابزار قرار دهید و مثال را دوباره سازماندهی و اصلاح کنید تا ببینید که چگونه برجستگی را افزایش یا کاهش می دهد.این تمرین که «ابهام‌زدایی» نامیده می‌شود، برای نهادها بسیار مهم است.

بخوانید  کامل ترین آموزش تدوین استراتژی محتوا + مراحل استراتژی محتوا

زبان مبهم است، بنابراین باید کلمات خود را برای گوگل کمتر مبهم کنیم.

روش‌های مدرن ابهام‌زدایی برای تشخیص صحیح موجودیت‌ها، از سه نوع شاهد و مدرک استفاده می‌کنند:

  1. اول اینکه اهمیت و وزن قبلی موجودیت‌ها و واژه‌هایی که به آن‌ها ارجاع داده می‌شود را در نظر می‌گیرند.
  2. دوم اینکه میزان تشابه معنایی و متنی بین متن اطراف یک ارجاع به موجودیت و خود آن موجودیت را محاسبه می‌کنند.
  3. سوم اینکه انسجام کلی بین تمام تصمیم‌گیری‌های مربوط به لینک‌دهی موجودیت‌ها در یک سند را در نظر می‌گیرند.

با در نظر گرفتن این شواهد مختلف، ابهام‌زدایی دقیق‌تری انجام می‌شود.

تصمیمات مرتبط با موجودیت
تصمیمات مرتبط با موجودیت

اسکیما یکی از راه های مورد علاقه من برای ابهام زدایی محتوا است. شما در حال پیوند نهادهای موجود در وبلاگ خود به مخازن دانش هستید. بالوگ می گوید: پیوند دادن موجودیت‌ها در متن بدون ساختار به یک مخزن دانش ساختاریافته می‌تواند تا حد زیادی کاربران را در فعالیت‌های مصرف اطلاعاتشان توانمند کند.

به عنوان مثال، خوانندگان یک سند می توانند با یک کلیک اطلاعات زمینه ای یا زمینه ای را به دست آورند و می توانند به آسانی به نهادهای مرتبط دسترسی پیدا کنند. حاشیه نویسی موجودیت همچنین می تواند در پردازش پایین دستی برای بهبود عملکرد بازیابی یا تسهیل تعامل بهتر کاربر با نتایج جستجو استفاده شود.

حاشیه نویسی موجودیت
حاشیه نویسی موجودیت

محتوای سوالات متداول که با استفاده از Schema برای موتور جستجوی گوگل ساختاردهی و برچسب‌گذاری شده‌است.

حاشیه نویسی موجودیت 2
حاشیه نویسی موجودیت 2

در این مثال Schema شامل توصیفی از متن، یک شناسه و اعلام موجودیت اصلی صفحه است.

یادآوری: گوگل برای درک بهتر ساختار و سلسله‌مراتب اطلاعات در یک صفحه، نیاز به استفاده از عناوین یا تگ هدینگ H1 تا H6 دارد. پس برای بهینه‌سازی SEO، باید از این عناوین به درستی در ساختاردهی به محتوا استفاده کرد.

استفاده از Schema به گوگل اجازه می دهد تا رابطه بین متن یک صفحه و پایگاه داده های ساختار یافته مرتبط را شناسایی کند. همچنین با ارائه نام‌ها و مترادف‌های جایگزین برای موجودیت‌ها، Schema به گوگل اجازه می‌دهد تا روابط معنایی بین کلمات مختلف اما مرتبط را برای یک موجودیت شناسایی کند.

هنگامی که شما با Schema بهینه سازی می کنید، در واقع در حال بهینه سازی برای NER (با نام مستعار entity detection) هستید که به آن تشخیص موجودیت، استخراج موجودیت و تکه تکه شدن موجودیت نیز می گویند. یعنی طرح بهینه به الگوریتم های تشخیص و استخراج موجودیت کمک می کند تا بهتر کار کنند و موجودیت ها را با دقت بیشتری شناسایی و استخراج کنند. ایده اصلی تلاش برای بهبود شناخت و درک موجودیت ها با توجه به مراحل زیر است:

  1. ابهام‌زدایی اسامی موجودیت‌ها: تعیین معنای صحیح برای موجودیت‌های دارای چند موجودیت در متن
  2. ویکی‌سازی(Wikification): لینک‌دهی به صفحات ویکی‌پدیای مرتبط با موجودیت‌ها
  3. لینک‌‌دهی موجودیت‌ها: لینک کردن موجودیت‌های متن به موجودیت‌ها در منابع ساختاریافته

با انجام این مراحل، ارتباطات و معانی موجودیت‌ها بهتر درک شده و دقت سیستم‌ها در شناسایی و دسته‌بندی آن‌ها افزایش می‌یابد.

شناسایی موجودیت نامگذاری شده
شناسایی موجودیت نامگذاری شده

ایجاد ویکی‌پدیا به راحتی قابل شناسایی و تجزیه و تحلیل در مقیاس بزرگ است، زیرا ویکی‌پدیا فهرستی جامع از وجود آن تهیه می‌کند و همچنین منابعی را در قالب‌های دیگر (مانند پیوندها، دسته‌ها و صفحات تغییر مسیر) ارائه می‌دهد.» برگرفته از کتاب جستجوی موجودیت‌محور.

چگونه فراتر از پیشنهادات ابزارهای سئو عمل کنیم؟

اکثر متخصصان سئو از ابزارهای سئو داخلی (روی صفحه) برای بهینه سازی درون صفحه استفاده می کنند که محدودیت هایی در شناسایی فرصت های ایجاد محتوا و ارائه عمق محتوا دارند و نمی توان به طور کامل به آنها اعتماد کرد. بیشتر این ابزارهای بهینه‌سازی تنها بهترین نتایج را از صفحات جستجو جمع‌آوری می‌کنند و بر اساس آن الگو یا میانگینی را به عنوان توصیه‌های بهینه‌سازی برای شما ارائه می‌دهند. البته باید به خاطر داشته باشید که گوگل به دنبال اطلاعات تکراری و تکراری نیست. تنها الگوبرداری از دیگران کافی نیست. بلکه باید محتوای ارزشمند و منحصر به فرد ایجاد شود تا وب سایت شما به یک مرجع معتبر و قابل اعتماد تبدیل شود

توضیح ساده از نحوه برخورد گوگل با محتوای جدید به شرح زیر است:

وقتی سند یا محتوای جدیدی ارسال می‌شود که به یک شی خاص مربوط می‌شود، Google محتوای جدید را بررسی می‌کند تا در صورت وجود اطلاعات جدیدی درباره آن شی، ورودی پایگاه دانش را برای آن شیء به‌روزرسانی کند.

بالوگ می‌نویسد: ما می‌خواهیم به ویرایشگران کمک کنیم تا با شناسایی خودکار محتوا (مقالات خبری، پست‌های وبلاگ و غیره) که ممکن است تغییراتی در ورودی‌های دانشنامه مربوط به یک مجموعه خاص از موجودیت‌ها را نشان دهد (به عبارت دیگر، موجودیت‌هایی که یک ویرایشگر خاص مسئول آن‌هاست)، آن‌ها را در اطلاع از تغییرات بر روی آن‌ها نگه داریم.

هرکسی که پایگاه‌های دانش، تشخیص موجودیت و قابلیت خزیدن اطلاعات را بهبود بخشد، مورد علاقه Google قرار خواهد گرفت. تغییرات ایجاد شده در مخزن دانش را می توان به سند به عنوان منبع اصلی ردیابی کرد.اگر شما محتوایی ارائه دهید که موضوع را پوشش دهد و یک سطح عمقی اضافه کنید که کمیاب یا جدید باشد، گوگل می‌تواند تشخیص دهد که آیا سند شما اطلاعات منحصر به فردی اضافه کرده است یا خیر.در نهایت، این اطلاعات جدید که در طی یک دوره زمانی ثابت می شود می تواند منجر به تبدیل شدن وب سایت شما به یک مرجع شود.این یک اعتبار مبتنی بر رتبه بندی دامنه نیست، بلکه پوشش موضوعی است، که به اعتقاد من بسیار ارزشمندتر است.

با رویکرد موجودیت به بهینه‌سازی موتورهای جستجو، شما محدود به هدفگذاری کلمات کلیدی با حجم جستجو نیستید.تنها کاری که شما باید انجام دهید این است که عبارت سر را تأیید کنید (مثلاً “میله های ماهیگیری با پرواز”)، و سپس می توانید بر روی هدف قرار دادن تغییرات هدف جستجو بر اساس تفکر خوب انسان تمرکز کنید.

ما با ویکی پدیا شروع می کنیم. برای مثال فلای فیشینگ، می‌توانیم ببینیم که حداقل، مفاهیم زیر باید در وب‌سایت ماهیگیری پوشش داده شود: گونه های ماهی، تاریخچه، خاستگاه، توسعه، پیشرفت های تکنولوژیک، گسترش، روش های ماهیگیری با مگس، ریخته گری، ریخته گری اسپی، ماهیگیری با مگس برای ماهی قزل آلا، تکنیک های ماهیگیری با مگس، ماهیگیری در آب سرد، ماهیگیری قزل آلای مگس خشک، پورگی برای قزل آلا، آب ساکن ماهیگیری قزل آلا، قزل آلای بازی، قزل آلای رهاسازی، صید مگس آب شور، تکل، مگس مصنوعی و گره.

موضوعات بالا از صفحه ویکی پدیا فلای فیشینگ آمده است. در حالی که این صفحه نمای کلی عالی از موضوعات را ارائه می دهد، من دوست دارم ایده های دیگری را که از موضوعات مرتبط معنایی می آیند اضافه کنم. برای مبحث «ماهی» می‌توانیم چندین موضوع دیگر از جمله ریشه‌شناسی، تکامل، آناتومی و فیزیولوژی، ارتباطات ماهی، بیماری‌های ماهی، حفاظت و اهمیت برای انسان اضافه کنیم.

آیا کسی آناتومی ماهی قزل آلا را با اثربخشی برخی از تکنیک های ماهیگیری مرتبط کرده است؟ آیا یک وب سایت ماهیگیری تنها همه گونه های ماهی را پوشش داده است و در عین حال انواع تکنیک های ماهیگیری، میله ها و طعمه ها را به هر ماهی پیوند می دهد؟

در حال حاضر، شما باید بتوانید ببینید که چگونه گسترش موضوع می تواند رشد کند. این را هنگام برنامه ریزی یک کمپین محتوا در نظر داشته باشید.فقط تکرار نکنید ارزش اضافه کنید. منحصر به فرد باشید. از الگوریتم های ذکر شده در این مقاله به عنوان راهنمای خود استفاده کنید.

نتیجه

این مقاله بخشی از مجموعه مقالاتی است که بر موجودیت ها متمرکز شده است. در مقاله بعدی، به تلاش‌های بهینه‌سازی پیرامون موجودیت‌ها و برخی ابزارهای متمرکز بر موجودیت در بازار عمیق‌تر خواهم پرداخت.

من می خواهم این مقاله را با فریاد زدن به دو نفر پایان دهم که بسیاری از این مفاهیم را برای من توضیح دادند.

بیل اسلاوسکی از SEO by the Sea و کورای تاگبرت از Holistic SEO. در حالی که اسلاوسکی دیگر در بین ما نیست، کمک های او همچنان در صنعت سئو تاثیرات موجی دارد.

من به شدت به منابع زیر برای محتوای مقاله متکی هستم، زیرا این منابع بهترین منابعی هستند که در مورد موضوع وجود دارد:

سوالات متداولی که شاید برای شما پیش بیاید

Entity چیست؟

یک Entity یک شی یا چیز منحصر به فرد قابل شناسایی است که با نام(ها)، نوع(ها)، ویژگی ها و روابط با Entity های دیگر مشخص می شود.

منبع: searchengineland