Google BERT Vs. Smit algoritmlari birgalikda ishlaydi - Semalt Umumiy Tasavvur




Yaqinda Google o'zlarining yangi SMITH NLP algoritmi bo'yicha tadqiqot maqolasini chiqardi. Ushbu maqola ko'plab SEO mutaxassislarini SERP reytingida o'sish yoki pasayishni kafolatlaydigan o'zgarishlar haqida ma'lumot berdi. Shunga qaramay, bizning xavotirimiz shuki, ushbu yangi SMITH algoritmi BERT bilan qanday taqqoslanadi?

Google tomonidan chop etilgan maqolada ular SMITH uzoq qidiruv so'rovlari va uzoq hujjatlarni tushunishda BERT dan ustunligini ta'kidladilar. SMITH-ni shunchalik qiziqarli qiladigan narsa shundaki, u hujjat ichidagi parchalarni BERT so'zlar va jumlalar bilan bajaradigan narsalarga o'xshashligini tushunishi mumkin. SMITH-ning ushbu takomillashtirilgan xususiyati uzoqroq hujjatlarni osonlikcha tushunishga imkon beradi.

Ammo oldinga borishdan oldin shuni ma'lum qilishimiz kerakki, SMITH google algoritmlarida ishlamaydi. Ammo agar bizning taxminlarimiz to'g'ri bo'lsa, u indekslarni indeksatsiya qilish bilan birga boshlanadi yoki oldinroq bo'ladi. Agar siz haqiqatan ham SEP-da qanday qilib reytingni o'rganishni xohlasangiz, Mashinaviy o'rganish bu qiziqish bilan yonma-yon ketishi muqarrar.

Demak, mavzuga qaytsak, BERT o'rnini bosmoqchi emasmi? Internetdagi katta hajmli, mustahkam va shuning uchun ko'proq vaqt davomida SMITH bilan ishlashga yaroqli hujjatlar emasmi?

Keling, nariroqqa sakrab o'tib, nima xulosa qilganimizni ko'rib chiqaylik. SMITH ishonchli va ingichka hujjatlarni o'qish vazifasini bajara oladi. Buni Bazuka singari o'ylab ko'ring. Bu katta zarar etkazishi mumkin, chunki u eshiklarni ham ochishi mumkin.

Boshlash uchun nima uchun BERT yoki SMITH kerak?

Bu erda haqiqiy savol nima uchun qidiruv tizimida qidiruv natijalarini ta'minlash uchun Natural Learning Processing talab qilinadi. Javob oddiy. Qidiruv motorlar NLP-ni qidiruv tizimini tushunadigan satrlardan yoki kalit so'zlardan narsalarga yoki veb-sahifalarga o'tishda talab qiladi.

Google haqida tasavvurga ega bo'lmagan joyda, sahifada kalit so'zlardan boshqa nima bo'lishi mumkin yoki indekslangan tarkib hatto qidiruv so'roviga nisbatan mantiqiy bo'ladimi. NLP tufayli Google qidiruv so'roviga kiritilgan belgilar kontekstini tushunishi mumkin.
NLP tufayli Google "daryo bo'yi" va "bank hisobvarag'i" deb aytganda foydalanuvchi niyatini ajrata oladi. Shuningdek, "Kerolin do'stlari bilan ichimlik, ichimliklar, pint, ale, pivo uchun uchrashdi" kabi gaplarni g'ayritabiiy deb tushunishi mumkin.

SEO bo'yicha mutaxassislar sifatida biz qidiruv so'rovini tushunish uzoq yo'lni bosib o'tganligini aytishimiz kerak. Ilgari Internetda kerakli maqolalarni topish juda qiyin bo'lganiga ishonaman.

BERT haqida tushuncha

Hozirda BERT biz uchun juda ko'p NLP modeli bo'lib ishlaydi, aksariyat hollarda, ayniqsa, murakkab til tuzilmalarini tushunish haqida. Ko'pchilik birinchi ikki tomonlama belgini ushbu algoritmdagi eng katta sakrash deb hisoblaydi. Chapdan o'ngga o'qiydigan algoritmga ega bo'lish o'rniga, BERT so'zlarni ularning mazmuni bilan bog'liq holda ham tushunishi mumkin. Shunday qilib, bu so'rovda berilgan alohida so'zlar uchun natija bermaydi, ammo qidiruv so'rovidagi so'zlarning umumiy ma'nosiga asoslangan veb-sahifalar.

Tushunishingizni osonlashtirish uchun bir misol:

Yuk mashinasi yorug'likka ega.

Agar siz ushbu so'zni chapdan o'ngga talqin qilsangiz, "engil" so'ziga etib borganingizda, siz yuk mashinasini nurli narsalarga ajratasiz. Buning sababi, yuk mashinasi bayonotda yorug'likdan oldin kelgan.

Ammo agar biz yuk mashinalarida narsalarni tasniflashni istasak, biz "engil" ni tashlab qo'yishimiz mumkin, chunki biz unga "yuk mashinasi" dan oldin duch kelmaymiz.

Faqat bitta yo'nalishda bayonotni ko'rib chiqish qiyin.

Bundan tashqari, BERT-ning yana bir maxfiy foydasi bor, bu juda ajoyib va ​​bu tilni avvalgi modellarga nisbatan arzonroq resurslar bilan samarali ishlashga imkon beradi. Darhaqiqat, buni butun veb-saytga tatbiq etishni istagan paytda e'tiborga olish kerak bo'lgan muhim omil.

Tokenlarning qo'llanilishi BERT bilan birga kelgan yana bir evolyutsiya. BERT-da 30000 ta jeton mavjud va ularning har biri umumiy so'zni ifodalaydi, agar so'z 30000 dan tashqarida bo'lsa, belgilar va fragmentlar uchun qo'shimcha juft belgilar mavjud.

Belgilar va transformatorlarni qayta ishlash qobiliyati orqali BERT tarkibni tushundi, bu esa unga gaplarni etarli darajada tushunish qobiliyatini berdi.

Demak, "yosh xonim bankka bordi. Keyinchalik u daryo bo'yida o'tirdi va daryoning oqishini kuzatdi".

BERT ushbu jumlalarga har xil qiymatlarni belgilaydi, chunki ular ikki xil narsani nazarda tutadi.

SMITHni tushunish

Keyinchalik katta hajmdagi hujjatlarni qayta ishlash uchun foydalanish uchun yaxshi resurslar va raqamlarga ega bo'lgan algoritm bo'lgan SMITH keladi. BERT har bir hujjat uchun taxminan 256 ta ma'lumotdan foydalanadi va agar u ushbu chegaradan oshib ketsa, hisoblash qiymati maqbul ish uchun juda yuqori bo'ladi. Bundan farqli o'laroq, SMITH har bir hujjat uchun 2248 belgigacha ishlov bera oladi. Bu BERT foydalanadigan ma'lumotlarning soni taxminan 8X.

Hisoblash xarajatlari nima uchun bitta NLP modelida ko'tarilishini tushunish uchun avval gapni va xatboshini tushunish uchun nima zarurligini ko'rib chiqishimiz kerak. Gap bilan ishlashda faqat bitta umumiy tushuncha tushuniladi. Bir-biriga aloqador so'zlar kamroq, shuning uchun so'zlar va ularning xotirasida saqlanadigan fikrlar o'rtasidagi aloqalar kamroq.

Paragraflarga jumlalar tuzish orqali ushbu so'zlar orasidagi aloqa juda ko'payadi. 8X matni bir xil model yordamida tezlikni va xotirani optimallashtirish imkoniyatlarini ko'p marta talab qiladi. SMITH, asosan, ommaviy ravishda ishlov berish va ko'plab oflayn ishlov berish orqali barcha farqlarni keltirib chiqaradi. Qizig'i shundaki, SMITH hali ham BERT-ning to'g'ri ishlashiga bog'liq.

SMITH hujjatni qanday qilib o'z zimmasiga olishining tavsifi:
  1. Dastlab u hujjatni boshqarish uchun qulayroq bo'lgan guruh o'lchamlariga ajratadi.
  2. Keyin gaplarning har bir blokini alohida-alohida qayta ishlaydi.
  3. Keyin transformator har bir blokning kontekstli ko'rinishini o'rganadi, shundan so'ng ularni hujjat ko'rinishiga aylantiradi.

SMITH qanday ishlaydi?

SMITH modelini o'rgatish uchun biz BERT-dan ikki yo'l bilan o'rganamiz:

BERTni o'rgatish uchun jumla ichidan so'z olinadi va muqobil variantlar taqdim etiladi

Yaxshi o'qitilgan BERT - taqdim etilgan alternativlardan to'g'ri variantni tanlashda ko'proq muvaffaqiyatga erishadi. Masalan, agar BERTga jumla berilgan bo'lsa:

Baxtli jigarrang ------ piket panjarasidan sakrab o'tdi.
  • Birinchi variant - pomidor.
  • Ikkinchi variant - it.
BERT qanchalik yaxshi o'qitilgan bo'lsa, uning ikkinchi varianti bo'lgan to'g'ri variantni tanlash imkoniyati shunchalik yuqori bo'ladi.

Ushbu o'quv usuli SMITH-da ham qo'llaniladi.

SMITH katta hujjatlar uchun o'qitiladi

SMITH qanchalik yaxshi o'qitilgan bo'lsa, o'tkazib yuborilgan jumlalarni tanib olish imkoniyati shunchalik yuqori bo'ladi. BERT bilan bir xil fikr, ammo boshqa dastur. Ushbu qism ayniqsa qiziqarli, chunki u Google tomonidan yaratilgan kontentni qidiruv tizimining natija sahifalariga birlashtirgan holda yaratadi. Albatta, foydalanuvchilar ketishlari mumkin, ammo ular chiqmaydi, chunki Google o'z natijalari sahifasidagi barcha eng yaxshi manbalardan qisqa va uzoq muddatli tarkibni birlashtirishi mumkin.

Agar siz bu sodir bo'lishidan shubhalansangiz, u allaqachon sodir bo'lganligini bilishingiz kerak va ular hali buni o'zlashtirmagan bo'lsalar ham, bu boshlanishdir.

SMITH BERTdan yaxshiroqmi?

O'qiganingizdan tashqari, SMITH yaxshiroq, deb o'ylashingiz tabiiy va ko'pgina vazifalarda bu yaxshiroqdir. Ammo bir lahzaga Internetdan qanday foydalanayotganingizni o'ylab ko'ring; qidiruv so'rovlarida muntazam ravishda qanday savollarni kiritasiz?
  • "Bugungi ob-havo ma'lumoti qanday?"
  • "Restoranga ko'rsatmalar".
Bunday qidiruv so'rovlariga javob berish uchun odatda cheklangan va murakkab bo'lmagan ma'lumotlar bilan qisqa tarkib talab qilinadi. SMITH uzoqroq va murakkabroq hujjatlar va uzoq va murakkab qidiruv so'rovlarini tushunishda ko'proq ishtirok etadi.

Bunga o'zlarining javoblarini yaratish uchun bir nechta hujjatlar va mavzularni birlashtirish kiradi. Bu tarkibni qanday qilib sindirish mumkinligini belgilaydi va Google-ga namoyish qilish uchun to'g'ri narsani bilish imkoniyatini beradi. Bu Google-ga tarkibdagi sahifalar bir-biri bilan qanday bog'liqligini tushunishga yordam beradi va havolalar boshqa afzalliklar qatorida baholanishi mumkin bo'lgan o'lchovni beradi.

Ushbu so'zlar bilan biz BERT va SMITH ikkalasi ham muhim va ular ikkalasi ham o'zlarining yagona maqsadlariga xizmat qilishlari bilan yakunlaymiz.

Xulosa

SMITH bazuka bo'lsa-da, biz narsalar qanday bo'lishini aniq tasavvur qilishimiz uchun kerak. Resurslarda bu ko'proq xarajat qiladi, chunki u katta ishni bajaradi, lekin xuddi shu ishni bajarishda BERT-dan ancha past turadi.

BERT SMITH-ga qisqa so'rovlar va tarkibdagi mayda qismlarni tushunishda yordam beradi. Biroq, bu Google ikkalasini o'rnini bosadigan boshqa NLP algoritmini ishlab chiqmaguncha, keyin biz harakat qilamiz va SEO-da yana bir yutuqqa erishamiz.

SEO bilan qiziqasizmi? Bizning boshqa maqolalarimizni tekshiring Semalt blog.