گوگل اخیراً مقاله تحقیقی درباره الگوریتمی جدید به نام SMITH منتشر کرده است که ادعا می کند عملکرد آن بهتر است BERT برای درک سوالات طولانی و اسناد طولانی. به طور خاص ، آنچه این مدل جدید را بهتر می کند ، توانایی آن است معابر را درک کنید در اسناد به همان روشی است که BERT کلمات و جملات را می فهمد ، الگوریتم برای درک اسناد طولانی تر
در تاریخ 3 نوامبر 2020 ، من در مورد یک الگوریتم گوگل به نام اسمیت خواندم که ادعا می کند از BERT بهتر عمل می کند. من در 25 نوامبر در قسمت 395 پادکست SEO 101 در اواخر نوامبر به طور خلاصه در مورد آن بحث کردم.
من منتظر بودم تا زمانی که برای نوشتن خلاصه ای از آن وقت داشتم ، زیرا به نظر می رسد SMITH یک الگوریتم مهم است و سزاوار یک نوشتن متفکرانه است ، که من فروتنانه تلاش کردم.
امیدوارم از آن لذت ببرید و اگر این کار را انجام دادید لطفاً این مقاله را به اشتراک بگذارید.
آیا Google از الگوریتم SMITH استفاده می کند؟
گوگل به طور کلی نمی گوید که از الگوریتم های خاصی استفاده می کند. اگرچه محققان می گویند این الگوریتم از BERT بهتر عمل می کند ، اما تا زمانی که گوگل به طور رسمی اعلام کند که الگوریتم SMITH برای درک مقاطع موجود در صفحات وب در حال استفاده است ، گفتن اینکه آیا این الگوریتم استفاده می شود یا خیر ، کاملاً گمانه زنی است.
تبلیغات
ادامه مطلب را در زیر بخوانید
الگوریتم SMITH چیست؟
SMITH مدل جدیدی برای تلاش برای درک کامل اسناد است. مدل هایی مانند BERT برای درک کلمات در متن جملات آموزش دیده اند.
در یک توصیف بسیار ساده ، مدل SMITH آموزش داده شده است تا قسمت هایی از متن کل سند را درک کند.
در حالی که الگوریتم هایی مانند BERT در مجموعه داده ها آموزش داده می شوند تا کلمات پنهان شده به طور تصادفی از متن درون جملات پیش بینی شوند ، الگوریتم SMITH برای پیش بینی اینکه مجموعه بعدی جملات چیست آموزش دیده است.
به گفته محققان ، این نوع آموزش به الگوریتم کمک می کند تا اسناد بزرگتر را بهتر از الگوریتم BERT درک کند.
الگوریتم BERT محدودیت هایی دارد
آنها به این ترتیب نواقص BERT را ارائه می دهند:
“در سالهای اخیر ، مدلهای مبتنی بر توجه به خود مانند Transformers… و BERT performance در کار تطبیق متن به عملکرد پیشرفته ای رسیده اند. این مدل ها ، به دلیل پیچیدگی محاسباتی درجه دوم توجه به خود ، با توجه به طول متن ورودی ، هنوز محدود به متن کوتاه مانند چند جمله یا یک پاراگراف هستند.
در این مقاله ، ما با پیشنهاد رمزگذار سلسله مراتبی مبتنی بر ترانسفورماتور (SMITH) چند جانبه سیامی برای مطابقت اسناد با فرم طولانی ، به این مسئله می پردازیم. مدل ما شامل چندین نوآوری برای انطباق مدل های توجه به خود برای ورود متن بیشتر است. “
تبلیغات
ادامه مطلب را در زیر بخوانید
طبق گفته محققان ، الگوریتم BERT محدود به درک اسناد کوتاه است. به دلایل مختلف توضیح داده شده در مقاله تحقیق ، BERT برای درک اسناد بلند مدت مناسب نیست.
محققان الگوریتم جدید خود را پیشنهاد می دهند که به گفته آنها با اسناد طولانی تر از BERT بهتر عمل می کند.
آنها سپس دلیل دشوار بودن اسناد طولانی را توضیح می دهند:
“… مطابقت معنایی بین متن های طولانی به چند دلیل کار چالش برانگیزی است:
1) وقتی هر دو متن طولانی هستند ، تطبیق آنها مستلزم درک دقیق تری از روابط معنایی از جمله الگوی تطبیق بین قطعات متن با فاصله طولانی است.
2) اسناد طولانی شامل ساختار داخلی مانند بخش ها ، متن ها و جملات هستند. برای خوانندگان بشری ، ساختار اسناد معمولاً نقشی اساسی در درک مطلب دارد. به همین ترتیب ، یک مدل برای عملکرد بهتر تطبیق اسناد نیز باید اطلاعات ساختار سند را در نظر بگیرد.
3) پردازش متون طولانی احتمالاً باعث ایجاد موارد عملی مانند خارج از حافظه TPU / GPU بدون طراحی دقیق مدل می شود. “
متن ورودی بزرگتر
BERT محدود به طولانی بودن اسناد است. همانطور که در پایین می بینید ، SMITH هرچه سند بیشتر باشد عملکرد بهتری دارد.
این یک نقص شناخته شده با BERT است.
آنها اینگونه توضیح می دهند:
“نتایج تجربی چندین داده معیار برای تطبیق متن با فرم طولانی long نشان می دهد که مدل SMITH پیشنهادی ما نسبت به مدل های پیشرفته قبلی بهتر عمل می کند و هنگام مقایسه با مبانی مبانی BERT ، حداکثر طول متن ورودی را از 512 به 2048 افزایش می دهد.”
این حقیقت که SMITH قادر به انجام کاری است که BERT قادر به انجام آن نیست ، همان چیزی است که مدل SMITH را جذاب می کند.
مدل SMITH جایگزین BERT نمی شود.
مدل SMITH با انجام سنگین وزنه برداری که BERT قادر به انجام آن نیست ، BERT را مکمل می کند.
محققان آن را آزمایش کردند و گفتند:
“نتایج تجربی ما در چندین مجموعه داده معیار برای مطابقت طولانی مدت اسناد نشان می دهد که مدل SMITH پیشنهادی ما از مدل های پیشرفته قبلی از جمله توجه سلسله مراتبی ، شبکه عصبی سلسله مراتبی مبتنی بر توجه چند منظوره و BERT بهتر عمل می کند. .
در مقایسه با خطوط مبنای BERT ، مدل ما قادر است حداکثر طول متن ورودی را از 512 به 2048 افزایش دهد. “
تطبیق طولانی تا طولانی
اگر من مقاله تحقیق را به درستی درک می کنم ، مقاله تحقیق بیان می کند که مشکل تطبیق پرس و جوهای طولانی با محتوای طولانی به اندازه کافی بررسی نشده است.
تبلیغات
ادامه مطلب را در زیر بخوانید
به گفته محققان:
“از نظر دانش ما ، مطابقت معنایی بین جفت اسناد طولانی ، که دارای کاربردهای مهم بسیاری مانند توصیه خبر ، توصیه مقاله مرتبط و خوشه بندی اسناد است ، کمتر مورد بررسی قرار گرفته و به تلاش بیشتری نیاز دارد.”
بعداً در این سند ، آنها اظهار داشتند كه برخی مطالعات انجام شده است كه نزدیك به آنچه آنها تحقیق می كنند ، بوده است.
اما به طور کلی به نظر می رسد در تحقیق در مورد راه های مطابقت جستارهای طولانی با اسناد طولانی فاصله وجود دارد. این مسئله ای است که محققان با الگوریتم SMITH در حال حل آن هستند.
جزئیات SMITH گوگل
من عمیق به جزئیات الگوریتم نمی پردازم اما برخی از ویژگی های کلی را که نمای سطح بالایی از آنچه در آن است را بیان می کنم.
این سند توضیح می دهد که آنها از یک مدل قبل از آموزش استفاده می کنند که شبیه BERT و بسیاری دیگر است الگوریتم ها.
ابتدا کمی اطلاعات پیش زمینه ای داشته باشید تا سند معنی بیشتری پیدا کند.
الگوریتم قبل از آموزش
پیش آموزش جایی است که یک الگوریتم روی یک مجموعه داده آموزش داده می شود. برای پیش آموزش معمول این نوع الگوریتم ها ، مهندسان کلمات تصادفی را درون جملات مخفی می کنند (پنهان می کنند). الگوریتم سعی می کند کلمات پوشیده را پیش بینی کند.
تبلیغات
ادامه مطلب را در زیر بخوانید
به عنوان مثال ، اگر جمله ای به صورت “مک دونالد پیر ____“الگوریتم هنگام آموزش کامل ممکن است پیش بینی کند ،”مزرعه”کلمه گمشده است.
همانطور که الگوریتم یاد می گیرد ، در نهایت بهینه سازی می شود تا در داده های آموزش کمتر اشتباه کند.
پیشآموزش به منظور آموزش دقیق و اشتباه بودن دستگاه انجام می شود.
این مقاله چه می گوید:
“با الهام از موفقیت اخیر روش های پیش آموزش مدل زبان مانند BERT ، SMITH همچنین”قبل از آموزش بدون نظارت + تنظیم دقیق”الگوی آموزش مدل.
برای پیشآموزش مدل اسمیت ، ما علاوه بر وظیفه اصلی مدل سازی زبان کلمه ای مخفی شده که در BERT برای ورودی متن طولانی استفاده می شود ، وظیفه مدل سازی زبان بلوک جمله ای مخفی را نیز پیشنهاد می دهیم. “
بلوک جملات در پیش آموزش پنهان است
در اینجا جایی است که محققان بخشی کلیدی از الگوریتم را توضیح می دهند ، این که چگونه روابط بین بلوک های جمله در یک سند برای درک اینکه یک سند در طی مراحل قبل از آموزش چیست استفاده می شود.
تبلیغات
ادامه مطلب را در زیر بخوانید
“وقتی متن ورودی طولانی می شود ، هر دو رابطه بین کلمات در یک بلوک جمله و روابط بین بلوک های جمله در یک سند برای درک مطلب مهم می شوند.
بنابراین ، ما در حین پیش آموزش مدل کلمات و بلوک های جمله را که به طور تصادفی انتخاب شده ایم ، مخفی می کنیم.
محققان در ادامه با جزئیات بیشتری توضیح می دهند که چگونه این الگوریتم از الگوریتم BERT فراتر و فراتر می رود.
کاری که آنها انجام می دهند این است که آموزش را افزایش می دهند تا فراتر از آموزش کلمات برای استفاده از جملات استفاده کنند.
نحوه توصیف آن در سند تحقیق به شرح زیر است:
“علاوه بر وظیفه پیش بینی کلمه نقابدار در BERT ، ما وظیفه پیش بینی بلوک جمله پوشیده را برای یادگیری روابط بین بلوک های مختلف جمله پیشنهاد می دهیم.”
الگوریتم SMITH برای پیش بینی مجموعه جملات آموزش دیده است. احساس شخصی من در مورد آن … بسیار جالب است.
این الگوریتم یادگیری روابط بین کلمات و سپس تسطیح برای یادگیری متن مجموعه جملات و نحوه ارتباط آنها با یکدیگر در یک سند طولانی است.
تبلیغات
ادامه مطلب را در زیر بخوانید
بخش 4.2.2 ، تحت عنوان ، “پیش بینی بلوک جملات پوشیده” جزئیات بیشتری در مورد روند کار ارائه می دهد (مقاله تحقیق در زیر پیوند داده شده است).
نتایج آزمون SMITH
محققان متذکر شدند که SMITH با اسناد متنی طولانی تر عملکرد بهتری دارد.
“مدل SMITH که از طول متن ورودی بیشتری در مقایسه با سایر مدلهای استاندارد توجه به خود برخوردار است ، انتخاب بهتری برای یادگیری و تطبیق نمایش اسناد طولانی است.”
در پایان ، محققان نتیجه گرفتند که الگوریتم SMITH برای اسناد طولانی مدت بهتر از BERT عمل می کند.
چرا مقاله تحقیقاتی SMITH مهم است
یکی از دلایلی که من مطالعه مقاله های پژوهشی را نسبت به حق ثبت اختراع ترجیح می دهم این است که مقالات تحقیق جزئیاتی را در مورد اینکه آیا مدل پیشنهادی بهتر از مدل های موجود و پیشرفته است ، به اشتراک می گذارند.
بسیاری از مقالات پژوهشی با بیان اینکه کار بیشتری باید انجام شود نتیجه گیری می کنند. برای من این بدان معنی است که آزمایش الگوریتم امیدوار کننده است اما احتمالاً آماده نیست تا در یک محیط زنده قرار گیرد.
درصد کمتری از مقالات پژوهشی می گویند که نتایج بهتر از سطح هنر هستند. اینها مقاله های پژوهشی هستند که به نظر من ارزش توجه به آنها را دارند زیرا احتمال دارد که به الگوریتم گوگل تبدیل شوند.
تبلیغات
ادامه مطلب را در زیر بخوانید
وقتی می گویم likelier ، منظورم این نیست که الگوریتم درون است یا خواهد بود الگوریتم گوگل.
منظور من این است که ، نسبت به آزمایش های دیگر الگوریتم ، مقالاتی که ادعا می کنند از عملکرد پیشرفته کارایی دارند ، احتمالاً آن را به الگوریتم گوگل تبدیل می کنند.
SMITH برای اسناد فرم طولانی از BERT بهتر عمل می کند
با توجه به نتیجه گیری های انجام شده در مقاله تحقیق ، مدل SMITH برای درک محتوای طولانی از بسیاری از مدل ها از جمله BERT پیشی می گیرد.
“نتایج تجربی چندین مجموعه داده معیار نشان می دهد که مدل SMITH پیشنهادی ما نسبت به مدلهای مطابق سیامی پیشرفته قبلی از جمله HAN ، SMASH و BERT برای مطابقت طولانی مدت اسناد بهتر عمل می کند.
علاوه بر این ، مدل پیشنهادی ما در مقایسه با روشهای پایه مبتنی بر BERT ، حداکثر طول متن ورودی را از 512 به 2048 افزایش می دهد. “
آیا SMITH استفاده می شود؟
همانطور که قبلاً نوشتیم ، تا زمانی که گوگل صریحاً اعلام کند که آنها از SMITH استفاده می کنند ، هیچ راهی برای بیان دقیق اینکه مدل SMITH در Google استفاده می شود وجود ندارد.
گفته شد ، مقالاتی که به احتمال زیاد مورد استفاده قرار نمی گیرند ، مقاله هایی هستند که به صراحت بیان می دارند که یافته ها اولین قدم به سوی نوع جدیدی از الگوریتم است و تحقیقات بیشتر لازم است.
تبلیغات
ادامه مطلب را در زیر بخوانید
در این مقاله تحقیق چنین نیست. نویسندگان مقاله تحقیق با اطمینان اظهار داشتند که SMITH برای درک محتوای طولانی مدت ، سطح هنر را شکست می دهد.
اطمینان به نتایج و عدم وجود گزاره ای درباره نیاز به تحقیقات بیشتر ، این مقاله را جالبتر از سایر مطالب می کند و بنابراین در صورتی که در آینده یا در حال حاضر در الگوریتم گوگل قرار گیرد ، ارزش شناخت را دارد.
استناد
مقاله اصلی تحقیق را بخوانید:
مقاله تحقیق PDF الگوریتم SMITH را بارگیری کنید:
فراتر از 512 نشان: رمزگذار سلسله مراتبی مبتنی بر ترانسفورماتور سیامی برای تطبیق اسناد با فرم طولانی (PDF)