وبلاگ پل‌وینو بخش هوش مصنوعی

وبلاگ پل‌وینو
۲۲ دی ۱۴۰۰ 0

مدل Bert و استفاده آن در NLP

مدل Bert با فراهم کردن یک مدل تقریباً آماده برای کاربر می‌تواند پردازش‌های خود را با حجم خیلی کمی از داده انجام دهد.


توسط محمد سجاد اقادادی، مدیر پروژه چت‌بات مرکز نوآوری پل‌وینو

 

مدل‌های زبانی از قبل آموزش دیده[1] نشان دادند که می‌توانند برای بهبود بسیاری از کارهای حوزه پردازش‌ زبان طبیعی مؤثر باشند، مواردی مانند استنتاج زبان طبیعی[2]، شناسایی موجودیت بانام[3]، پاسخ به سؤالات. در شکل زیر مقایسه‌ای بین پارامترهای استفاده شده در چند مورد از این مدل‌های زبانی محبوب آورده شده است، همانطور که مشخص است مدل GPT-3 از پارامترهای بسیار زیادی استفاده کرده که در مقابل مدل‌های دیگر از مزیت بالاتری برخوردار است.


پردازش زبان طبیعی

 

مدل GPT-3 در گزارشی با عنوان استفاده از مدل GPT-3 در چت‌بات معرفی شد. در این گزارش می‌خواهیم به معرفی مدل Bert[4] به‌عنوان یکی از پراستفاده‌ترین مدل‌های از قبل آموزش دیده بپردازیم.

Bert مخفف عبارت "Bidirectional Encoder Representation with Transformers" و یک چارچوب مبتنی بر یادگیری ماشین است و از Transformer به‌عنوان جزء اصلی استفاده می‌کند. Transformer یک مدلی از شبکه‌های عصبی است که از مکانیزم توجه[5] در اینکودر[6] و دیکودر[7] استفاده می‌کند. Transformer از این مکانیزم برای اینکود کردن اطلاعات، داخل بردار لغات با توجه به مفهوم جمله مربوطه استفاده می‌کند. Bert به نوعی یک انقلاب در حوزه پردازش زبان طبیعی به وجود آورد، فراهم آوردن دیتاست مطلوب در حوزه پردازش زبان‌های طبیعی همواره یکی از چالش‌های مهم بوده است و Bert با فراهم کردن یک مدل تقریباً آماده برای کاربر می‌تواند پردازش‌های خود را با حجم خیلی کمی از داده انجام دهد. در این مدل نیاز است که کاربر تنها مقداری از داده‌های مربوط به پردازش مورد نظر را در لایه انتهایی وارد و مدل را تنها fine tune کند بدون آنکه نیاز باشد کل مدل را مجدد train کند.

در جدول زیر 3 نسخه از مدل Bert که بیشترین استفاده را دارند از لحاظ ویژگی‌های فنی و معماری آن با یکدیگر مقایسه شده است. در مدل پایه‌ای Bert، تعداد پارامترهای استفاده شده 108 میلیون بوده (در مقایسه با مدل GPT3 که تعداد پارامترها بیش از 150 میلیارد است)، تعداد لایه‌های مربوط به شبکه عصبی استفاده شده 12 عدد و شامل 768 لایه پنهان[8] می‌باشد.


پردازش زبان طبیعی

 

باتوجه به کاربردهای وسیعی که مدل Bert دارد می‌توان از آن در قسمت‌هایی از فرایند راه‌اندازی چت‌بات استفاده کرد.

مدل Bert این امکان را داشت تا برای تعداد زیادی از زبان‌های دنیا مورد استفاده قرار بگیرد، در زبان فارسی نیز نسخه شخصی‌سازی شده برای این مدل توسعه داده شد و در سال 2020 مدل Parsbert برای این منظور عرضه شد. هم‌اکنون نسخه 3 این مدل منتشر شده است که از اینجا قابل دسترس است.


پردازش زبان طبیعی

 

در شکل بالا مقایسه‌ای بین مدل‌های از قبل آموزش دیده معروف از لحاظ حجم دیتاستی که برای train شدن مورد استفاده قرار گرفته انجام شده است. همانطور که مشخص است مدل GPT-3 از دیتاست بسیار عظیمی در مقایسه با مدل Bert برخوردار است.

درمجموع می‌توان بیان کرد که مدل‌های از قبل آموزش دیده موجود تنوع و کاربردهای فراوانی دارند و پژوهشگران می‌توانند متناسب با نیاز خود از هرکدام از آنها بهره ببرند.  

 

مقالات مرتبط

استفاده از مدل GPT-3 در چت‌بات




[1] Pretrained Language Model

[2] Natural Language Inference

[3] Named Entity Recognition

[4] Jacob Devlin and others, ‘BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding’, NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 1.Mlm (2019), 4171–86.

[5] Attention

[6] Encoder

[7] Decoder

[8] Hidden Layer

  

نظر دهید

* نام شما
* ایمیل شما
* نظر شما
تمامی حقوق مربوط به طراحی و توسعه وب سایت محفوظ می باشد Polwinno.ir
X

جستجوی سریع محتوای تخصصی پل‌وینو


v