تقویت Gemini Nano: ارائه خلاصه‌هایی با کیفیت بالاتر با LoRA

تاریخ انتشار: 21 می 2025

خلاصه سازی به عنوان یکی از رایج ترین و حیاتی ترین وظایف هوش مصنوعی با استفاده از مدل های زبان بزرگ (LLM) است. خلاصه‌ها ابزاری حیاتی برای درک سریع محتوای گسترده ارائه می‌دهند - از مقالات طولانی و گزارش‌های چت فشرده گرفته تا بررسی‌های متعدد - باعث صرفه‌جویی در زمان، افزایش بهره‌وری و امکان تصمیم‌گیری سریع‌تر و آگاهانه‌تر می‌شود.

انواع مختلفی از خلاصه ها، با سطوح متنوعی از جزئیات و انتظارات قالب بندی وجود دارد. برای برآورده کردن انتظارات انواع خلاصه، کروم با Google Cloud برای بهبود خروجی Gemini Nano همکاری کرد.

ما Gemini Nano را با سازگاری با رتبه پایین (LoRA) تنظیم کردیم تا تجربه و کیفیت خروجی را برای همه سبک‌ها و طول‌ها افزایش دهیم. علاوه بر این، ارزیابی‌های خودکار و خودکار را در جنبه‌های مختلف کیفیت خلاصه، از جمله واقعیت، پوشش، قالب، و خوانایی اجرا کردیم.

ما تجسم کرده ایم که این تفاوت در عمل چگونه به نظر می رسد. می‌توانید با این پیاده‌سازی آزمایش کنید و به یک نسخه نمایشی بی‌درنگ نگاه کنید که خروجی‌های Gemini Nano و Gemini Nano را با LoRA مقایسه می‌کند.

Summarizer API چیست؟

توضیح دهنده وب برنامه های افزودنی وضعیت کروم قصد
MDN کروم 138 کروم 138 مشاهده کنید قصد حمل

Summarizer API محتوای متنی طولانی را به خلاصه های کوتاه و آسان برای هضم فشرده می کند. API در Chrome تعبیه شده است و از Gemini Nano برای انجام استنتاج استفاده می کند.

سایت های مختلف ممکن است به خلاصه هایی با طیف وسیعی از سبک ها و طول ها نیاز داشته باشند. به عنوان مثال، اگر یک سایت خبری هستید، ممکن است بخواهید فهرستی از نکات کلیدی را در مقالات خود ارائه دهید. از طرف دیگر، کاربرانی که مرور محصولات را مرور می‌کنند، می‌توانند از خلاصه‌ای کوتاه و سریع از احساسات نقد بهره ببرند. برای نشان دادن، صفحه ویکی‌پدیا در ولز کورگی را با طول short خلاصه کرده‌ایم.

نوع خلاصه خروجی
headline ## ولز کورگی: تاریخچه سلطنتی و سگ گله
key-points * ولز کورگی یک سگ گله کوچک است که منشا آن ولز است.
* دو نژاد اصلی وجود دارد: Pembroke و Cardigan Welsh Corgi.
* پمبروک محبوبیت بیشتری دارد و با خانواده سلطنتی بریتانیا مرتبط بوده است.
tldr ولز کورگی، یک سگ گله کوچک با سابقه طولانی در ولز و خانواده سلطنتی بریتانیا، در دو گونه وجود دارد: پمبروک و کاردیگان، که هر دو به خاطر چهره‌های روباه مانند، پاهای کوتاه و غرایز گله‌داری معروف هستند.
teaser تاریخچه ولز کورگی را کشف کنید، از منشا فروتنانه آن به عنوان سگ گله برای کشاورزان ولزی تا ظهور آن به عنوان نماد خانواده سلطنتی بریتانیا.

می‌توانید با استفاده از Summarizer API Playground، صفحات دیگر را آزمایش کنید.

با تنظیم دقیق آزمایش کنید

تنظیم دقیق فقط به عنوان یک پرچم در Chrome Canary از نسخه 138.0.7180.0 در دسترس است. برای استفاده از این مدل:

  1. Chrome Canary را باز کنید.
  2. به chrome://flags/#summarization-api-for-gemini-nano بروید
  3. Enabled with Adaptation را انتخاب کنید.
  4. مرورگر را مجددا راه اندازی کنید.
  5. DevTools Console را باز کنید و Summarizer.availability() وارد کنید. با این کار دانلود LoRA تکمیلی شروع می شود.

پس از اتمام دانلود، می توانید شروع به آزمایش کنید.

ارزیابی عملکرد خلاصه کننده

ما بهبود عملکرد Gemini Nano را با استفاده از دو روش ارزیابی خودکار و autorater اندازه‌گیری کردیم. تنظیم دقیق به مدل کمک می کند تا وظایف خاص را بهتر انجام دهد، مانند:

  • متن پزشکی را بهتر ترجمه کنید.
  • ایجاد تصاویر در یک سبک هنری خاص.
  • یک زبان عامیانه جدید را درک کنید.

در این مورد، ما می خواستیم انتظارات هر نوع خلاصه را بهتر برآورده کنیم.

ارزیابی خودکار

ارزیابی خودکار از نرم افزار برای قضاوت در مورد کیفیت خروجی مدل استفاده می کند. ما از این تکنیک برای جستجوی خطاهای قالب‌بندی، تکرار جملات و وجود کاراکترهای غیرانگلیسی در خلاصه‌های ورودی انگلیسی استفاده کردیم.

  • خطاهای قالب بندی : بررسی می کنیم که آیا پاسخ های خلاصه از دستورالعمل های قالب بندی فرمان پیروی می کنند یا خیر. به عنوان مثال، برای سبک نقاط کلیدی کوتاه، بررسی می کنیم که آیا هر نقطه با یک ستاره ( * ) شروع می شود و تعداد نقاط گلوله از 3 نقطه تجاوز نمی کند.

  • تکرار جمله : بررسی می‌کنیم که آیا همان جمله در یک پاسخ خلاصه تکرار می‌شود، زیرا این نشان‌دهنده کیفیت پایین پاسخ است.

  • نویسه‌های غیرانگلیسی : بررسی می‌کنیم که آیا پاسخ شامل نویسه‌های غیرانگلیسی است یا نه، وقتی ورودی به انگلیسی باشد.

  • هایپرپیوند در خروجی : بررسی می‌کنیم که آیا پاسخ دارای پیوندهایی با فرمت Markdown یا متن ساده است که در ورودی وجود نداشته باشد.

ما دو سبک ورودی را ارزیابی کردیم: مقالات خراشیده شده و گزارش‌های چت.

تیتر TLDR نکات کلیدی تیزر
پایه / با LoRA پایه / با LoRA پایه / با LoRA پایه / با LoRA
خطاهای قالب بندی 13.54٪ / 7.05٪ 41.07٪ / 4.61٪ 12.58٪ / 6.36٪ 51.17٪ / 6.74٪
تکرار جمله 0.07٪ / 0.07٪ 0.21٪ / 0.0٪ 0.10٪ / 0.10٪ 0.10٪ / 0.03٪
خطاهای غیر انگلیسی 3.95٪ / 0.03٪ 1.38٪ / 0.0٪ 2.41٪ / 0.03٪ 1.44٪ / 0.0٪
هایپرلینک ها 0.07٪ / 0.0٪ 0.14٪ / 0.0٪ 0.14٪ / 0.0٪ 0.34٪ / 0.0٪
ارزیابی خودکار در 970 مقاله در انواع مختلف خلاصه.
تیتر TLDR نکات کلیدی تیزر
پایه / با LoRA پایه / با LoRA پایه / با LoRA پایه / با LoRA
خطای فرمت 13.17٪ / 0.24٪ 22.92٪ / 0.18٪ 4.43٪ / 0.09٪ 29.64٪ / 3.51٪
تکرار جمله 0.0٪ / 0.0٪ 0.0٪ / 0.0٪ 0.0٪ / 0.0٪ 0.03٪ / 0.0٪
خطای غیر انگلیسی 0.15٪ / 0.0٪ 0.15٪ / 0.0٪ 0.03٪ / 0.0٪ 0.06٪ / 0.0٪
هایپرلینک ها 0.0٪ / 0.0٪ 0.0٪ / 0.0٪ 0.0٪ / 0.0٪ 0.0٪ / 0.0٪
ارزیابی خودکار در بین 1091 نمونه ورودی چت.

پس از تنظیم دقیق Gemini Nano، شاهد کاهش قابل توجهی در میزان خطای قالب در انواع مختلف خلاصه، هم برای مقالات و هم برای گزارش‌های چت بودیم.

ارزیابی خودکار

ما از Gemini 1.5 Pro برای ارزیابی autorater استفاده کردیم تا کیفیت خروجی Gemini Nano را قضاوت کنیم. از آنجایی که هر خلاصه هدف متفاوتی دارد، معیارها و ارزش معیارها برای انواع خلاصه متفاوت متفاوت است. همه انواع خلاصه برای:

  • پوشش : آیا خلاصه به طور دقیق هدف اصلی ورودی را نشان می دهد؟
  • واقعیت: آیا خلاصه حقیقت دارد؟ آیا خلاصه اطلاعات جدیدی را معرفی می کند که به صراحت در متن ذکر نشده یا ضمنی در متن ذکر نشده است؟
  • قالب : آیا خلاصه با نحو Markdown معتبر فرمت شده است؟ آیا خلاصه به حداکثر طول جملات، همانطور که درخواست می شود، حفظ می شود؟
  • وضوح : آیا خلاصه تکراری است؟ آیا خلاصه پیام اصلی را با کمترین کلمات ممکن به درستی منتقل می کند؟

از آنجایی که این انواع خلاصه اهداف متفاوتی دارند، معیارهای اضافی برای انواع خلاصه خاص اعمال می شود:

  • نامزدی: ( headline ): آیا خلاصه فوراً برای مخاطب عام قابل درک است؟ آیا در خلاصه از لحنی استفاده شده است که برای مخاطب عام جذاب و جذاب باشد؟
  • موجز بودن ( tldr ): آیا خلاصه، واضح، مختصر، و فوراً برای کسی با دامنه توجه بسیار کوتاه قابل درک است؟ آیا به طور موثر پیام اصلی را به شکلی قابل هضم برای خواندن سریع تقطیر می کند؟
  • اغوا کننده ( teaser ): آیا خلاصه به طور موثر فتنه ایجاد می کند و خواننده را تشویق می کند که با خواندن متن کامل بیشتر بیاموزد؟ آیا از زبانی استفاده می‌کند که جذاب باشد و محتوای جالب را مطرح کند؟

ما خروجی مدل پایه و مدل را با LoRA، کنار هم، با استفاده از autorater مقایسه کردیم. میانگین امتیازات نویسنده بین 0 تا 1 بود که سپس با مقدار آستانه ارزیابی شد.

برای اطمینان از یک نتیجه خوب، ما واریانس داده ها را کاهش دادیم و سوگیری موقعیتی را کاهش دادیم.

  • کاهش واریانس داده‌ها : ما میانگین نمرات سه خروجی مستقل را در هر ورودی محاسبه کردیم، زیرا اجرای مستقل ممکن است نتایج کمی متفاوت داشته باشد. میانگین خروجی‌ها را هم برای مدل پایه و هم برای Gemini Nano به‌خوبی تنظیم کردیم. در حالی که تفاوت در امتیازات بین خروجی ها فقط اندکی متفاوت بود، میانگین ها به ما کمک می کنند تا مجموعه های بزرگی از داده ها را با اطمینان بیشتری درک کنیم.
  • کاهش تعصب موقعیتی : برای اجتناب از اولویت دادن به ارزش خلاصه ای که ابتدا با رتبه دهنده به اشتراک گذاشته شده است، نتایج را دو بار ارزیابی کردیم، سپس امتیازات نهایی را میانگین گرفتیم.

    1. ما مدل را با LoRA و سپس مدل پایه را ارزیابی کردیم.
    2. سپس، ترتیب را برعکس کردیم. ما مدل پایه و به دنبال آن مدل با LoRA را ارزیابی کردیم.
    3. میانگین نمرات نهایی را گرفتیم.
    کوتاه متوسط طولانی
    پایه / با LoRA پایه / با LoRA پایه / با LoRA
    ابتدا LoRA 74.29٪ / 86.64٪ 76.11٪ / 81.38٪ 68.62٪ / 78.95٪
    ابتدا مدل پایه 68.02٪ / 88.60٪ 64.97٪ / 87.58٪ 58.25٪ / 86.35٪
    نسخه C (متوسط) 71.02٪ / 89.18٪ 69.59٪ / 84.08٪ 63.47٪ / 82.65٪
    Winrates برای نوع خلاصه key-points . مقادیر بالاتر نتایج بهتری دارند.

در حالی که تفاوت در امتیازدهی برای خروجی های یک مدل فقط کمی متفاوت بود، میانگین ها به ما کمک می کنند تا مجموعه های بزرگی از داده ها را با اطمینان بیشتری درک کنیم.

در بین 500 مقاله، Gemini Nano با تنظیم دقیق عملکرد قابل توجهی بهتر از مدل پایه داشت.

تیتر TLDR نکات کلیدی تیزر
پایه / با LoRA پایه / با LoRA پایه / با LoRA پایه / با LoRA
کوتاه 74.74٪ / 89.12٪ 55.76٪ / 89.50٪ 71.02٪ / 89.18٪ 53.47٪ / 87.14٪
متوسط 73.10٪ / 87.89٪ 41.82٪ / 81.21٪ 69.59٪ / 84.08٪ 48.98٪ / 86.74٪
طولانی 60.99٪ / 89.32٪ 50.51٪ / 84.85٪ 63.47٪ / 82.65٪ 62.65٪ / 87.55٪
Autorarer بر روی 500 مقاله در انواع مختلف خلاصه و طولانی امتیاز می دهد. اعداد بالاتر نشان دهنده نتایج بهتر است.

در ارزیابی ما از 500 گزارش چت نیز همین امر صادق بود، Gemini Nano به‌خوبی تنظیم شده از مدل پایه بهتر عمل کرد.

تیتر TLDR نکات کلیدی تیزر
پایه / با LoRA پایه / با LoRA پایه / با LoRA پایه / با LoRA
کوتاه 70.59٪ / 96.15٪ 66.27٪ / 97.79٪ 81.60٪ / 97.40٪ 67.48٪ / 96.14٪
متوسط 76.67٪ / 95.13٪ 56.02٪ / 94.98٪ 82.60٪ / 97.20٪ 50.41٪ / 96.95٪
طولانی 59.03٪ / 94.32٪ 65.86٪ / 95.58٪ 75.00٪ / 97.60٪ 70.94٪ / 97.16٪
ارزیابی کننده خودکار در بین 500 چت لاگ در انواع مختلف خلاصه و طول بررسی می کند. اعداد بالاتر نشان دهنده نتایج بهتر است.

این نتایج نشان می‌دهد که تنظیم دقیق ما کیفیت خلاصه کلی را بهبود بخشیده است.

خلاصه های بهتر با LoRA

به طور سنتی، تنظیم دقیق با تنظیم پارامترهای مدل انجام می شود. مدل‌های مدرن هوش مصنوعی بسیار بزرگ هستند ، بنابراین این عملیات آهسته، گران است و نیاز به ذخیره یک نسخه کاملاً جدید از مدل دارد.

به جای تغییر همه پارامترها، اگر قطعات کوچک اضافی را اضافه کنیم که مدل را به سمتی که می‌خواهیم هدایت کند، چه؟ اندازه کوچکتر آنها امکان آموزش بسیار سریعتر را فراهم می کند. این اصل اصلی انطباق با رتبه پایین (LoRA) است. با LoRA، قطعات خاصی از مدل بدون تغییر باقی می‌مانند، که اغلب به عنوان انجماد پارامترها از آن یاد می‌شود. سپس مجموعه کوچک‌تری از داده‌ها با اصلاحات کوچک معرفی می‌شوند و تلاش‌های آموزشی روی این قطعات اضافه شده متمرکز می‌شوند.

در واقع، معمولاً می‌توانید 2 درصد از پارامترهای اصلی را با LoRA آموزش دهید و همچنان تغییرات قابل توجهی در خروجی‌های خود مشاهده کنید.

چرا این کار می کند؟ بسیاری از رفتارها (مانند سبک‌ها، وظایف یا دانش جدید) را می‌توان بدون تغییر هر پارامتر مدل گنجاند. این تغییرات را می توان به صورت الگوها یا جهت های کوچک در دانش موجود مدل بیان کرد. LoRA به طور موثر این الگوها را بدون دست زدن به مدل اصلی ثبت می کند.

به چند نمونه نگاه کنید که مدل پایه Gemini Nano را با نتایج پس از اضافه کردن LoRA مقایسه می کند.

ما از Gemini Nano خواستیم که در مقاله ویکی‌پدیا پارک ملی Joshua Tree عنوان کوتاهی ایجاد کند که «توجه را جلب کند و ماهیت محتوا را منتقل کند».

جمینی نانو Gemini Nano با LoRA
چشم انداز و تاریخ منحصر به فرد پارک ملی درخت جاشوا درخت جاشوا: پارک ملی در کالیفرنیا، بیابان‌های سرگردان و خانه درختان نمادین

در مرحله بعد، Gemini Nano را برای یک تیزر کوتاه برای مقاله Ratatouille تشویق کردیم. "یک جمله فریبنده بنویسید که کاربران را تشویق به خواندن متن کامل کند."

جمینی نانو Gemini Nano با LoRA
راتاتوی یک غذای محبوب پرووانسالی فرانسوی است که حاوی سبزیجات خورشتی، اغلب شامل گوجه فرنگی و سیر است. منشا آن را می توان در قرن هجدهم دنبال کرد، و آماده سازی آن در طول زمان تکامل یافته است، برخی از سرآشپزها بر طعم های گیاهی فردی تأکید می کنند در حالی که برخی دیگر بافت نرم تر و یکپارچه تر را ترجیح می دهند. فراتر از ریشه فرانسوی، راتاتوئی الهام گرفته از غذاهای مشابه در غذاهای مختلف در سراسر جهان، از جمله پیپراد از اسپانیا و تیان از دریای مدیترانه. فیلم «راتاتوی» (2007) این غذا را بیشتر محبوب کرد و تطبیق پذیری آشپزی و طنین احساسی آن را به نمایش گذاشت. راتاتوی، یک غذای پرووانسالی فرانسوی از سبزیجات خورشتی، دارای تاریخچه آشپزی غنی است که از یک خورش ساده به یک شاهکار آشپزی مدرن تبدیل شده است که مخاطبان را در سراسر جهان مجذوب خود کرده است.

نسخه ی نمایشی استنتاج بلادرنگ

ما رابطی ساختیم که مقایسه خروجی‌ها بین Gemini Nano و Gemini Nano با LoRA را نشان می‌دهد.

ما از Gemini Nano خواستیم که یک خلاصه tldr با طول short برای مقاله Ocean Sunfish ایجاد کند. به یاد داشته باشید که tldr و short نیاز به پاسخی در 1 جمله دارد که "خواندن سریع" است.

زمان واقعی ایجاد نتایج و خواندن خروجی را تماشا کنید.

با اجرای تنظیم دقیق، Gemini Nano بهتر می تواند خلاصه ای را تولید کند که از دستورالعمل های خاص پیروی می کند.

مشارکت کنید و بازخورد را به اشتراک بگذارید

ما مشتاق شنیدن بازخورد شما در مورد اینکه چگونه خلاصه‌های شما تحت تأثیر دقیق Gemini Nano هستند، هستیم.

همه APIهای داخلی هوش مصنوعی را که از مدل‌ها، از جمله مدل‌های زبان بزرگ، در مرورگر استفاده می‌کنند، کشف کنید.


  1. چین-یو لین. 2004. ROUGE: بسته ای برای ارزیابی خودکار خلاصه ها . در شاخه های خلاصه سازی متن، صفحات 74-81، بارسلون، اسپانیا. انجمن زبانشناسی محاسباتی.

  2. کیشور پاپیننی، سلیم روکوس، تاد وارد، و وی جینگ ژو. 2002. BLEU: روشی برای ارزیابی خودکار ترجمه ماشینی. در مجموعه مقالات چهلمین نشست سالانه انجمن زبانشناسی محاسباتی (ACL '02).

  3. موسومی آکتر، نامن بانسال و شبهرا کانتی کارماکر. 2022. بررسی مجدد ارزیابی خودکار وظیفه خلاصه سازی استخراجی: آیا می توانیم بهتر از ROUGE انجام دهیم؟ در یافته‌های انجمن زبان‌شناسی محاسباتی: ACL 2022، صفحات 1547-1560، دوبلین، ایرلند. انجمن زبانشناسی محاسباتی.

  4. دانیل دویچ و دن راث. 2021. درک میزانی که معیارهای کیفیت محتوا کیفیت اطلاعات خلاصه‌ها را اندازه‌گیری می‌کنند. در مجموعه مقالات بیست و پنجمین کنفرانس یادگیری زبان طبیعی محاسباتی، صفحات 300-309، آنلاین. انجمن زبانشناسی محاسباتی.