تاریخ انتشار: 21 می 2025
خلاصه سازی به عنوان یکی از رایج ترین و حیاتی ترین وظایف هوش مصنوعی با استفاده از مدل های زبان بزرگ (LLM) است. خلاصهها ابزاری حیاتی برای درک سریع محتوای گسترده ارائه میدهند - از مقالات طولانی و گزارشهای چت فشرده گرفته تا بررسیهای متعدد - باعث صرفهجویی در زمان، افزایش بهرهوری و امکان تصمیمگیری سریعتر و آگاهانهتر میشود.
انواع مختلفی از خلاصه ها، با سطوح متنوعی از جزئیات و انتظارات قالب بندی وجود دارد. برای برآورده کردن انتظارات انواع خلاصه، کروم با Google Cloud برای بهبود خروجی Gemini Nano همکاری کرد.
ما Gemini Nano را با سازگاری با رتبه پایین (LoRA) تنظیم کردیم تا تجربه و کیفیت خروجی را برای همه سبکها و طولها افزایش دهیم. علاوه بر این، ارزیابیهای خودکار و خودکار را در جنبههای مختلف کیفیت خلاصه، از جمله واقعیت، پوشش، قالب، و خوانایی اجرا کردیم.
ما تجسم کرده ایم که این تفاوت در عمل چگونه به نظر می رسد. میتوانید با این پیادهسازی آزمایش کنید و به یک نسخه نمایشی بیدرنگ نگاه کنید که خروجیهای Gemini Nano و Gemini Nano را با LoRA مقایسه میکند.
Summarizer API چیست؟
توضیح دهنده | وب | برنامه های افزودنی | وضعیت کروم | قصد |
---|---|---|---|---|
MDN | مشاهده کنید | قصد حمل |
Summarizer API محتوای متنی طولانی را به خلاصه های کوتاه و آسان برای هضم فشرده می کند. API در Chrome تعبیه شده است و از Gemini Nano برای انجام استنتاج استفاده می کند.
سایت های مختلف ممکن است به خلاصه هایی با طیف وسیعی از سبک ها و طول ها نیاز داشته باشند. به عنوان مثال، اگر یک سایت خبری هستید، ممکن است بخواهید فهرستی از نکات کلیدی را در مقالات خود ارائه دهید. از طرف دیگر، کاربرانی که مرور محصولات را مرور میکنند، میتوانند از خلاصهای کوتاه و سریع از احساسات نقد بهره ببرند. برای نشان دادن، صفحه ویکیپدیا در ولز کورگی را با طول short
خلاصه کردهایم.
نوع خلاصه | خروجی |
headline | ## ولز کورگی: تاریخچه سلطنتی و سگ گله |
key-points | * ولز کورگی یک سگ گله کوچک است که منشا آن ولز است. * دو نژاد اصلی وجود دارد: Pembroke و Cardigan Welsh Corgi. * پمبروک محبوبیت بیشتری دارد و با خانواده سلطنتی بریتانیا مرتبط بوده است. |
tldr | ولز کورگی، یک سگ گله کوچک با سابقه طولانی در ولز و خانواده سلطنتی بریتانیا، در دو گونه وجود دارد: پمبروک و کاردیگان، که هر دو به خاطر چهرههای روباه مانند، پاهای کوتاه و غرایز گلهداری معروف هستند. |
teaser | تاریخچه ولز کورگی را کشف کنید، از منشا فروتنانه آن به عنوان سگ گله برای کشاورزان ولزی تا ظهور آن به عنوان نماد خانواده سلطنتی بریتانیا. |
میتوانید با استفاده از Summarizer API Playground، صفحات دیگر را آزمایش کنید.
با تنظیم دقیق آزمایش کنید
تنظیم دقیق فقط به عنوان یک پرچم در Chrome Canary از نسخه 138.0.7180.0
در دسترس است. برای استفاده از این مدل:
- Chrome Canary را باز کنید.
- به
chrome://flags/#summarization-api-for-gemini-nano
بروید - Enabled with Adaptation را انتخاب کنید.
- مرورگر را مجددا راه اندازی کنید.
- DevTools Console را باز کنید و
Summarizer.availability()
وارد کنید. با این کار دانلود LoRA تکمیلی شروع می شود.
پس از اتمام دانلود، می توانید شروع به آزمایش کنید.
ارزیابی عملکرد خلاصه کننده
ما بهبود عملکرد Gemini Nano را با استفاده از دو روش ارزیابی خودکار و autorater اندازهگیری کردیم. تنظیم دقیق به مدل کمک می کند تا وظایف خاص را بهتر انجام دهد، مانند:
- متن پزشکی را بهتر ترجمه کنید.
- ایجاد تصاویر در یک سبک هنری خاص.
- یک زبان عامیانه جدید را درک کنید.
در این مورد، ما می خواستیم انتظارات هر نوع خلاصه را بهتر برآورده کنیم.
ارزیابی خودکار
ارزیابی خودکار از نرم افزار برای قضاوت در مورد کیفیت خروجی مدل استفاده می کند. ما از این تکنیک برای جستجوی خطاهای قالببندی، تکرار جملات و وجود کاراکترهای غیرانگلیسی در خلاصههای ورودی انگلیسی استفاده کردیم.
خطاهای قالب بندی : بررسی می کنیم که آیا پاسخ های خلاصه از دستورالعمل های قالب بندی فرمان پیروی می کنند یا خیر. به عنوان مثال، برای سبک نقاط کلیدی کوتاه، بررسی می کنیم که آیا هر نقطه با یک ستاره (
*
) شروع می شود و تعداد نقاط گلوله از 3 نقطه تجاوز نمی کند.تکرار جمله : بررسی میکنیم که آیا همان جمله در یک پاسخ خلاصه تکرار میشود، زیرا این نشاندهنده کیفیت پایین پاسخ است.
نویسههای غیرانگلیسی : بررسی میکنیم که آیا پاسخ شامل نویسههای غیرانگلیسی است یا نه، وقتی ورودی به انگلیسی باشد.
هایپرپیوند در خروجی : بررسی میکنیم که آیا پاسخ دارای پیوندهایی با فرمت Markdown یا متن ساده است که در ورودی وجود نداشته باشد.
ما دو سبک ورودی را ارزیابی کردیم: مقالات خراشیده شده و گزارشهای چت.
تیتر | TLDR | نکات کلیدی | تیزر | |
پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | |
خطاهای قالب بندی | 13.54٪ / 7.05٪ | 41.07٪ / 4.61٪ | 12.58٪ / 6.36٪ | 51.17٪ / 6.74٪ |
تکرار جمله | 0.07٪ / 0.07٪ | 0.21٪ / 0.0٪ | 0.10٪ / 0.10٪ | 0.10٪ / 0.03٪ |
خطاهای غیر انگلیسی | 3.95٪ / 0.03٪ | 1.38٪ / 0.0٪ | 2.41٪ / 0.03٪ | 1.44٪ / 0.0٪ |
هایپرلینک ها | 0.07٪ / 0.0٪ | 0.14٪ / 0.0٪ | 0.14٪ / 0.0٪ | 0.34٪ / 0.0٪ |
تیتر | TLDR | نکات کلیدی | تیزر | |
پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | |
خطای فرمت | 13.17٪ / 0.24٪ | 22.92٪ / 0.18٪ | 4.43٪ / 0.09٪ | 29.64٪ / 3.51٪ |
تکرار جمله | 0.0٪ / 0.0٪ | 0.0٪ / 0.0٪ | 0.0٪ / 0.0٪ | 0.03٪ / 0.0٪ |
خطای غیر انگلیسی | 0.15٪ / 0.0٪ | 0.15٪ / 0.0٪ | 0.03٪ / 0.0٪ | 0.06٪ / 0.0٪ |
هایپرلینک ها | 0.0٪ / 0.0٪ | 0.0٪ / 0.0٪ | 0.0٪ / 0.0٪ | 0.0٪ / 0.0٪ |
پس از تنظیم دقیق Gemini Nano، شاهد کاهش قابل توجهی در میزان خطای قالب در انواع مختلف خلاصه، هم برای مقالات و هم برای گزارشهای چت بودیم.
ارزیابی خودکار
ما از Gemini 1.5 Pro برای ارزیابی autorater استفاده کردیم تا کیفیت خروجی Gemini Nano را قضاوت کنیم. از آنجایی که هر خلاصه هدف متفاوتی دارد، معیارها و ارزش معیارها برای انواع خلاصه متفاوت متفاوت است. همه انواع خلاصه برای:
- پوشش : آیا خلاصه به طور دقیق هدف اصلی ورودی را نشان می دهد؟
- واقعیت: آیا خلاصه حقیقت دارد؟ آیا خلاصه اطلاعات جدیدی را معرفی می کند که به صراحت در متن ذکر نشده یا ضمنی در متن ذکر نشده است؟
- قالب : آیا خلاصه با نحو Markdown معتبر فرمت شده است؟ آیا خلاصه به حداکثر طول جملات، همانطور که درخواست می شود، حفظ می شود؟
- وضوح : آیا خلاصه تکراری است؟ آیا خلاصه پیام اصلی را با کمترین کلمات ممکن به درستی منتقل می کند؟
از آنجایی که این انواع خلاصه اهداف متفاوتی دارند، معیارهای اضافی برای انواع خلاصه خاص اعمال می شود:
- نامزدی: (
headline
): آیا خلاصه فوراً برای مخاطب عام قابل درک است؟ آیا در خلاصه از لحنی استفاده شده است که برای مخاطب عام جذاب و جذاب باشد؟ - موجز بودن (
tldr
): آیا خلاصه، واضح، مختصر، و فوراً برای کسی با دامنه توجه بسیار کوتاه قابل درک است؟ آیا به طور موثر پیام اصلی را به شکلی قابل هضم برای خواندن سریع تقطیر می کند؟ - اغوا کننده (
teaser
): آیا خلاصه به طور موثر فتنه ایجاد می کند و خواننده را تشویق می کند که با خواندن متن کامل بیشتر بیاموزد؟ آیا از زبانی استفاده میکند که جذاب باشد و محتوای جالب را مطرح کند؟
ما خروجی مدل پایه و مدل را با LoRA، کنار هم، با استفاده از autorater مقایسه کردیم. میانگین امتیازات نویسنده بین 0 تا 1 بود که سپس با مقدار آستانه ارزیابی شد.
برای اطمینان از یک نتیجه خوب، ما واریانس داده ها را کاهش دادیم و سوگیری موقعیتی را کاهش دادیم.
- کاهش واریانس دادهها : ما میانگین نمرات سه خروجی مستقل را در هر ورودی محاسبه کردیم، زیرا اجرای مستقل ممکن است نتایج کمی متفاوت داشته باشد. میانگین خروجیها را هم برای مدل پایه و هم برای Gemini Nano بهخوبی تنظیم کردیم. در حالی که تفاوت در امتیازات بین خروجی ها فقط اندکی متفاوت بود، میانگین ها به ما کمک می کنند تا مجموعه های بزرگی از داده ها را با اطمینان بیشتری درک کنیم.
کاهش تعصب موقعیتی : برای اجتناب از اولویت دادن به ارزش خلاصه ای که ابتدا با رتبه دهنده به اشتراک گذاشته شده است، نتایج را دو بار ارزیابی کردیم، سپس امتیازات نهایی را میانگین گرفتیم.
- ما مدل را با LoRA و سپس مدل پایه را ارزیابی کردیم.
- سپس، ترتیب را برعکس کردیم. ما مدل پایه و به دنبال آن مدل با LoRA را ارزیابی کردیم.
- میانگین نمرات نهایی را گرفتیم.
کوتاه متوسط طولانی پایه / با LoRA پایه / با LoRA پایه / با LoRA ابتدا LoRA 74.29٪ / 86.64٪ 76.11٪ / 81.38٪ 68.62٪ / 78.95٪ ابتدا مدل پایه 68.02٪ / 88.60٪ 64.97٪ / 87.58٪ 58.25٪ / 86.35٪ نسخه C (متوسط) 71.02٪ / 89.18٪ 69.59٪ / 84.08٪ 63.47٪ / 82.65٪ Winrates برای نوع خلاصه key-points
. مقادیر بالاتر نتایج بهتری دارند.
در حالی که تفاوت در امتیازدهی برای خروجی های یک مدل فقط کمی متفاوت بود، میانگین ها به ما کمک می کنند تا مجموعه های بزرگی از داده ها را با اطمینان بیشتری درک کنیم.
در بین 500 مقاله، Gemini Nano با تنظیم دقیق عملکرد قابل توجهی بهتر از مدل پایه داشت.
تیتر | TLDR | نکات کلیدی | تیزر | |
پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | |
کوتاه | 74.74٪ / 89.12٪ | 55.76٪ / 89.50٪ | 71.02٪ / 89.18٪ | 53.47٪ / 87.14٪ |
متوسط | 73.10٪ / 87.89٪ | 41.82٪ / 81.21٪ | 69.59٪ / 84.08٪ | 48.98٪ / 86.74٪ |
طولانی | 60.99٪ / 89.32٪ | 50.51٪ / 84.85٪ | 63.47٪ / 82.65٪ | 62.65٪ / 87.55٪ |
در ارزیابی ما از 500 گزارش چت نیز همین امر صادق بود، Gemini Nano بهخوبی تنظیم شده از مدل پایه بهتر عمل کرد.
تیتر | TLDR | نکات کلیدی | تیزر | |
پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | پایه / با LoRA | |
کوتاه | 70.59٪ / 96.15٪ | 66.27٪ / 97.79٪ | 81.60٪ / 97.40٪ | 67.48٪ / 96.14٪ |
متوسط | 76.67٪ / 95.13٪ | 56.02٪ / 94.98٪ | 82.60٪ / 97.20٪ | 50.41٪ / 96.95٪ |
طولانی | 59.03٪ / 94.32٪ | 65.86٪ / 95.58٪ | 75.00٪ / 97.60٪ | 70.94٪ / 97.16٪ |
این نتایج نشان میدهد که تنظیم دقیق ما کیفیت خلاصه کلی را بهبود بخشیده است.
خلاصه های بهتر با LoRA
به طور سنتی، تنظیم دقیق با تنظیم پارامترهای مدل انجام می شود. مدلهای مدرن هوش مصنوعی بسیار بزرگ هستند ، بنابراین این عملیات آهسته، گران است و نیاز به ذخیره یک نسخه کاملاً جدید از مدل دارد.
به جای تغییر همه پارامترها، اگر قطعات کوچک اضافی را اضافه کنیم که مدل را به سمتی که میخواهیم هدایت کند، چه؟ اندازه کوچکتر آنها امکان آموزش بسیار سریعتر را فراهم می کند. این اصل اصلی انطباق با رتبه پایین (LoRA) است. با LoRA، قطعات خاصی از مدل بدون تغییر باقی میمانند، که اغلب به عنوان انجماد پارامترها از آن یاد میشود. سپس مجموعه کوچکتری از دادهها با اصلاحات کوچک معرفی میشوند و تلاشهای آموزشی روی این قطعات اضافه شده متمرکز میشوند.
در واقع، معمولاً میتوانید 2 درصد از پارامترهای اصلی را با LoRA آموزش دهید و همچنان تغییرات قابل توجهی در خروجیهای خود مشاهده کنید.
چرا این کار می کند؟ بسیاری از رفتارها (مانند سبکها، وظایف یا دانش جدید) را میتوان بدون تغییر هر پارامتر مدل گنجاند. این تغییرات را می توان به صورت الگوها یا جهت های کوچک در دانش موجود مدل بیان کرد. LoRA به طور موثر این الگوها را بدون دست زدن به مدل اصلی ثبت می کند.
به چند نمونه نگاه کنید که مدل پایه Gemini Nano را با نتایج پس از اضافه کردن LoRA مقایسه می کند.
ما از Gemini Nano خواستیم که در مقاله ویکیپدیا پارک ملی Joshua Tree عنوان کوتاهی ایجاد کند که «توجه را جلب کند و ماهیت محتوا را منتقل کند».
جمینی نانو | Gemini Nano با LoRA |
چشم انداز و تاریخ منحصر به فرد پارک ملی درخت جاشوا | درخت جاشوا: پارک ملی در کالیفرنیا، بیابانهای سرگردان و خانه درختان نمادین |
در مرحله بعد، Gemini Nano را برای یک تیزر کوتاه برای مقاله Ratatouille تشویق کردیم. "یک جمله فریبنده بنویسید که کاربران را تشویق به خواندن متن کامل کند."
جمینی نانو | Gemini Nano با LoRA |
راتاتوی یک غذای محبوب پرووانسالی فرانسوی است که حاوی سبزیجات خورشتی، اغلب شامل گوجه فرنگی و سیر است. منشا آن را می توان در قرن هجدهم دنبال کرد، و آماده سازی آن در طول زمان تکامل یافته است، برخی از سرآشپزها بر طعم های گیاهی فردی تأکید می کنند در حالی که برخی دیگر بافت نرم تر و یکپارچه تر را ترجیح می دهند. فراتر از ریشه فرانسوی، راتاتوئی الهام گرفته از غذاهای مشابه در غذاهای مختلف در سراسر جهان، از جمله پیپراد از اسپانیا و تیان از دریای مدیترانه. فیلم «راتاتوی» (2007) این غذا را بیشتر محبوب کرد و تطبیق پذیری آشپزی و طنین احساسی آن را به نمایش گذاشت. | راتاتوی، یک غذای پرووانسالی فرانسوی از سبزیجات خورشتی، دارای تاریخچه آشپزی غنی است که از یک خورش ساده به یک شاهکار آشپزی مدرن تبدیل شده است که مخاطبان را در سراسر جهان مجذوب خود کرده است. |
نسخه ی نمایشی استنتاج بلادرنگ
ما رابطی ساختیم که مقایسه خروجیها بین Gemini Nano و Gemini Nano با LoRA را نشان میدهد.
ما از Gemini Nano خواستیم که یک خلاصه tldr
با طول short
برای مقاله Ocean Sunfish ایجاد کند. به یاد داشته باشید که tldr
و short
نیاز به پاسخی در 1 جمله دارد که "خواندن سریع" است.
با اجرای تنظیم دقیق، Gemini Nano بهتر می تواند خلاصه ای را تولید کند که از دستورالعمل های خاص پیروی می کند.
مشارکت کنید و بازخورد را به اشتراک بگذارید
ما مشتاق شنیدن بازخورد شما در مورد اینکه چگونه خلاصههای شما تحت تأثیر دقیق Gemini Nano هستند، هستیم.
- مدل به روز شده را در Chrome Canary آزمایش کنید.
- درباره Summarizer API بیشتر بیاموزید.
- اگر بازخوردی در مورد اجرای Chrome دارید، یک گزارش اشکال یا درخواست ویژگی ارسال کنید.
همه APIهای داخلی هوش مصنوعی را که از مدلها، از جمله مدلهای زبان بزرگ، در مرورگر استفاده میکنند، کشف کنید.
چین-یو لین. 2004. ROUGE: بسته ای برای ارزیابی خودکار خلاصه ها . در شاخه های خلاصه سازی متن، صفحات 74-81، بارسلون، اسپانیا. انجمن زبانشناسی محاسباتی. ↩
کیشور پاپیننی، سلیم روکوس، تاد وارد، و وی جینگ ژو. 2002. BLEU: روشی برای ارزیابی خودکار ترجمه ماشینی. در مجموعه مقالات چهلمین نشست سالانه انجمن زبانشناسی محاسباتی (ACL '02). ↩
موسومی آکتر، نامن بانسال و شبهرا کانتی کارماکر. 2022. بررسی مجدد ارزیابی خودکار وظیفه خلاصه سازی استخراجی: آیا می توانیم بهتر از ROUGE انجام دهیم؟ در یافتههای انجمن زبانشناسی محاسباتی: ACL 2022، صفحات 1547-1560، دوبلین، ایرلند. انجمن زبانشناسی محاسباتی. ↩
دانیل دویچ و دن راث. 2021. درک میزانی که معیارهای کیفیت محتوا کیفیت اطلاعات خلاصهها را اندازهگیری میکنند. در مجموعه مقالات بیست و پنجمین کنفرانس یادگیری زبان طبیعی محاسباتی، صفحات 300-309، آنلاین. انجمن زبانشناسی محاسباتی. ↩