Fecha de publicación: 21 de mayo de 2025
El resumen se destaca como una de las tareas de IA más comunes y vitales que usan modelos de lenguaje grandes (LLM). Los resúmenes ofrecen un medio fundamental para comprender rápidamente el contenido extenso, desde artículos extensos y registros de chat densos hasta numerosas opiniones, lo que ahorra tiempo, mejora la productividad y permite tomar decisiones más rápidas y mejor fundamentadas.
Existen muchos tipos diferentes de resúmenes, con diferentes niveles de detalle y expectativas de formato. Para cumplir con las expectativas de los diversos tipos de resúmenes, Chrome colaboró con Google Cloud para mejorar el resultado de Gemini Nano.
Ajustamos Gemini Nano con la adaptación de bajo rango (LoRA) para mejorar la experiencia y la calidad de los resultados para todos los estilos y longitudes de resumen. Además, implementamos evaluaciones automáticas y con autocalificación en diferentes aspectos de la calidad de los resúmenes, como la exactitud, la cobertura, el formato y la legibilidad.
Visualizamos cómo se ve esta diferencia en la práctica. Puedes experimentar con esta implementación y mirar una demostración en tiempo real que compara los resultados de Gemini Nano y Gemini Nano con LoRA.
¿Qué es la API de Summarizer?
Explicación | Web | Extensiones | Estado de Chrome | Intent |
---|---|---|---|---|
MDN | Ver | Intención de envío |
La API de Summarizer condensa el contenido de texto extenso en resúmenes breves y fáciles de entender. La API está integrada en Chrome y usa Gemini Nano para realizar inferencias.
Es posible que diferentes sitios requieran resúmenes con un rango de estilos y longitudes. Por ejemplo, si tienes un sitio de noticias, te recomendamos que ofrezcas una lista con viñetas de los puntos clave de tus artículos. Como alternativa, los usuarios que navegan por las opiniones de productos podrían beneficiarse de un resumen rápido y breve de la opinión. A modo de demostración, resumimos la página de Wikipedia sobre los Welsh Corgis con la longitud establecida en short
.
Tipo de resumen | Resultado |
headline |
## Corgi galés: una historia de realeza y perros pastores |
key-points |
* El Welsh Corgi es un perro pastor pequeño que se originó en Gales. * Hay dos razas principales: Pembroke y Cardigan Welsh Corgi. * El Pembroke es más popular y se ha asociado con la familia real británica. |
tldr |
El Welsh Corgi, un pequeño perro pastor con una larga historia en Gales y la familia real británica, se presenta en dos variedades: Pembroke y Cardigan, ambos conocidos por sus caras de zorro, patas cortas y instintos de pastoreo. |
teaser |
Descubre la historia del Corgi galés, desde sus humildes orígenes como perro de pastoreo para los agricultores galeses hasta su ascenso como símbolo de la familia real británica. |
Puedes experimentar con otras páginas con el Summarizer API Playground.
Experimenta con el ajuste fino
El ajuste fino solo está disponible como una marca en Chrome Canary a partir de la versión 138.0.7180.0
. Para usar este modelo, haz lo siguiente:
- Abre Chrome Canary.
- Ir a
chrome://flags/#summarization-api-for-gemini-nano
- Selecciona Habilitado con adaptación.
- Reinicia el navegador.
- Abre la consola de Herramientas para desarrolladores y escribe
Summarizer.availability()
. Esto inicia la descarga de LoRA complementaria.
Una vez que se complete la descarga, podrás comenzar a experimentar.
Cómo evaluar el rendimiento del sintetizador
Midimos la mejora del rendimiento del Gemini Nano ajustado principalmente con dos métodos de evaluación: automático y autocalificador. El ajuste fino ayuda a que un modelo realice mejor tareas específicas, como las siguientes:
- Traduce mejor el texto médico.
- Genera imágenes con un estilo artístico específico.
- Comprender un nuevo argot
En este caso, queríamos cumplir mejor con las expectativas de cada tipo de resumen.
Evaluación automática
La evaluación automática usa software para juzgar la calidad de los resultados de un modelo. Usamos esta técnica para buscar errores de formato, repetición de oraciones y la presencia de caracteres que no son en inglés en los resúmenes de entradas en inglés.
Errores de formato: Verificamos si las respuestas de resumen siguen las instrucciones de formato de la instrucción. Por ejemplo, en el caso del estilo de puntos clave cortos, verificamos si cada punto comienza con un asterisco (
*
) y que la cantidad de puntos no exceda los 3.Repetición de oraciones: Verificamos si se repite la misma oración en una sola respuesta de resumen, ya que esto indica una respuesta de baja calidad.
Caracteres que no son del inglés: Verificamos si la respuesta incluye caracteres que no son del inglés cuando la entrada debe estar en inglés.
Hipervínculo en la salida: Verificamos si la respuesta tiene hipervínculos, en formato Markdown o en texto sin formato, que no existen en la entrada.
Evaluamos dos tipos de entradas: artículos raspados y registros de chat.
Título | TLDR | Puntos clave | Avance | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Errores de formato | 13.54% / 7.05% | 41.07% / 4.61% | 12.58% / 6.36% | 51.17% / 6.74% |
Repetición de oraciones | 0.07% / 0.07% | 0.21% / 0.0% | 0.10% / 0.10% | 0.10% / 0.03% |
Errores que no son en inglés | 3.95% / 0.03% | 1.38% / 0.0% | 2.41% / 0.03% | 1.44% / 0.0% |
Hipervínculos | 0.07% / 0.0% | 0.14% / 0.0% | 0.14% / 0.0% | 0.34% / 0.0% |
Headline | TLDR | Puntos clave | Avance | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Error de formato | 13.17% / 0.24% | 22.92% / 0.18% | 4.43% / 0.09% | 29.64% / 3.51% |
Repetición de oraciones | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.03% / 0.0% |
Error que no está en inglés | 0.15% / 0.0% | 0.15% / 0.0% | 0.03% / 0.0% | 0.06% / 0.0% |
Hipervínculos | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% |
Después de ajustar Gemini Nano, observamos una reducción significativa en el porcentaje de errores de formato en diferentes tipos de resúmenes, tanto para los artículos como para los registros de chat.
Evaluación del evaluador automático
Usamos Gemini 1.5 Pro para la evaluación del autocalificador, con el objetivo de juzgar la calidad de los resultados de Gemini Nano. Como cada resumen tiene un propósito diferente, los criterios y el valor de los criterios difieren para los diferentes tipos de resumen. Se evaluaron todos los tipos de resúmenes en función de lo siguiente:
- Cobertura: ¿El resumen captura con precisión el propósito esencial de la entrada?
- Veracidad: ¿El resumen es veraz? ¿El resumen presenta información nueva que no se indicó ni se insinuó de forma explícita en el texto?
- Formato: ¿El resumen tiene un formato con sintaxis de Markdown válida? ¿El resumen cumple con la longitud máxima de las oraciones, como se solicita?
- Claridad: ¿El resumen es repetitivo? ¿El resumen transmite con precisión el mensaje principal en la menor cantidad de palabras posible?
Como estos tipos de resumen tienen diferentes propósitos, se aplican métricas adicionales a tipos de resumen específicos:
- Participación: (
headline
): ¿El resumen es comprensible de inmediato para un público general? ¿El resumen usa un tono atractivo y atractivo para un público general? - Concisión (
tldr
): ¿El resumen es claro, conciso y se puede entender de inmediato por alguien con una capacidad de atención muy corta? ¿Destila de manera eficaz el mensaje principal en un formato fácil de entender para una lectura rápida? - Atractivo (
teaser
): ¿El resumen genera intriga de manera eficaz y anima al lector a querer obtener más información leyendo el texto completo? ¿Usa un lenguaje atractivo que sugiera contenido interesante?
Comparamos el resultado del modelo base y el modelo con LoRA en paralelo con el evaluador automático. Las puntuaciones del autorratador se promediaron entre 0 y 1, que luego se evaluaron en función del valor del umbral.
Para garantizar un resultado bien fundamentado, reducimos la variación de los datos y atenuamos el sesgo posicional.
- Reducción de la varianza de los datos: Promediamos las puntuaciones de tres resultados independientes por entrada, ya que las ejecuciones independientes pueden tener resultados ligeramente diferentes. Promediamos los resultados del modelo base y del Gemini Nano ajustado. Si bien las diferencias en las puntuaciones entre los resultados solo fueron ligeramente diferentes, los promedios nos ayudan a comprender de forma más confiable grandes conjuntos de datos.
Aliviar el sesgo posicional: Para evitar dar preferencia al valor del resumen que se compartió primero con el evaluador, evaluamos los resultados dos veces y, luego, calculamos el promedio de las puntuaciones finales.
- Evaluamos el modelo con LoRA y, luego, el modelo base.
- Luego, invertimos el pedido. Evaluamos el modelo base, seguido del modelo con LoRA.
- Promediamos las puntuaciones finales.
Versión corta Versión intermedia Versión larga Base / con LoRA Base / con LoRA Base / con LoRA Prioridad para LoRA 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95% Primero, el modelo base 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35% Versión C (promedio) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65% Porcentajes de victorias para el tipo de resumen key-points
. Los valores más altos son mejores resultados.
Si bien la diferencia en la puntuación de los resultados del mismo modelo solo fue ligeramente diferente, los promedios nos ayudan a comprender de manera más confiable grandes conjuntos de datos.
En 500 artículos, el Gemini Nano ajustado tuvo un rendimiento significativamente mejor que el modelo base.
Headline | TLDR | Puntos clave | Avance | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Short | 74.74% / 89.12% | 55.76% / 89.50% | 71.02% / 89.18% | 53.47% / 87.14% |
Medio | 73.10% / 87.89% | 41.82% / 81.21% | 69.59% / 84.08% | 48.98% / 86.74% |
Largo | 60.99% / 89.32% | 50.51% / 84.85% | 63.47% / 82.65% | 62.65% / 87.55% |
Lo mismo sucedió en nuestra evaluación de 500 registros de chat, en la que Gemini Nano ajustado en detalle superó al modelo base.
Headline | TLDR | Puntos clave | Avance | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Versión corta | 70.59% / 96.15% | 66.27% / 97.79% | 81.60% / 97.40% | 67.48% / 96.14% |
Versión intermedia | 76.67% / 95.13% | 56.02% / 94.98% | 82.60% / 97.20% | 50.41% / 96.95% |
Versión larga | 59.03% / 94.32% | 65.86% / 95.58% | 75.00% / 97.60% | 70.94% / 97.16% |
Estos resultados demuestran que nuestro perfeccionamiento mejoró la calidad general del resumen.
Mejores resúmenes con LoRA
Tradicionalmente, el ajuste fino se realiza ajustando los parámetros del modelo. Los modelos de IA modernos son enormes, por lo que esta operación es lenta, costosa y requiere almacenar una copia nueva del modelo.
En lugar de cambiar todos los parámetros, ¿qué sucede si agregamos pequeños elementos adicionales que dirigen el modelo en la dirección que queremos? Su tamaño más pequeño permite un entrenamiento mucho más rápido. Este es el principio fundamental de la adaptación de bajo rango (LoRA). Con LoRA, ciertas partes del modelo no cambian, lo que a menudo se conoce como inmovilización de los parámetros. Luego, se introduce un conjunto de datos más pequeño con pequeñas correcciones, lo que enfoca los esfuerzos de entrenamiento en estas piezas agregadas.
De hecho, por lo general, puedes entrenar hasta el 2% de los parámetros originales con LoRA y, aun así, ver cambios significativos en tus resultados.
¿Por qué funciona? Se pueden incorporar muchos comportamientos (como estilos, tareas o conocimientos nuevos) sin alterar todos los parámetros del modelo. Estos cambios se pueden expresar como pequeños patrones o direcciones dentro del conocimiento existente del modelo. LoRA captura estos patrones de manera eficiente sin tocar el modelo original.
Consulta algunos ejemplos que comparan el modelo de base de Gemini Nano con los resultados después de agregar LoRA.
Le pedimos a Gemini Nano que creara un título breve que “capte la atención y transmita la esencia del contenido” en el artículo de Wikipedia sobre el Parque Nacional Joshua Tree.
Gemini Nano | Gemini Nano con LoRA |
Paisaje y historia únicos del Parque Nacional Joshua Tree | Joshua Tree: Parque nacional de California, a caballo entre desiertos y hogar de árboles icónicos |
A continuación, le pedimos a Gemini Nano un breve adelanto del artículo de Ratatouille. "Escribe una oración atractiva que motive a los usuarios a leer el texto completo".
Gemini Nano | Gemini Nano con LoRA |
El ratatouille es un plato francés provenzal muy querido que incluye verduras guisadas, a menudo tomates y ajo. Sus orígenes se remontan al siglo XVIII, y su preparación ha evolucionado con el tiempo. Algunos chefs enfatizan los sabores individuales de las verduras, mientras que otros prefieren una textura más suave y unificada. Más allá de sus orígenes franceses, la ratatouille inspiró platos similares en varias cocinas de todo el mundo, como la piperade de España y el tian del Mediterráneo. La película “Ratatouille” (2007) popularizó aún más el plato, mostrando su versatilidad culinaria y resonancia emocional. | La ratatouille, un plato francés provenzal de verduras estofadas, tiene una rica historia culinaria, que evolucionó de un estofado simple a una obra maestra culinaria moderna que cautivó a los públicos de todo el mundo. |
Demostración de inferencia en tiempo real
Creamos una interfaz que demuestra la comparación de los resultados entre Gemini Nano y Gemini Nano con LoRA.
Le pedimos a Gemini Nano que creara un resumen de tldr
con una longitud de short
para el artículo sobre el pez luna. Recuerda que tldr
y short
requieren una respuesta en 1 oración que sea "de lectura rápida".
Cuando se implementa el ajuste fino, Gemini Nano puede generar un resumen mejor que siga las instrucciones específicas.
Interactúa y comparte comentarios
Nos complacería recibir tus comentarios sobre cómo el Gemini Nano mejorado afecta a tus resúmenes.
- Experimenta con el modelo actualizado en Chrome Canary.
- Obtén más información sobre la API de Summarizer.
- Si tienes comentarios sobre la implementación de Chrome, envía un informe de errores o una solicitud de función.
Descubre todas las APIs de IA integradas que usan modelos, incluidos los modelos grandes de lenguaje, en el navegador.
-
Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. En Text Summarization Branches Out, páginas 74 a 81, Barcelona, España. Association for Computational Linguistics. ↩
-
Kishore Papineni, Salim Roukos, Todd Ward y Wei-Jing Zhu. 2002. BLEU: Es un método para la evaluación automática de la traducción automática. En Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter, Naman Bansal y Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? En Findings of the Association for Computational Linguistics: ACL 2022, páginas 1547–1560, Dublín, Irlanda. Association for Computational Linguistics. ↩
-
Daniel Deutsch y Dan Roth. 2021. Understanding the Extent to which Content Quality Metrics Measure the Information Quality of Summaries En Proceedings of the 25th Conference on Computational Natural Language Learning, páginas 300–309, en línea. Association for Computational Linguistics. ↩