Esta tecnología, que permite extraer resúmenes de textos en español, es adaptable a cualquier formato electrónico y tipo de texto (noticias de prensa, textos legislativos, documentos internos de empresas o instituciones, etc.).
El sistema se compone de seis módulos: segmentación del texto, análisis morfosintáctico de cada palabra, ponderación de frases, detección de anáforas, selección de frases y post-procesado del extracto.
Basándose en la presencia de ciertas características superficiales (como las presentadas en este demostrador), el módulo de ponderación asigna puntuaciones a cada frase del texto según su importancia. El módulo de selección de frases escoge las frases candidatas que han obtenido mayor puntuación, teniendo en cuenta la longitud deseada del resumen y la presencia de referencias anafóricas.