La primera fase para el tratamiento informático de un texto real, antes de proceder a su análisis, ha de consistir en un procesamiento del mismo a fin de detectar y marcar adecuadamente sus partes básicas. Estas tareas incluyen, entre otras: la descomposición del texto en párrafos y éstos en frases; la detección de abreviaturas, siglas y acrónimos; la detección de nombres propios, topónimos, extranjerismos, arcaísmos, etc.; la detección de citas textuales (comillas, paréntesis, guiones) y la detección e interpretación de cifras, numerales y ordinales.
A cada segmento que presenta el segmentador se le añade el análisis morfológico oportuno según el contexto lingüístico, la información sobre la tipografía (cursiva, negrita, subrayado, tipo título), sobre la posición absoluta dentro del fichero fuente, sobre si es una palabra de la lista de parada, etc.