Como parte de los pasos del NLP, es importante tener algunas medidas que nos pueden ayudar a identificar elementos sobresalientes de un texto. Por lo pronto usaremos medidas basadas en la estadística, que podrán ser aplicadas antes y después del Stemming & Lemmatization (ver “Que es el procesamiento de lenguaje natural” https://iniat.ibero.mx/blog/que-es-el-procesamiento-de-lenguaje-natural-conceptos-basicos/ ).
La primera métrica es el TF (Frecuencia del término). Con este valor sabremos la frecuencia con la que ocurre una palabra en un texto [1]. Con el diccionario que se construyó en el blog anterior (ver “PLN, primeros pasos” https://iniat.ibero.mx/blog/procesamiento-de-lenguaje-natural-primeros-pasos/ ) será fácil obtener este valor, ya que en el diccionario se identificó, para cada palabra, el número de veces que se encontró. También se puede considerar el cálculo antes o después de la eliminación de ciertas palabras cortas o insignificantes. A final de cuentas habremos obtenido la relevancia de una palabra en un texto. Cabe aclarar que la fórmula de TF puede implicar a varios documentos de texto, de alguna forma relacionados; para efectos prácticos solo trabajaremos con un documento de texto.
De manera compacta se puede calcular como [1] tf = número de veces que aparece una palabra en un documento/ Número total de palabras en el documento
Formalizando, queda como [2]: 

Donde tf(t,d) es la frecuencia relativa del término t en el documento d,
ft,d es el número de veces que aparece la palabra t en el documento d,
el denominador de la fórmula se refiere al total de veces que aparece la palabra t en otros documentos d.
La misma fórmula, referida a un solo documento y en formato logarítmico es: 

Donde tf(t) se expresa ahora en escala logarítmica, Ld es el total de términos en el documento d.
Con la escala logarítmica se logra la compresión y se evita que términos con frecuencias muy altas distorsionen el resultado; a fin de cuentas, es un resultado más balanceado.
IDF, es la segunda métrica; se refiere a la frecuencia inversa del documento y mide la importancia que tiene un término específico con respecto a la relevancia de un conjunto de textos, en total. En forma compacta se puede decir que [1] IDF = número de documentos / número de términos en un documento. Se puede considerar como un corrector de tf.
Colocando en escala logarítmica, queda como [2]: 

Donde ND es el total de documentos que contiene el término t. Si solo hay un documento, ND = 1.
Aplicando estas fórmulas al documento sujeto de estudio (Dr. Benno Keijzer “Los hombres ante la transición de género”) y utilizando la programación en Python del blog anterior, se tiene:
Total de documentos ND = 1
Total de palabras en el texto Ld = 1360

Un aspecto a considerar en textos cortos es la capacidad del escritor de usar sinónimos, lo cuál podría mejorar la calidad el texto pero para la métrica tf-idf, se compromete el resultado.
Para terminar, otra métrica relevante es PMI (Pointwise Mutual Information) [3], pero eso será motivo de otra publicación en el blog.
Referencias
[1] A. Gramage, «Nuestra innovadora función: TF*IDF,» RYTE Magazine, 2022. [En línea]. Available: https://es.ryte.com/magazine/nuestra-innovadora-funcion-tfidf. [Último acceso: 2 10 2022].
[2]
wikipedia, «tf-idf,» wikipedia, 16 jul 2022. [En línea]. Available: https://en.wikipedia.org/wiki/Tf%E2%80%93idf. [Último acceso: 2 10 2022].
[3]
A. Moradi, «Feature scoring metrics in word-document matrix,» 2 12 2020. [En línea]. Available: https://towardsdatascience.com/feature-scoring-metrics-in-word-document-matrix-eb35b38c029e. [Último acceso: 3 10 2022].