Métricas Del Procesamiento Del Lenguaje Natural (NLP): TF-IDF

Como parte de los pasos del NLP, es importante tener algunas medidas que nos pueden ayudar a identificar elementos sobresalientes de un texto. Por lo pronto usaremos medidas basadas en la estadística, que podrán ser aplicadas antes y después del Stemming & Lemmatization (ver “Que es el procesamiento de lenguaje natural” http://iniat-blog.ibero.mx.local/2022/01/04/que-es-el-procesamiento-de-lenguaje-natural-conceptos-basicos/ ).

Como parte de los pasos del NLP, es importante tener algunas medidas que nos pueden ayudar a identificar elementos sobresalientes de un texto. Por lo pronto usaremos medidas basadas en la estadística, que podrán ser aplicadas antes y después del Stemming & Lemmatization (ver “Que es el procesamiento de lenguaje natural” https://iniat.ibero.mx/blog/que-es-el-procesamiento-de-lenguaje-natural-conceptos-basicos/ ).


La primera métrica es el TF (Frecuencia del término). Con este valor sabremos la frecuencia con la que ocurre una palabra en un texto [1]. Con el diccionario que se construyó en el blog anterior (ver “PLN, primeros pasos” https://iniat.ibero.mx/blog/procesamiento-de-lenguaje-natural-primeros-pasos/ ) será fácil obtener este valor, ya que en el diccionario se identificó, para cada palabra, el número de veces que se encontró. También se puede considerar el cálculo antes o después de la eliminación de ciertas palabras cortas o insignificantes. A final de cuentas habremos obtenido la relevancia de una palabra en un texto. Cabe aclarar que la fórmula de TF puede implicar a varios documentos de texto, de alguna forma relacionados; para efectos prácticos solo trabajaremos con un documento de texto.

De manera compacta se puede calcular como [1] tf = número de veces que aparece una palabra en un documento/ Número total de palabras en el documento

Formalizando, queda como [2]:

Donde   tf(t,d) es la frecuencia relativa del término t en el documento d,

ft,d es el número de veces que aparece la palabra t en el documento d,

el denominador de la fórmula se refiere al total de veces que aparece la palabra t en otros documentos d.

La misma fórmula, referida a un solo documento y en formato logarítmico es:

Donde  tf(t) se expresa ahora en escala logarítmica, Ld es el total de términos en el documento d.

Con la escala logarítmica se logra la compresión y se evita que términos con frecuencias muy altas distorsionen el resultado; a fin de cuentas, es un resultado más balanceado.

IDF, es la segunda métrica; se refiere a la frecuencia inversa del documento y mide la importancia que tiene un término específico con respecto a la relevancia de un conjunto de textos, en total. En forma compacta se puede decir que [1] IDF = número de documentos / número de términos en un documento. Se puede considerar como un corrector de tf.

Colocando en escala logarítmica, queda como [2]:

Donde ND es el total de documentos que contiene el término t. Si solo hay un documento, ND = 1.

Aplicando estas fórmulas al documento sujeto de estudio (Dr. Benno Keijzer “Los hombres ante la transición de género”) y utilizando la programación en Python del blog anterior, se tiene:

Total de documentos ND = 1

Total de palabras en el texto Ld = 1360

 

Un aspecto a considerar en textos cortos es la capacidad del escritor de usar sinónimos, lo cuál podría mejorar la calidad el texto pero para la métrica tf-idf, se compromete el resultado.

 
Para terminar, otra métrica relevante es PMI (Pointwise Mutual Information) [3], pero eso será motivo de otra publicación en el blog.

 

Referencias

[1] A. Gramage, «Nuestra innovadora función: TF*IDF,» RYTE Magazine, 2022. [En línea]. Available: https://es.ryte.com/magazine/nuestra-innovadora-funcion-tfidf. [Último acceso: 2 10 2022].

[2]

wikipedia, «tf-idf,» wikipedia, 16 jul 2022. [En línea]. Available: https://en.wikipedia.org/wiki/Tf%E2%80%93idf. [Último acceso: 2 10 2022].

[3]

A. Moradi, «Feature scoring metrics in word-document matrix,» 2 12 2020. [En línea]. Available: https://towardsdatascience.com/feature-scoring-metrics-in-word-document-matrix-eb35b38c029e. [Último acceso: 3 10 2022].
Share the Post: