Skip to content

VMHUGI/S36-S39_Text_Mining

Repository files navigation

Este script es un conjunto de funciones enfocados en el tratamiento de variables o columnas en un dataframe que contengan texto. En general, uno puede aplicar la función a una columna en particular y el resultado será el dataframe con la columna ya modificada.

A continuación, se detallan las funciones establecidas.

estandarizacion_palabras

Toma la columna de un dataframe como input y transforma el contenido de minúsuclas a mayúsculas, así como retira los acentos agudos (ÁÉÍÓÚ), acentos graves (ÀÈÌÒÙ) o acentos circunflejos (ÂÊÎÔÛ)

eliminacion_stopwords

Toma la columna de un dataframe como input y elimina todas aquellas palabras incluidas dentro de la lista de stopwords, tales como preposiciones, artículos, conjunciones, adjetivos demostrativos, adjetivos posesivos, entre otros.

eliminacion_numeros_puntuacion

Toma la columna de un dataframe como input y elimina los números y los signos de puntuación

string.punctuation -> !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~

adicionales -> ¡¿°º-–•“”‘’´ª¨

lematizacion

Toma la columna de un dataframe como input y cada registro de texto es desagregado en su unidad mínima (palabra) y busca hallar el lema correspondiente de cada uno para finalmente consolidarlo nuevamente como un texto transformado. El lema es una de las formas de la palabra que se generaliza para representar el conjunto de posibles variantes de una misma palabra.

diccionario_palabras

Toma la columna de un dataframe como input y primero se hace una limpieza de las palabras por medio de las funciones previamente indicadas. Posteriormente, todo el conjunto de palabras del total de la columna es tokenizada y se obtiene la frecuencia de las palabras. 

Con ello, finalmente, se genera un nuevo dataframe que contiene el total de las palabras existentes en dicha columna y la frecuencia de cada una de estas.

Releases

No releases published

Packages

No packages published

Languages