GitHub - VMHUGI/S36-S39_Text_Mining: Conjunto de Funciones de Text Mining en Python

Este script es un conjunto de funciones enfocados en el tratamiento de variables o columnas en un dataframe que contengan texto. En general, uno puede aplicar la función a una columna en particular y el resultado será el dataframe con la columna ya modificada.

A continuación, se detallan las funciones establecidas.

estandarizacion_palabras

Toma la columna de un dataframe como input y transforma el contenido de minúsuclas a mayúsculas, así como retira los acentos agudos (ÁÉÍÓÚ), acentos graves (ÀÈÌÒÙ) o acentos circunflejos (ÂÊÎÔÛ)

eliminacion_stopwords

Toma la columna de un dataframe como input y elimina todas aquellas palabras incluidas dentro de la lista de stopwords, tales como preposiciones, artículos, conjunciones, adjetivos demostrativos, adjetivos posesivos, entre otros.

eliminacion_numeros_puntuacion

Toma la columna de un dataframe como input y elimina los números y los signos de puntuación

string.punctuation -> !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~

adicionales -> ¡¿°º-–•“”‘’´ª¨

lematizacion

Toma la columna de un dataframe como input y cada registro de texto es desagregado en su unidad mínima (palabra) y busca hallar el lema correspondiente de cada uno para finalmente consolidarlo nuevamente como un texto transformado. El lema es una de las formas de la palabra que se generaliza para representar el conjunto de posibles variantes de una misma palabra.

diccionario_palabras

Toma la columna de un dataframe como input y primero se hace una limpieza de las palabras por medio de las funciones previamente indicadas. Posteriormente, todo el conjunto de palabras del total de la columna es tokenizada y se obtiene la frecuencia de las palabras.

Con ello, finalmente, se genera un nuevo dataframe que contiene el total de las palabras existentes en dicha columna y la frecuencia de cada una de estas.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitattributes		.gitattributes
.gitignore		.gitignore
BD_Prueba.xlsx		BD_Prueba.xlsx
README.md		README.md
S36-S39 - Text mining (ejemplos).py		S36-S39 - Text mining (ejemplos).py
S36-S39 - Text mining.py		S36-S39 - Text mining.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

VMHUGI/S36-S39_Text_Mining

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages