ind-preprocessing

Teks processing untuk machine learning bahasa Indonesia.

Deskripsi

ind-preprocessing adalah tool untuk mengolah teks agar dapat dibaca oleh mesin. Library ini menyediakan beberapa metode untuk membersihkan teks, tokenisasi, menghapus kata-kata umum (stopwords), lematization (lematisasi), dan padding token untuk pemrosesan teks dalam bahasa Indonesia. Tool ini belum sempurna karena dictionary belum di tambahkan dan baru beberapa ratus saja. Kode ini bersifat open source dan dapat kalian edit dan modifikasi sesuka kalian.

Instalasi

Clone repository ini:

git clone https://github.com/superevilstockholm/ind-preprocessing

Untuk menggunakan tool ini, Anda perlu menginstal pandas jika belum terpasang. Anda dapat menginstal pandas dengan menjalankan:

pip install pandas

Contoh penggunaan

from text_processing import PreProcessing
processor = PreProcessing()
result = processor.process_text("Ini adalah contoh teks untuk diolah", max_length=10)
print(result)

Struktur file

your_python_project/
│
├── data/
│   ├── dict_lematization.csv
│   └── ind_stopwords.txt
│
├── text_processing.py
└── your_code.py

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
LICENSE		LICENSE
README.md		README.md
text_processing.py		text_processing.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ind-preprocessing

Deskripsi

Instalasi

Contoh penggunaan

Struktur file

About

Releases

Packages

Languages

License

superevilstockholm/ind-preprocessing

Folders and files

Latest commit

History

Repository files navigation

ind-preprocessing

Deskripsi

Instalasi

Contoh penggunaan

Struktur file

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages