📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing

ViSoLex là một toolkit mạnh mẽ dành cho chuẩn hóa và xử lý văn bản tiếng Việt, được thiết kế tối ưu cho môi trường NLP và dễ dàng cài đặt qua PyPI. Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên Hugging Face Hub.

🚀 Tính năng chính

1. 🔧 Basic Normalizer — Chuẩn hóa văn bản cơ bản

Case folding: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
Tone normalization: chuẩn hóa dấu thanh tiếng Việt.
Basic preprocessing: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.

2. 😀 Emoji Handler — Xử lý emoji

Detect emojis: phát hiện emoji trong văn bản.
Split emoji text: tách emoji ra khỏi câu.
Remove emojis: loại bỏ toàn bộ emoji.

3. 📊 Resource Management — Quản lý dữ liệu

list_datasets() — Liệt kê datasets có sẵn.
load_dataset() — Tải dataset từ Hugging Face.
get_dataset_info() — Xem thông tin chi tiết dataset.

4. 🧠 Task Models — Mô hình xử lý tác vụ

SpamReviewDetection — Phát hiện spam.
HateSpeechDetection — Phát hiện hate speech.
EmotionRecognition — Nhận diện cảm xúc.
AspectSentimentAnalysis — Phân tích sentiment theo từng khía cạnh.

5. 🧪 Advanced Usage — Kết hợp & Tùy chỉnh

Tạo multi-step pipelines cho chuẩn hóa và phân tích.
Tùy chỉnh từng bước xử lý theo nhu cầu.

6. ✏ Lexical Normalization — Chuẩn hóa văn bản mạng xã hội

detect_nsw() — Phát hiện từ phi chuẩn (non-standard words).
normalize_sentence() — Chuẩn hóa câu chứa từ phi chuẩn.

📥 Cài đặt

pip install visolex