📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing
ViSoLex là một toolkit mạnh mẽ dành cho chuẩn hóa và xử lý văn bản tiếng Việt, được thiết kế tối ưu cho môi trường NLP và dễ dàng cài đặt qua PyPI.
Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên Hugging Face Hub.
🚀 Tính năng chính
1. 🔧 Basic Normalizer — Chuẩn hóa văn bản cơ bản
- Case folding: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
- Tone normalization: chuẩn hóa dấu thanh tiếng Việt.
- Basic preprocessing: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.
2. 😀 Emoji Handler — Xử lý emoji
- Detect emojis: phát hiện emoji trong văn bản.
- Split emoji text: tách emoji ra khỏi câu.
- Remove emojis: loại bỏ toàn bộ emoji.
3. 📊 Resource Management — Quản lý dữ liệu
list_datasets()
— Liệt kê datasets có sẵn.
load_dataset()
— Tải dataset từ Hugging Face.
get_dataset_info()
— Xem thông tin chi tiết dataset.
4. 🧠 Task Models — Mô hình xử lý tác vụ
- SpamReviewDetection — Phát hiện spam.
- HateSpeechDetection — Phát hiện hate speech.
- EmotionRecognition — Nhận diện cảm xúc.
- AspectSentimentAnalysis — Phân tích sentiment theo từng khía cạnh.
5. 🧪 Advanced Usage — Kết hợp & Tùy chỉnh
- Tạo multi-step pipelines cho chuẩn hóa và phân tích.
- Tùy chỉnh từng bước xử lý theo nhu cầu.
6. ✏ Lexical Normalization — Chuẩn hóa văn bản mạng xã hội
detect_nsw()
— Phát hiện từ phi chuẩn (non-standard words).
normalize_sentence()
— Chuẩn hóa câu chứa từ phi chuẩn.
📥 Cài đặt
pip install visolex