Từ cuối tháng 10/2021, ngonngu.net cho ra mắt một chuyên trang mới có tên là Dự án S tại địa chỉ s.ngonngu.net. Trong trang này chúng tôi cung cấp một số công cụ tra cứu và xử lí tiếng Việt.
Tra cứu ngữ liệu
Đây là ngữ liệu văn bản không đánh dấu với hàng triệu bản tin/bài báo có từ năm 2000 đến nay. Kho ngữ liệu này sẽ thường xuyên được bổ sung.
Tìm âm tiết
Người dung có thể tìm theo vần hoặc chữ cái, kết quả có thể kèm theo các từ chứa âm tiết tương ứng. Các âm tiết này cũng được liên kết tới ngữ liệu để người dùng tiện tham khảo.
Ngoài ra ứng dụng còn đưa ra gợi ý các vần liên quan (nếu có).
Sắp xếp danh sách
Bao gồm các tuỳ chọn xếp theo cột, theo tên trước họ sau, và hỗ trợ cả xếp danh sách nhiều cấp (ví dụ: bảng từ, chỉ mục). Đây là công cụ rất cần thiết cho những người cần sắp xếp danh sách theo thứ tự tiếng Việt, bởi vì các phần mềm hiện nay đa số đều chưa thể sắp xếp hoàn toàn chính xác.
Tự “kiểm duyệt”
Đây là công cụ mới được bổ sung vào tháng 11 năm 2023. Công cụ này giúp cho người biên tập phát hiện nhanh những từ hoặc ngữ đoạn nhạy cảm, lỗi đánh máy và một số lỗi chính tả thường gặp.
Chuẩn hoá I/Y và vị trí đặt dấu
Đây là công cụ giúp phân tích văn bản và chuẩn hoá cách viết I/Y cho âm chính và/hoặc vị trí đặt dấu thanh trong các vần -oa/-oe/-uy.
Các công cụ trên có nhiều tuỳ chọn khác nhau giúp người dùng có thể đánh giá văn bản một cách linh hoạt.
Các công cụ khác
Dự án S cung cấp một loạt các công cụ khác liên quan tới việc xử lí dữ liệu văn bản:
- Danh sách đơn nhất: Lọc ra các phần tử giống nhau, đếm số lượt xuất hiện và đưa ra danh sách gồm các phần tử đơn nhất
- Đối chiếu danh sách: Tìm ra phần giống nhau, phần khác biệt hoặc phần riêng có của từng danh sách
- Chuyển số sang chữ: Chuyển đổi số tự nhiên lớn hơn 0 sang dạng viết bằng chữ và ngược lại
Hỗ trợ cho Dự án S
Paratime Studio là đơn vị tài trợ cho giai đoạn phát triển ban đầu của Dự án S.
Chúng tôi hi vọng những công cụ này sẽ giúp ích cho quý vị và rất mong nhận được sự góp ý, hỗ trợ từ mọi người.