(Bước đầu áp dụng cho các văn bản số tiếng Việt)
1.1. Các nguyên tắc chung cho việc đặt dấu thanh điệu
1.1.1. Các mô hình vần trong tiếng Việt
Có thể nhận thấy ngay là các dấu thanh điệu hiện nay đều được đặt hoặc là ở vị trí âm chính, hoặc là ở vị trí âm đệm. Nghĩa là nó nằm ở trong phạm vi phần vần. Xét theo giải pháp âm vị học của hệ thống chữ quốc ngữ, chúng ta có mô hình chung của vần tiếng Việt:
ÂM ĐỆM + NGUYÊN ÂM CHÍNH + ÂM CUỐI
Và các biến thể của mô hình này là:
- Âm đệm zero + Nguyên âm chính + Âm cuối /zero/
(Chúng tôi gọi tắt là mô hình 010)
Ví dụ: a (ta), ô (tô), i (ti)… (12 vần, 1162 âm tiết). - Âm đệm zero + Nguyên âm chính + Âm cuối không /zero/
(mô hình 011)
Ví dụ: ac (tác), ôc (tốc), ich (tích)… (110 vần, 4874 âm tiết). - /W/ + Nguyên âm chính + Âm cuối /zero/
(mô hình 110)
Ví dụ: oa (toa), uy (tuy)… (6 vần, 152 âm tiết). - /W/ + Nguyên âm chính + Âm cuối không /zero/
(mô hình 111)
Ví dụ: oac (toác), uyt (tuýt)… (38 vần, 463 âm tiết)
1.1.2. Mô hình một âm tiết tiếng Việt khi được biểu diễn bằng chữ quốc ngữ
Chữ quốc ngữ là chữ ghi âm, phản ánh tương đối chính xác cấu trúc âm tiết tiếng Việt. Về cơ bản, một âm tiết tiếng Việt khi được biểu diễn bằng chữ quốc ngữ sẽ có dạng tổng quát như sau:
(C) (C) (C) (w) V (v) (c) (c)
Trong đó:
- C là chữ cái trong tổ hợp chữ cái biểu diễn cho âm đầu:
- gồm 1 chữ cái (C): b, c , d, đ, g, k, l, m, n, q, r, s, t, v, x
- gồm 2 chữ cái (CC): ch, gh, gi, ng, nh, ph, th, tr
- gồm 3 chữ cái (CCC): ngh
Như vậy, C ở vị trí thứ hai chỉ có thể là “h, i, r”; còn C ở vị trí thứ 3 duy nhất chỉ có thể là “h”.
- w là chữ cái biểu diễn cho âm đệm, bao gồm “o” và “u”.
- V và v là chữ cái biểu diễn cho âm chính. Bao gồm các tổ hợp sau:
- một chữ cái (V): a, ă, â, e, ê, i, o, ô, ơ, u, ư, y
- hai chữ cái (Vv): ia, iê, ya, yê, ua, uô, ưa, ươ
- c là chữ cái biểu diễn cho âm cuối. Bao gồm các tổ hợp sau:
- một chữ cái (c): c, i, m, n, o, p, t, u, y
- hai chữ cái (cc): ch, ng, nh
Các thành phần được đặt trong dấu ngoặc đơn () là các thành phần có thể vắng mặt. Như vậy, về mặt lí thuyết thì âm tiết tiếng Việt có thể được biểu diễn bằng từ 1 đến 8 chữ cái, nhưng trên thực tế, con số tối đa là 7.
Dưới đây là các biến thể của mô hình trên (phân theo số lượng chữ cái có trong mô hình) và các ví dụ tương ứng:
Số lượng chữ cái | Biến thể | Ví dụ |
---|---|---|
1 | V | à, ớ |
2 | wV | oà/òa, uế/úê |
Vc | án, ớn | |
Vv | ỉa, ủa | |
CV | tả, tớ | |
3 | wVv | – |
CVv | tỉa, tủa | |
CCV | thả, thở | |
Vvc | yến, ườn | |
Vcc | áng, ậng | |
wVc | oái, uất | |
CwV | toà/tòa, tuế/túê | |
CVc | tán, tợn | |
4 | CCVv | thìa, thủa |
CCCV | nghĩ, nghè | |
Vvcc | yểng, ưởng | |
CVvc | tiến, lượn | |
CCVc | thán, thớt | |
CVcc | táng, tầng | |
CwVv | tuya, xuya | |
CCwV | thoá/thóa, thuế/túê | |
wVvc | uyên, uyển | |
wVcc | oàng, uỵch | |
CwVc | toại, luận | |
5 | CCCVv | nghía, nghĩa |
CCVvc | thiến, thưỡn | |
CCCVc | nghìn, nghịt | |
CVvcc | tiếng, tưởng | |
CCVcc | tháng, thắng | |
CCwVv | khuya | |
CCCwV | – | |
wVvcc | – | |
CwVvc | tuyển, huyền | |
CwVcc | toáng, đoảng | |
CCwVc | khuỷu, thoái | |
6 | CCCVvc | nghiến, nghiện |
CCVvcc | thiềng, thường | |
CCCVcc | nghĩnh, nghếch | |
CCCwVv | – | |
CwVvcc | – | |
CCwVvc | thuyền, khuyến | |
CCwVcc | khuỳnh, khoàng | |
7 | CCVvcc | nghiêng |
CCwVVcc | – | |
8 | CCCwVvcc | – |
1.1.3. Nguyên tắc đặt dấu thanh trong hệ thống chữ quốc ngữ
Trong bài “Một ý kiến nhỏ về cách ghi dấu thanh trên văn bản tiếng Việt” [6], tác giả Trần Thị Thìn nêu ra ba nguyên tắc đặt dấu. Đó là:
- Nguyên tắc biểu trưng ngữ âm: “vị trí của các dấu thanh thường được đặt ở trên hoặc dưới yếu tố đỉnh âm tiết, tức là nguyên âm hay âm hạt nhân. Sự định vị đó chính là xuất phát từ nguyên tắc biểu trưng ngữ âm, bởi lẽ nguyên âm là yếu tố mang những đặc trưng ngữ âm cơ bản của thanh điệu trong âm tiết. Ví dụ: gà, ngã, đặc, tính…”.
- Nguyên tắc hợp lí: Tác giả so sánh giữa tiếng Việt và tiếng Mông, theo đó, do âm tiết tiếng Mông hầu như chỉ có cấu trúc mở nên thanh điệu được biểu diễn bằng chữ cái và được đặt ở cuối âm tiết. Còn tiếng Việt, ngược lại, do âm tiết tồn tại ở hai cấu trúc: mở và không mở, nên để tránh gây nhầm lẫn với âm cuối, chữ quốc ngữ sử dụng dấu phụ thay cho chữ cái. (Thực ra, nếu sử dụng các chữ cái để biểu diễn thanh điệu theo kiểu gõ telex: F – huyền, X – ngã, R – hỏi, S – sắc, J – nặng thì sẽ không gây nhầm lẫn. Tuy nhiên, khoá luận này không bàn tới việc cải tiến chữ viết, hơn nữa, việc thay đổi lớn như vậy là không đem lại gì ngoài việc gây thêm phiền phức mà thôi).
- Nguyên tắc thẩm mĩ: Đây là nguyên tắc đặt dấu sao cho con chữ trông cân đối, thuận mắt. Cũng chính sử dụng tiêu chuẩn cân đối và thuận mắt này mà tuỳ vào từng (loại) trường hợp cụ thể mà có cách cách bỏ dấu khác nhau:
“…
– Hoặc thuần tuý dựa vào trật tự của các con chữ, đánh dấu vào chữ cái ở giữa của các âm tiết kiểu:
ÂĐ + NÂ đôi. Ví dụ: thìa, lựa…
– Hoặc theo cả hai nguyên tắc cân đối và biểu trưng ngữ âm, dấu thanh được đánh ở nguyên âm trong những âm tiết kiểu:
ÂĐ + NÂ đơn + ÂC. Ví dụ: nhẵn, tép, sỏi…
– Hoặc dấu thanh được đánh ở con chữ thứ 2 trong tổ hợp chữ cái ghi nguyên âm đôi trong các âm tiết không mở:
ÂĐ + NÂ đôi + ÂC. Ví dụ: thiền, lưỡi, cuống…
– Hoặc dấu thanh được đánh ở nguyên âm trong các âm tiết bắt đầu bằng âm đệm:
Bán NÂ + NÂ đơn + ÂC. Ví dụ: uế, oản, uất…
…”
* Tiên đề
Như vậy, chúng ta có thể khẳng định, trong chữ quốc ngữ hiện nay, dấu phụ biểu diễn thanh điệu đa phần được đặt ở vị trí chữ cái biểu diễn nguyên âm chính, ngoài ra còn có một số trường hợp đặt ở vị trí chữ cái biểu diễn âm đệm. Các trường hợp đặt ở âm đầu và âm cuối là những lỗi kĩ thuật.
Ngoài ra, có một điều đáng chú ý, có một số chữ cái thường được dùng để biểu diễn nguyên âm (“i, o, u, y”) lại nằm trong thành phần không phải để biểu diễn cho âm chính. Đây là một “kẽ hở” của chữ quốc ngữ, tạo điều kiện phát sinh sự nhầm lẫn về vị trí dấu thanh điệu ở các âm tiết có âm đầu được biểu diễn bằng tổ hợp “gi”, hoặc các âm tiết [+tròn môi] (“o, u”) hoặc các âm tiết có bán nguyên âm cuối (“o, u, i, y”).