Thuật ngữ "Đối chiếu Unicode" quan trọng trong việc xử lý chuỗi ký tự (1 người xem)

HeSanbi · 13/12/25

(Bài viết được viết bằng Copilot AI để bài viết được đầy đủ đề mục và trực quan hóa)

Mục đích của bài viết nói về sự quan trọng trong việc xử lý chuỗi trong lập trình. Gợi ý các hàm API Win32 mạnh mẽ để xử lý chuỗi Unicode, trợ giúp xử lý ký tự tiếng Việt và các ngôn ngữ trên thế giới. Trong đó gồm:

Các thao tác xử lý chuỗi:

Dưới đây là danh mục đầy đủ và rõ ràng các loại thao tác thường gặp khi xử lý chuỗi ký tự — từ thao tác cơ bản đến các xử lý nâng cao liên quan Unicode, hiệu năng và bảo mật. Bạn có thể dùng làm checklist khi thiết kế hệ thống xử lý văn bản hoặc triển khai trong lập trình.

1. Thao tác cơ bản

Đo độ dài: lấy số ký tự hoặc số byte của chuỗi.
Nối chuỗi: ghép nhiều chuỗi thành một.
Cắt chuỗi (substring): lấy phần con theo vị trí và độ dài.
Chèn / Xóa: thêm hoặc loại bỏ ký tự/đoạn trong chuỗi.
Thay thế: thay một mẫu bằng mẫu khác (replace).
Tách / Ghép (split / join): tách chuỗi theo dấu phân cách; ghép mảng thành chuỗi.
Trim: loại bỏ khoảng trắng đầu/cuối hoặc ký tự không mong muốn.

2. Biến đổi ký tự

Chuyển hoa/thường: uppercase / lowercase; case folding cho so sánh không phân biệt hoa thường.
Chuẩn hóa Unicode: NFC, NFD, NFKC, NFKD để thống nhất biểu diễn ký tự.
Loại bỏ dấu (diacritics folding): chuyển “điểm” thành dạng không dấu để tìm kiếm.
Ánh xạ ký tự (mapping): chuyển đổi ký tự theo bảng ánh xạ (ví dụ thay thế ký tự tương đương).
Transliteration: chuyển chữ từ bảng chữ cái này sang bảng chữ cái khác (ví dụ Cyrillic → Latin).

3. Xử lý Unicode và ngôn ngữ

Collation keys / locale-aware comparison: tạo khóa sắp xếp theo locale để so sánh/sắp xếp đúng ngôn ngữ.
Xử lý grapheme clusters: thao tác theo “ký tự hiển thị” (user-perceived character) thay vì code point.
BiDi handling: xử lý văn bản hai chiều (ví dụ tiếng Ả Rập, Hebrew).
Line breaking / word wrapping / hyphenation: tách dòng và ngắt từ theo quy tắc ngôn ngữ.
Normalization for security: canonicalization để tránh spoofing, homograph attacks.

4. Tìm kiếm và khớp mẫu nâng cao

Regex (biểu thức chính quy): tìm, kiểm tra, thay thế theo mẫu phức tạp.
Fuzzy search / approximate matching: Levenshtein, Damerau-Levenshtein, n-gram để tìm gần đúng.
Phonetic matching: Soundex, Metaphone cho tìm kiếm theo phát âm.
Full-text indexing / inverted index: lập chỉ mục để tìm kiếm nhanh trên lượng lớn văn bản.
Stemming / Lemmatization: rút gọn từ về gốc để tìm kiếm ngôn ngữ tự nhiên.

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao

Tokenization: tách câu/ từ/ ký hiệu.
POS tagging / Named Entity Recognition: gán nhãn từ loại, nhận diện thực thể.
Language detection: xác định ngôn ngữ của đoạn văn.
Sentiment analysis / classification: phân loại cảm xúc hoặc chủ đề.
Embedding / vectorization: chuyển văn bản thành vector cho ML.

6. Mã hóa, chuyển đổi và I/O

Encode / Decode: UTF-8, UTF-16, ASCII, Base64.
Escape / Unescape: xử lý ký tự đặc biệt trong HTML, JSON, SQL, URL.
Normalization for storage: chuẩn hóa trước khi lưu vào DB hoặc file.
Streaming / chunking: xử lý chuỗi lớn theo khối để tiết kiệm bộ nhớ.

7. Bảo mật, kiểm tra và tối ưu

Validation / Sanitization: kiểm tra định dạng, loại bỏ ký tự nguy hiểm.
Canonicalization: chuẩn hóa để so sánh an toàn (ví dụ tên file, URL).
Hashing / Signing / Encryption: bảo vệ nội dung hoặc kiểm tra tính toàn vẹn.
Rate / performance considerations: tối ưu regex, tránh thao tác O(n²) trên chuỗi lớn.

8. So sánh, đo lường và khác

So sánh ordinal vs linguistic: so sánh theo mã điểm hay theo quy tắc ngôn ngữ.
Similarity metrics: cosine similarity, Jaccard, n-gram overlap.
Diff / patch: tìm khác biệt giữa hai chuỗi và tạo bản vá.
Compression: nén chuỗi để tiết kiệm băng thông hoặc lưu trữ.

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ

Giới thiệu ngắn gọn

Trong môi trường số hóa và kết nối toàn cầu, kỹ thuật xử lý ký tự đóng vai trò then chốt để dữ liệu văn bản được lưu trữ, so sánh và hiển thị chính xác. Hai khái niệm thường xuyên xuất hiện là bộ ký tự (character set) và đối chiếu (collation) — chúng quyết định cách ký tự được mã hóa và cách chuỗi ký tự được so sánh, sắp xếp trong hệ thống máy tính và cơ sở dữ liệu.

Đối chiếu Unicode là gì

Đối chiếu Unicode (Unicode collation / normalization) là tập hợp các quy tắc để chuẩn hóa và so sánh các chuỗi ký tự. Vì cùng một ký tự có thể có nhiều biểu diễn khác nhau trong Unicode (ví dụ ký tự có dấu có thể là một mã điểm duy nhất hoặc là tổ hợp ký tự cơ sở + dấu), nên khi so sánh hay tìm kiếm, ta cần đưa các biểu diễn này về một dạng thống nhất để tránh sai lệch. Trong bối cảnh cơ sở dữ liệu và hệ thống lưu trữ, khái niệm đối chiếu còn bao gồm cách sắp xếp (sort order) và quy tắc phân biệt hoa thường, dấu, ngôn ngữ cụ thể….

Tại sao cần đối chiếu Unicode

Đảm bảo so sánh chính xác: Nếu không chuẩn hóa, hai chuỗi trông giống nhau có thể bị coi là khác nhau bởi hệ thống, dẫn đến lỗi khi tìm kiếm, lọc, hoặc kiểm tra trùng lặp.
Tương thích giữa nền tảng: Các hệ điều hành, trình duyệt, cơ sở dữ liệu có thể lưu ký tự theo cách khác nhau; đối chiếu giúp đồng bộ hóa khi trao đổi dữ liệu.
Hỗ trợ tìm kiếm và sắp xếp đa ngôn ngữ: Quy tắc đối chiếu cho phép tìm kiếm “không phân biệt dấu” hoặc “không phân biệt hoa thường” tùy nhu cầu, đồng thời tôn trọng thứ tự chữ cái của từng ngôn ngữ.
Giảm rủi ro bảo mật: Một số tấn công lợi dụng biểu diễn ký tự khác nhau để giả mạo tên miền hoặc tệp; chuẩn hóa giảm thiểu rủi ro này.

Ứng dụng thực tế của đối chiếu Unicode

Cơ sở dữ liệu: Khi lưu trữ tên, địa chỉ, nội dung đa ngôn ngữ, ta chọn bộ ký tự (ví dụ UTF-8/utf8mb4) và đối chiếu phù hợp để đảm bảo tìm kiếm và so sánh chính xác; các hệ quản trị như MySQL/MariaDB có nhiều tùy chọn collation khác nhau ảnh hưởng đến hiệu suất và kết quả tìm kiếm.
Công cụ tìm kiếm và chỉ mục: Trước khi lập chỉ mục, văn bản thường được chuẩn hóa để các truy vấn trả về kết quả nhất quán.
Xử lý ngôn ngữ tự nhiên (NLP): Tiền xử lý văn bản (tokenization, stemming) yêu cầu dữ liệu ở dạng chuẩn để mô hình hoạt động ổn định.
Giao diện người dùng và hiển thị: Chuẩn hóa giúp tránh lỗi hiển thị, ký tự lạ hoặc mất dấu khi chuyển giữa hệ thống khác nhau.

Ứng dụng trong lập trình — cách thực hiện

Lập trình viên thường chuẩn hóa chuỗi trước khi lưu hoặc so sánh. Hầu hết ngôn ngữ hiện đại có thư viện hỗ trợ:

Ví dụ Python

Python:

import unicodedata
s = "e\u0301"  # e + dấu sắc
normalized = unicodedata.normalize("NFC", s)

Ví dụ JavaScript

JavaScript:

const s = "e\u0301";
const normalized = s.normalize("NFC");

Các dạng chuẩn hóa phổ biến

NFC (Normalization Form C): Kết hợp ký tự cơ sở và dấu thành một mã điểm nếu có thể.
NFD (Normalization Form D): Tách ký tự thành cơ sở + dấu.
NFKC / NFKD: Phiên bản “compatibility” loại bỏ khác biệt hình thức (ví dụ chữ số thượng/phụ, ký tự tương đương về hình thức).

Trong cơ sở dữ liệu, ngoài việc chọn character set (ví dụ UTF-8/utf8mb4), ta còn chọn collation (ví dụ utf8mb4_unicode_ci hay utf8mb4_general_ci) để quyết định cách so sánh và sắp xếp chuỗi; mỗi lựa chọn có ảnh hưởng đến tính chính xác và hiệu suất truy vấn.

Tác dụng đối với đa ngôn ngữ

Hỗ trợ mọi bảng chữ cái: Unicode cung cấp mã cho hầu hết ký tự trên thế giới, cho phép lưu trữ đa ngôn ngữ trong cùng một hệ thống; đối chiếu đảm bảo các ngôn ngữ đó được so sánh theo quy tắc phù hợp.
Tôn trọng quy tắc ngôn ngữ: Một số ngôn ngữ có quy tắc sắp xếp đặc thù (ví dụ chữ đệm, chữ ghép); collation chuyên biệt cho phép xử lý đúng các quy tắc này.
Trải nghiệm người dùng nhất quán: Người dùng ở các vùng khác nhau sẽ thấy kết quả tìm kiếm, sắp xếp và hiển thị văn bản đúng với ngôn ngữ của họ, tránh lỗi mất dấu hoặc ký tự lạ.
Tương thích quốc tế hóa (i18n): Khi xây dựng ứng dụng đa ngôn ngữ, chuẩn hóa Unicode là bước bắt buộc để đảm bảo dữ liệu không bị phân mảnh theo biểu diễn ký tự.

Lời khuyên thực tiễn (tóm tắt)

Luôn dùng Unicode (UTF-8/utf8mb4) cho hệ thống lưu trữ và truyền tải văn bản để hỗ trợ đa ngôn ngữ và emoji.
Chuẩn hóa chuỗi (NFC) trước khi lưu và trước khi so sánh để tránh sai lệch do biểu diễn tổ hợp.
Chọn collation phù hợp với ngôn ngữ chính của ứng dụng; cân nhắc giữa độ chính xác ngôn ngữ và hiệu suất (một số collation chậm hơn nhưng chính xác hơn).
Kiểm tra hiển thị trên nhiều nền tảng (Windows, macOS, Linux, trình duyệt di động) để phát hiện lỗi ký tự sớm.

Dưới Windows, API NLS (National Language Support) cung cấp các hàm mạnh để so sánh, chuẩn hóa, ánh xạ và sắp xếp chuỗi Unicode (ví dụ CompareStringEx, LCMapStringEx, NormalizeString, FoldString). Những hàm này là công cụ nền tảng khi bạn cần xử lý đối chiếu Unicode chính xác trong ứng dụng VBA 64‑bit. Để khai thác chúng an toàn trong VBA 64‑bit, cần dùng PtrSafe và LongPtr/StrPtr khi khai báo và truyền chuỗi.

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode

Hàm	Mục đích chính	Hỗ trợ Unicode	Khi nào dùng	Độ phức tạp
CompareStringEx	So sánh chuỗi theo ngôn ngữ/locale với nhiều tùy chọn	Có	So sánh ngôn ngữ học (linguistic) chính xác	Trung bình → cao
LCMapStringEx	Ánh xạ chuỗi (ví dụ chuyển hoa/thường, chuẩn hóa sắp xếp)	Có	Chuẩn hóa trước khi so sánh, chuyển case theo locale	Trung bình
NormalizeString	Chuẩn hóa biểu diễn Unicode (NFC/NFD/NFKC/NFKD)	Có	Chuẩn hóa biểu diễn tổ hợp trước lưu/so sánh	Thấp → trung bình
FoldString	Loại bỏ/chuẩn hóa các khác biệt hình thức (folding)	Có	Loại bỏ dấu, folding ký tự để tìm kiếm không phân biệt	Trung bình
CompareStringOrdinal	So sánh theo mã điểm (ordinal)	Có	So sánh nhanh, không theo ngôn ngữ (binary/ordinal)	Thấp

Khai báo API cho VBA 64‑bit và ví dụ sử dụng

Ghi chú: các khai báo dưới đây dùng kiểu PtrSafe và LongPtr phù hợp cho VBA 64‑bit. Khi truyền chuỗi từ VBA vào API, dùng StrPtr(yourString) để lấy con trỏ UTF‑16 (BSTR nội bộ) và truyền Len(s) (số ký tự) hoặc -1 nếu chuỗi kết thúc bằng null được chấp nhận.

1. CompareStringEx (so sánh ngôn ngữ học)

JavaScript:

'' Constants
Public Const CSTR_LESS_THAN As Long = 1
Public Const CSTR_EQUAL As Long = 2
Public Const CSTR_GREATER_THAN As Long = 3

'' Declaration (kernel32)
Declare PtrSafe Function CompareStringEx Lib "kernel32" _
    (ByVal lpLocaleName As LongPtr, ByVal dwCmpFlags As Long, _
     ByVal lpString1 As LongPtr, ByVal cchCount1 As Long, _
     ByVal lpString2 As LongPtr, ByVal cchCount2 As Long, _
     ByVal lpVersionInformation As LongPtr, ByVal lParam As LongPtr, _
     ByVal lpReserved As LongPtr) As Long

Ví dụ wrapper

JavaScript:

Public Function CompareUnicodeStrings(localeNamePtr As LongPtr, s1 As String, s2 As String) As Long
    Dim p1 As LongPtr, p2 As LongPtr
    p1 = StrPtr(s1)
    p2 = StrPtr(s2)
    CompareUnicodeStrings = CompareStringEx(localeNamePtr, 0, p1, Len(s1), p2, Len(s2), 0, 0, 0)
End Function

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)

JavaScript:

'' Flags examples
Public Const LCMAP_LOWERCASE As Long = &H100000
Public Const LCMAP_UPPERCASE As Long = &H200000
Public Const LCMAP_SORTKEY As Long = &H4000

Declare PtrSafe Function LCMapStringEx Lib "kernel32" _
    (ByVal lpLocaleName As LongPtr, ByVal dwMapFlags As Long, _
     ByVal lpSrcStr As LongPtr, ByVal cchSrc As Long, _
     ByVal lpDestStr As LongPtr, ByVal cchDest As Long, _
     ByVal lpVersionInformation As LongPtr, ByVal lParam As LongPtr, _
     ByVal lpReserved As LongPtr) As Long

Ví dụ chuyển về lowercase theo locale

JavaScript:

Public Function ToLowerLocale(localeNamePtr As LongPtr, s As String) As String
    Dim needed As Long
    Dim buf() As Byte
    needed = LCMapStringEx(localeNamePtr, LCMAP_LOWERCASE, StrPtr(s), Len(s), 0, 0, 0, 0, 0)
    If needed > 0 Then
        ReDim buf(0 To needed * 2 - 1) '' UTF-16 bytes
        LCMapStringEx localeNamePtr, LCMAP_LOWERCASE, StrPtr(s), Len(s), VarPtr(buf(0)), needed, 0, 0, 0
        ToLowerLocale = StrConv(buf, vbUnicode)
    End If
End Function

3. NormalizeString (chuẩn hóa Unicode)

JavaScript:

'' Normalization forms
Public Const NORMALIZATION_FORM_C As Long = 0
Public Const NORMALIZATION_FORM_D As Long = 1
Public Const NORMALIZATION_FORM_KC As Long = 2
Public Const NORMALIZATION_FORM_KD As Long = 3

Declare PtrSafe Function NormalizeString Lib "Normaliz" _
    (ByVal NormForm As Long, ByVal lpSrcString As LongPtr, ByVal cwSrcLength As Long, _
     ByVal lpDstString As LongPtr, ByVal cwDstLength As Long) As Long

Ví dụ chuẩn hóa sang NFC

JavaScript:

Public Function NormalizeToNFC(s As String) As String
    Dim needed As Long
    Dim buf() As Byte
    needed = NormalizeString(NORMALIZATION_FORM_C, StrPtr(s), Len(s), 0, 0)
    If needed > 0 Then
        ReDim buf(0 To needed * 2 - 1)
        NormalizeString NORMALIZATION_FORM_C, StrPtr(s), Len(s), VarPtr(buf(0)), needed
        NormalizeToNFC = StrConv(buf, vbUnicode)
    End If
End Function

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)

JavaScript:

'' FoldString flags examples
Public Const MAP_FOLDDIACRITICS As Long = &H2000000

Declare PtrSafe Function FoldStringW Lib "kernel32" Alias "FoldStringW" _
    (ByVal dwMapFlags As Long, ByVal lpSrcStr As LongPtr, ByVal cchSrc As Long, _
     ByVal lpDestStr As LongPtr, ByVal cchDest As Long) As Long

Ví dụ loại bỏ dấu để tìm kiếm không phân biệt dấu

JavaScript:

Public Function RemoveDiacritics(s As String) As String
    Dim needed As Long
    Dim buf() As Byte
    needed = FoldStringW(MAP_FOLDDIACRITICS, StrPtr(s), Len(s), 0, 0)
    If needed > 0 Then
        ReDim buf(0 To needed * 2 - 1)
        FoldStringW MAP_FOLDDIACRITICS, StrPtr(s), Len(s), VarPtr(buf(0)), needed
        RemoveDiacritics = StrConv(buf, vbUnicode)
    End If
End Function

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)

JavaScript:

Declare PtrSafe Function CompareStringOrdinal Lib "kernel32" _
    (ByVal lpString1 As LongPtr, ByVal cchCount1 As Long, _
     ByVal lpString2 As LongPtr, ByVal cchCount2 As Long, _
     ByVal bIgnoreCase As Long) As Long

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit

Luôn chuẩn hóa trước khi so sánh: dùng NormalizeString (NFC) để tránh khác biệt biểu diễn (composed vs decomposed).
Chọn kiểu so sánh phù hợp: dùng CompareStringEx cho so sánh theo locale; dùng CompareStringOrdinal cho so sánh nhanh, không theo ngôn ngữ.
Truyền chuỗi đúng cách: dùng StrPtr để lấy con trỏ UTF‑16; khi API trả về chuỗi, chuyển mảng Byte sang String bằng StrConv(..., vbUnicode).
Xử lý buffer: nhiều hàm trả về kích thước cần thiết; gọi lần 1 để lấy kích thước, cấp bộ nhớ, rồi gọi lần 2 để lấy dữ liệu.
Locale: CompareStringEx và LCMapStringEx chấp nhận lpLocaleName (pointer tới tên locale) hoặc LOCALE_NAME_INVARIANT/LOCALE_NAME_USER_DEFAULT tùy mục đích; bạn có thể truyền 0 để dùng mặc định hệ thống trong một số trường hợp nhưng tốt nhất là truyền tên locale rõ ràng khi cần kết quả ngôn ngữ học chính xác.
Quyền truy cập DLL: NormalizeString nằm trong Normaliz.dll (một phần của Windows); các hàm so sánh/ánh xạ thường nằm trong kernel32/kernelbase tùy phiên bản Windows.
Thử nghiệm trên môi trường 64‑bit: kiểm tra kỹ trên Office 64‑bit vì khác biệt kiểu dữ liệu pointer có thể gây crash nếu khai báo sai.

Hàm CompareUnicodeStrings sau là một ví dụ điển hình trong việc so sánh ký tự tiếng việc, Â, Ă, Đ, ...
API CompareStringEx là hàm đối chiếu Unicode Quốc tế hóa, có nghĩa là chúng ta không cần viết lại thứ tự ký tự để sắp xếp tiếng Việt hoặc với các ngôn ngữ khác trên thế giới. Chỉ cần vận dụng hàm có sẵn này Windows đã hỗ trợ để so sánh và sắp xếp chuỗi đa ngôn ngữ.

JavaScript:

Option Explicit

' --- API declarations (VBA7 / 64-bit safe) ---
#If VBA7 Then
    Private Declare PtrSafe Function CompareStringEx Lib "kernel32" ( _
        ByVal lpLocaleName As LongPtr, _
        ByVal dwCmpFlags As Long, _
        ByVal lpString1 As LongPtr, _
        ByVal cchCount1 As Long, _
        ByVal lpString2 As LongPtr, _
        ByVal cchCount2 As Long, _
        ByVal lpVersionInformation As LongPtr, _
        ByVal lpReserved As LongPtr, _
        ByVal lParam As LongPtr) As Long

    Private Declare PtrSafe Function GetLastError Lib "kernel32" () As Long
#Else
    Private Declare Function CompareStringEx Lib "kernel32" ( _
        ByVal lpLocaleName As Long, _
        ByVal dwCmpFlags As Long, _
        ByVal lpString1 As Long, _
        ByVal cchCount1 As Long, _
        ByVal lpString2 As Long, _
        ByVal cchCount2 As Long, _
        ByVal lpVersionInformation As Long, _
        ByVal lpReserved As Long, _
        ByVal lParam As Long) As Long

    Private Declare Function GetLastError Lib "kernel32" () As Long
#End If

' --- Return codes from CompareStringEx ---
Public Const CSTR_LESS_THAN    As Long = 1
Public Const CSTR_EQUAL        As Long = 2
Public Const CSTR_GREATER_THAN As Long = 3

' --- Common flags (có thể kết hợp bằng OR) ---
Public Const NORM_IGNORECASE       As Long = &H1
Public Const NORM_IGNORENONSPACE   As Long = &H2
Public Const NORM_IGNORESYMBOLS    As Long = &H4
Public Const SORT_STRINGSORT       As Long = &H1000

' --- Wrapper: trả về -1,0,1 ---
Public Function CompareUnicodeStrings( _
    ByVal s1 As String, _
    ByVal s2 As String, _
    Optional ByVal localeName As String = vbNullString, _
    Optional ByVal flags As Long = 0) As Long

    Dim lpLocale As LongPtr
    Dim res As Long

    ' Nếu không truyền localeName thì dùng thread/system default (pass NULL)
    If Len(localeName) = 0 Then
        lpLocale = 0
    Else
        lpLocale = StrPtr(localeName)    ' truyền pointer tới Unicode locale name (ví dụ "vi-VN")
    End If

    ' Gọi API: truyền pointer tới chuỗi Unicode bằng StrPtr, và độ dài bằng Len (số ký tự)
    res = CompareStringEx(lpLocale, flags, StrPtr(s1), Len(s1), StrPtr(s2), Len(s2), 0, 0, 0)

    If res = 0 Then
        ' Lấy mã lỗi Windows và ném lỗi VBA
        Err.Raise vbObjectError + 513, "CompareUnicodeStrings", "CompareStringEx failed. GetLastError=" & GetLastError()
    End If

    Select Case res
        Case CSTR_LESS_THAN
            CompareUnicodeStrings = -1
        Case CSTR_EQUAL
            CompareUnicodeStrings = 0
        Case CSTR_GREATER_THAN
            CompareUnicodeStrings = 1
        Case Else
            CompareUnicodeStrings = res
    End Select
End Function

' --- Ví dụ sử dụng ---
Sub TestCompareUnicode()
    Dim r As Long

    ' So sánh theo locale Việt Nam, bỏ qua hoa thường
    r = CompareUnicodeStrings("điện", "Dien", "vi-VN", NORM_IGNORECASE)
    Select Case r
        Case -1: Debug.Print "s1 < s2"
        Case 0:  Debug.Print "s1 = s2"
        Case 1:  Debug.Print "s1 > s2"
    End Select

    ' So sánh mặc định (system locale), phân biệt hoa thường
    Debug.Print CompareUnicodeStrings("a", "A")    ' thường sẽ khác nếu không dùng NORM_IGNORECASE
End Sub

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode:

UTS #10 — Unicode Collation Algorithm (UCA) — tài liệu kỹ thuật chính thức mô tả cách so sánh chuỗi Unicode và bảng DUCET (Default Unicode Collation Element Table) dùng làm cơ sở cho việc sắp xếp theo Unicode.https://www.unicode.org/reports/tr10/ .
CLDR — Collation Guidelines (Common Locale Data Repository) — hướng dẫn và quy tắc tùy chỉnh thứ tự sắp xếp theo locale; nơi quản lý các quy tắc collation theo ngôn ngữ/địa phương, rất hữu ích khi bạn cần tailor collation cho từng ngôn ngữ cụ thể.https://cldr.unicode.org/index/cldr-spec/collation-guidelines .
UAX #15 — Unicode Normalization Forms — mô tả các dạng chuẩn hóa (NFC, NFD, NFKC, NFKD) để đảm bảo các chuỗi tương đương có biểu diễn nhị phân duy nhất; quan trọng khi chuẩn hóa trước so sánh hoặc lưu trữ.https://www.unicode.org/reports/tr15/ .
Microsoft Learn — Using Unicode Normalization to Represent Strings — hướng dẫn thực hành trên nền Windows/Win32 về khi nào và cách dùng normalization trong ứng dụng Windows, hữu ích nếu bạn triển khai trên nền tảng Microsoft.https://learn.microsoft.com/en-us/windows/win32/intl/using-unicode-normalization-to-represent-strings .

jonythanht · 15/12/25

HeSanbi đã viết:
Mục đích của bài viết nói về sự quan trọng trong việc xử lý chuỗi trong lập trình. Gợi ý các hàm API Win32 mạnh mẽ để xử lý chuỗi Unicode, trợ giúp xử lý ký tự tiếng Việt và các ngôn ngữ trên thế giới. Trong đó gồm:

Các thao tác xử lý chuỗi:

Dưới đây là danh mục đầy đủ và rõ ràng các loại thao tác thường gặp khi xử lý chuỗi ký tự — từ thao tác cơ bản đến các xử lý nâng cao liên quan Unicode, hiệu năng và bảo mật. Bạn có thể dùng làm checklist khi thiết kế hệ thống xử lý văn bản hoặc triển khai trong lập trình.

1. Thao tác cơ bản

Đo độ dài: lấy số ký tự hoặc số byte của chuỗi.

Nối chuỗi: ghép nhiều chuỗi thành một.

Cắt chuỗi (substring): lấy phần con theo vị trí và độ dài.

Chèn / Xóa: thêm hoặc loại bỏ ký tự/đoạn trong chuỗi.

Thay thế: thay một mẫu bằng mẫu khác (replace).

Tách / Ghép (split / join): tách chuỗi theo dấu phân cách; ghép mảng thành chuỗi.

Trim: loại bỏ khoảng trắng đầu/cuối hoặc ký tự không mong muốn.

2. Biến đổi ký tự

Chuyển hoa/thường: uppercase / lowercase; case folding cho so sánh không phân biệt hoa thường.

Chuẩn hóa Unicode: NFC, NFD, NFKC, NFKD để thống nhất biểu diễn ký tự.

Loại bỏ dấu (diacritics folding): chuyển “điểm” thành dạng không dấu để tìm kiếm.

Ánh xạ ký tự (mapping): chuyển đổi ký tự theo bảng ánh xạ (ví dụ thay thế ký tự tương đương).

Transliteration: chuyển chữ từ bảng chữ cái này sang bảng chữ cái khác (ví dụ Cyrillic → Latin).

3. Xử lý Unicode và ngôn ngữ

Collation keys / locale-aware comparison: tạo khóa sắp xếp theo locale để so sánh/sắp xếp đúng ngôn ngữ.

Xử lý grapheme clusters: thao tác theo “ký tự hiển thị” (user-perceived character) thay vì code point.

BiDi handling: xử lý văn bản hai chiều (ví dụ tiếng Ả Rập, Hebrew).

Line breaking / word wrapping / hyphenation: tách dòng và ngắt từ theo quy tắc ngôn ngữ.

Normalization for security: canonicalization để tránh spoofing, homograph attacks.

4. Tìm kiếm và khớp mẫu nâng cao

Regex (biểu thức chính quy): tìm, kiểm tra, thay thế theo mẫu phức tạp.

Fuzzy search / approximate matching: Levenshtein, Damerau-Levenshtein, n-gram để tìm gần đúng.

Phonetic matching: Soundex, Metaphone cho tìm kiếm theo phát âm.

Full-text indexing / inverted index: lập chỉ mục để tìm kiếm nhanh trên lượng lớn văn bản.

Stemming / Lemmatization: rút gọn từ về gốc để tìm kiếm ngôn ngữ tự nhiên.

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao

Tokenization: tách câu/ từ/ ký hiệu.

POS tagging / Named Entity Recognition: gán nhãn từ loại, nhận diện thực thể.

Language detection: xác định ngôn ngữ của đoạn văn.

Sentiment analysis / classification: phân loại cảm xúc hoặc chủ đề.

Embedding / vectorization: chuyển văn bản thành vector cho ML.

6. Mã hóa, chuyển đổi và I/O

Encode / Decode: UTF-8, UTF-16, ASCII, Base64.

Escape / Unescape: xử lý ký tự đặc biệt trong HTML, JSON, SQL, URL.

Normalization for storage: chuẩn hóa trước khi lưu vào DB hoặc file.

Streaming / chunking: xử lý chuỗi lớn theo khối để tiết kiệm bộ nhớ.

7. Bảo mật, kiểm tra và tối ưu

Validation / Sanitization: kiểm tra định dạng, loại bỏ ký tự nguy hiểm.

Canonicalization: chuẩn hóa để so sánh an toàn (ví dụ tên file, URL).

Hashing / Signing / Encryption: bảo vệ nội dung hoặc kiểm tra tính toàn vẹn.

Rate / performance considerations: tối ưu regex, tránh thao tác O(n²) trên chuỗi lớn.

8. So sánh, đo lường và khác

So sánh ordinal vs linguistic: so sánh theo mã điểm hay theo quy tắc ngôn ngữ.

Similarity metrics: cosine similarity, Jaccard, n-gram overlap.

Diff / patch: tìm khác biệt giữa hai chuỗi và tạo bản vá.

Compression: nén chuỗi để tiết kiệm băng thông hoặc lưu trữ.

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ
Giới thiệu ngắn gọn
Trong môi trường số hóa và kết nối toàn cầu, kỹ thuật xử lý ký tự đóng vai trò then chốt để dữ liệu văn bản được lưu trữ, so sánh và hiển thị chính xác. Hai khái niệm thường xuyên xuất hiện là bộ ký tự (character set) và đối chiếu (collation) — chúng quyết định cách ký tự được mã hóa và cách chuỗi ký tự được so sánh, sắp xếp trong hệ thống máy tính và cơ sở dữ liệu.

Đối chiếu Unicode là gì
Đối chiếu Unicode (Unicode collation / normalization) là tập hợp các quy tắc để chuẩn hóa và so sánh các chuỗi ký tự. Vì cùng một ký tự có thể có nhiều biểu diễn khác nhau trong Unicode (ví dụ ký tự có dấu có thể là một mã điểm duy nhất hoặc là tổ hợp ký tự cơ sở + dấu), nên khi so sánh hay tìm kiếm, ta cần đưa các biểu diễn này về một dạng thống nhất để tránh sai lệch. Trong bối cảnh cơ sở dữ liệu và hệ thống lưu trữ, khái niệm đối chiếu còn bao gồm cách sắp xếp (sort order) và quy tắc phân biệt hoa thường, dấu, ngôn ngữ cụ thể….

Tại sao cần đối chiếu Unicode

Đảm bảo so sánh chính xác: Nếu không chuẩn hóa, hai chuỗi trông giống nhau có thể bị coi là khác nhau bởi hệ thống, dẫn đến lỗi khi tìm kiếm, lọc, hoặc kiểm tra trùng lặp.

Tương thích giữa nền tảng: Các hệ điều hành, trình duyệt, cơ sở dữ liệu có thể lưu ký tự theo cách khác nhau; đối chiếu giúp đồng bộ hóa khi trao đổi dữ liệu.

Hỗ trợ tìm kiếm và sắp xếp đa ngôn ngữ: Quy tắc đối chiếu cho phép tìm kiếm “không phân biệt dấu” hoặc “không phân biệt hoa thường” tùy nhu cầu, đồng thời tôn trọng thứ tự chữ cái của từng ngôn ngữ.

Giảm rủi ro bảo mật: Một số tấn công lợi dụng biểu diễn ký tự khác nhau để giả mạo tên miền hoặc tệp; chuẩn hóa giảm thiểu rủi ro này.

Ứng dụng thực tế của đối chiếu Unicode

Cơ sở dữ liệu: Khi lưu trữ tên, địa chỉ, nội dung đa ngôn ngữ, ta chọn bộ ký tự (ví dụ UTF-8/utf8mb4) và đối chiếu phù hợp để đảm bảo tìm kiếm và so sánh chính xác; các hệ quản trị như MySQL/MariaDB có nhiều tùy chọn collation khác nhau ảnh hưởng đến hiệu suất và kết quả tìm kiếm.

Công cụ tìm kiếm và chỉ mục: Trước khi lập chỉ mục, văn bản thường được chuẩn hóa để các truy vấn trả về kết quả nhất quán.

Xử lý ngôn ngữ tự nhiên (NLP): Tiền xử lý văn bản (tokenization, stemming) yêu cầu dữ liệu ở dạng chuẩn để mô hình hoạt động ổn định.

Giao diện người dùng và hiển thị: Chuẩn hóa giúp tránh lỗi hiển thị, ký tự lạ hoặc mất dấu khi chuyển giữa hệ thống khác nhau.

Ứng dụng trong lập trình — cách thực hiện
Lập trình viên thường chuẩn hóa chuỗi trước khi lưu hoặc so sánh. Hầu hết ngôn ngữ hiện đại có thư viện hỗ trợ:

Ví dụ Python

Python:

import unicodedata s = "e\u0301" # e + dấu sắc normalized = unicodedata.normalize("NFC", s)

Ví dụ JavaScript

JavaScript:

const s = "e\u0301"; const normalized = s.normalize("NFC");

Các dạng chuẩn hóa phổ biến

NFC (Normalization Form C): Kết hợp ký tự cơ sở và dấu thành một mã điểm nếu có thể.

NFD (Normalization Form D): Tách ký tự thành cơ sở + dấu.

NFKC / NFKD: Phiên bản “compatibility” loại bỏ khác biệt hình thức (ví dụ chữ số thượng/phụ, ký tự tương đương về hình thức).

Trong cơ sở dữ liệu, ngoài việc chọn character set (ví dụ UTF-8/utf8mb4), ta còn chọn collation (ví dụ utf8mb4_unicode_ci hay utf8mb4_general_ci) để quyết định cách so sánh và sắp xếp chuỗi; mỗi lựa chọn có ảnh hưởng đến tính chính xác và hiệu suất truy vấn.

Tác dụng đối với đa ngôn ngữ

Hỗ trợ mọi bảng chữ cái: Unicode cung cấp mã cho hầu hết ký tự trên thế giới, cho phép lưu trữ đa ngôn ngữ trong cùng một hệ thống; đối chiếu đảm bảo các ngôn ngữ đó được so sánh theo quy tắc phù hợp.

Tôn trọng quy tắc ngôn ngữ: Một số ngôn ngữ có quy tắc sắp xếp đặc thù (ví dụ chữ đệm, chữ ghép); collation chuyên biệt cho phép xử lý đúng các quy tắc này.

Trải nghiệm người dùng nhất quán: Người dùng ở các vùng khác nhau sẽ thấy kết quả tìm kiếm, sắp xếp và hiển thị văn bản đúng với ngôn ngữ của họ, tránh lỗi mất dấu hoặc ký tự lạ.

Tương thích quốc tế hóa (i18n): Khi xây dựng ứng dụng đa ngôn ngữ, chuẩn hóa Unicode là bước bắt buộc để đảm bảo dữ liệu không bị phân mảnh theo biểu diễn ký tự.

Lời khuyên thực tiễn (tóm tắt)

Luôn dùng Unicode (UTF-8/utf8mb4) cho hệ thống lưu trữ và truyền tải văn bản để hỗ trợ đa ngôn ngữ và emoji.

Chuẩn hóa chuỗi (NFC) trước khi lưu và trước khi so sánh để tránh sai lệch do biểu diễn tổ hợp.

Chọn collation phù hợp với ngôn ngữ chính của ứng dụng; cân nhắc giữa độ chính xác ngôn ngữ và hiệu suất (một số collation chậm hơn nhưng chính xác hơn).

Kiểm tra hiển thị trên nhiều nền tảng (Windows, macOS, Linux, trình duyệt di động) để phát hiện lỗi ký tự sớm.

Dưới Windows, API NLS (National Language Support) cung cấp các hàm mạnh để so sánh, chuẩn hóa, ánh xạ và sắp xếp chuỗi Unicode (ví dụ CompareStringEx, LCMapStringEx, NormalizeString, FoldString). Những hàm này là công cụ nền tảng khi bạn cần xử lý đối chiếu Unicode chính xác trong ứng dụng VBA 64‑bit. Để khai thác chúng an toàn trong VBA 64‑bit, cần dùng PtrSafe và LongPtr/StrPtr khi khai báo và truyền chuỗi.

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode

Hàm Mục đích chính Hỗ trợ Unicode Khi nào dùng Độ phức tạp
CompareStringEx So sánh chuỗi theo ngôn ngữ/locale với nhiều tùy chọn Có So sánh ngôn ngữ học (linguistic) chính xác Trung bình → cao
LCMapStringEx Ánh xạ chuỗi (ví dụ chuyển hoa/thường, chuẩn hóa sắp xếp) Có Chuẩn hóa trước khi so sánh, chuyển case theo locale Trung bình
NormalizeString Chuẩn hóa biểu diễn Unicode (NFC/NFD/NFKC/NFKD) Có Chuẩn hóa biểu diễn tổ hợp trước lưu/so sánh Thấp → trung bình
FoldString Loại bỏ/chuẩn hóa các khác biệt hình thức (folding) Có Loại bỏ dấu, folding ký tự để tìm kiếm không phân biệt Trung bình
CompareStringOrdinal So sánh theo mã điểm (ordinal) Có So sánh nhanh, không theo ngôn ngữ (binary/ordinal) Thấp

Khai báo API cho VBA 64‑bit và ví dụ sử dụng

1. CompareStringEx (so sánh ngôn ngữ học)

JavaScript:

'' Constants Public Const CSTR_LESS_THAN As Long = 1 Public Const CSTR_EQUAL As Long = 2 Public Const CSTR_GREATER_THAN As Long = 3 '' Declaration (kernel32) Declare PtrSafe Function CompareStringEx Lib "kernel32" _ (ByVal lpLocaleName As LongPtr, ByVal dwCmpFlags As Long, _ ByVal lpString1 As LongPtr, ByVal cchCount1 As Long, _ ByVal lpString2 As LongPtr, ByVal cchCount2 As Long, _ ByVal lpVersionInformation As LongPtr, ByVal lParam As LongPtr, _ ByVal lpReserved As LongPtr) As Long

Ví dụ wrapper

JavaScript:

Public Function CompareUnicodeStrings(localeNamePtr As LongPtr, s1 As String, s2 As String) As Long Dim p1 As LongPtr, p2 As LongPtr p1 = StrPtr(s1) p2 = StrPtr(s2) CompareUnicodeStrings = CompareStringEx(localeNamePtr, 0, p1, Len(s1), p2, Len(s2), 0, 0, 0) End Function

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)

JavaScript:

'' Flags examples Public Const LCMAP_LOWERCASE As Long = &H100000 Public Const LCMAP_UPPERCASE As Long = &H200000 Public Const LCMAP_SORTKEY As Long = &H4000 Declare PtrSafe Function LCMapStringEx Lib "kernel32" _ (ByVal lpLocaleName As LongPtr, ByVal dwMapFlags As Long, _ ByVal lpSrcStr As LongPtr, ByVal cchSrc As Long, _ ByVal lpDestStr As LongPtr, ByVal cchDest As Long, _ ByVal lpVersionInformation As LongPtr, ByVal lParam As LongPtr, _ ByVal lpReserved As LongPtr) As Long

Ví dụ chuyển về lowercase theo locale

JavaScript:

Public Function ToLowerLocale(localeNamePtr As LongPtr, s As String) As String Dim needed As Long Dim buf() As Byte needed = LCMapStringEx(localeNamePtr, LCMAP_LOWERCASE, StrPtr(s), Len(s), 0, 0, 0, 0, 0) If needed > 0 Then ReDim buf(0 To needed * 2 - 1) '' UTF-16 bytes LCMapStringEx localeNamePtr, LCMAP_LOWERCASE, StrPtr(s), Len(s), VarPtr(buf(0)), needed, 0, 0, 0 ToLowerLocale = StrConv(buf, vbUnicode) End If End Function

3. NormalizeString (chuẩn hóa Unicode)

JavaScript:

'' Normalization forms Public Const NORMALIZATION_FORM_C As Long = 0 Public Const NORMALIZATION_FORM_D As Long = 1 Public Const NORMALIZATION_FORM_KC As Long = 2 Public Const NORMALIZATION_FORM_KD As Long = 3 Declare PtrSafe Function NormalizeString Lib "Normaliz" _ (ByVal NormForm As Long, ByVal lpSrcString As LongPtr, ByVal cwSrcLength As Long, _ ByVal lpDstString As LongPtr, ByVal cwDstLength As Long) As Long

Ví dụ chuẩn hóa sang NFC

JavaScript:

Public Function NormalizeToNFC(s As String) As String Dim needed As Long Dim buf() As Byte needed = NormalizeString(NORMALIZATION_FORM_C, StrPtr(s), Len(s), 0, 0) If needed > 0 Then ReDim buf(0 To needed * 2 - 1) NormalizeString NORMALIZATION_FORM_C, StrPtr(s), Len(s), VarPtr(buf(0)), needed NormalizeToNFC = StrConv(buf, vbUnicode) End If End Function

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)

JavaScript:

'' FoldString flags examples Public Const MAP_FOLDDIACRITICS As Long = &H2000000 Declare PtrSafe Function FoldStringW Lib "kernel32" Alias "FoldStringW" _ (ByVal dwMapFlags As Long, ByVal lpSrcStr As LongPtr, ByVal cchSrc As Long, _ ByVal lpDestStr As LongPtr, ByVal cchDest As Long) As Long

Ví dụ loại bỏ dấu để tìm kiếm không phân biệt dấu

JavaScript:

Public Function RemoveDiacritics(s As String) As String Dim needed As Long Dim buf() As Byte needed = FoldStringW(MAP_FOLDDIACRITICS, StrPtr(s), Len(s), 0, 0) If needed > 0 Then ReDim buf(0 To needed * 2 - 1) FoldStringW MAP_FOLDDIACRITICS, StrPtr(s), Len(s), VarPtr(buf(0)), needed RemoveDiacritics = StrConv(buf, vbUnicode) End If End Function

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)

JavaScript:

Declare PtrSafe Function CompareStringOrdinal Lib "kernel32" _ (ByVal lpString1 As LongPtr, ByVal cchCount1 As Long, _ ByVal lpString2 As LongPtr, ByVal cchCount2 As Long, _ ByVal bIgnoreCase As Long) As Long

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit

Luôn chuẩn hóa trước khi so sánh: dùng NormalizeString (NFC) để tránh khác biệt biểu diễn (composed vs decomposed).

Chọn kiểu so sánh phù hợp: dùng CompareStringEx cho so sánh theo locale; dùng CompareStringOrdinal cho so sánh nhanh, không theo ngôn ngữ.

Truyền chuỗi đúng cách: dùng StrPtr để lấy con trỏ UTF‑16; khi API trả về chuỗi, chuyển mảng Byte sang String bằng StrConv(..., vbUnicode).

Xử lý buffer: nhiều hàm trả về kích thước cần thiết; gọi lần 1 để lấy kích thước, cấp bộ nhớ, rồi gọi lần 2 để lấy dữ liệu.

Locale: CompareStringEx và LCMapStringEx chấp nhận lpLocaleName (pointer tới tên locale) hoặc LOCALE_NAME_INVARIANT/LOCALE_NAME_USER_DEFAULT tùy mục đích; bạn có thể truyền 0 để dùng mặc định hệ thống trong một số trường hợp nhưng tốt nhất là truyền tên locale rõ ràng khi cần kết quả ngôn ngữ học chính xác.

Quyền truy cập DLL: NormalizeString nằm trong Normaliz.dll (một phần của Windows); các hàm so sánh/ánh xạ thường nằm trong kernel32/kernelbase tùy phiên bản Windows.

Thử nghiệm trên môi trường 64‑bit: kiểm tra kỹ trên Office 64‑bit vì khác biệt kiểu dữ liệu pointer có thể gây crash nếu khai báo sai.

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode:

UTS #10 — Unicode Collation Algorithm (UCA) — tài liệu kỹ thuật chính thức mô tả cách so sánh chuỗi Unicode và bảng DUCET (Default Unicode Collation Element Table) dùng làm cơ sở cho việc sắp xếp theo Unicode.https://www.unicode.org/reports/tr10/ .

CLDR — Collation Guidelines (Common Locale Data Repository) — hướng dẫn và quy tắc tùy chỉnh thứ tự sắp xếp theo locale; nơi quản lý các quy tắc collation theo ngôn ngữ/địa phương, rất hữu ích khi bạn cần tailor collation cho từng ngôn ngữ cụ thể.https://cldr.unicode.org/index/cldr-spec/collation-guidelines .

UAX #15 — Unicode Normalization Forms — mô tả các dạng chuẩn hóa (NFC, NFD, NFKC, NFKD) để đảm bảo các chuỗi tương đương có biểu diễn nhị phân duy nhất; quan trọng khi chuẩn hóa trước so sánh hoặc lưu trữ.https://www.unicode.org/reports/tr15/ .

Microsoft Learn — Using Unicode Normalization to Represent Strings — hướng dẫn thực hành trên nền Windows/Win32 về khi nào và cách dùng normalization trong ứng dụng Windows, hữu ích nếu bạn triển khai trên nền tảng Microsoft.https://learn.microsoft.com/en-us/windows/win32/intl/using-unicode-normalization-to-represent-strings .

em muốn liên hệ với anh. anh có thể inbox cho em được không ạ. mail em: jonythanht11@gmail.com

HeSanbi · 19/12/25

Hàm CompareUnicodeStrings sau là một ví dụ điển hình trong việc so sánh ký tự tiếng Việt như: Â, Ă, Đ, ...
API CompareStringEx là hàm đối chiếu Unicode Quốc tế hóa, có nghĩa là chúng ta không cần viết lại thứ tự ký tự để sắp xếp tiếng Việt hoặc với các ngôn ngữ khác trên thế giới. Chỉ cần vận dụng hàm có sẵn này Windows đã hỗ trợ để so sánh và sắp xếp chuỗi đa ngôn ngữ.

JavaScript:

Option Explicit

' --- API declarations (VBA7 / 64-bit safe) ---
#If VBA7 Then
    Private Declare PtrSafe Function CompareStringEx Lib "kernel32" ( _
        ByVal lpLocaleName As LongPtr, _
        ByVal dwCmpFlags As Long, _
        ByVal lpString1 As LongPtr, _
        ByVal cchCount1 As Long, _
        ByVal lpString2 As LongPtr, _
        ByVal cchCount2 As Long, _
        ByVal lpVersionInformation As LongPtr, _
        ByVal lpReserved As LongPtr, _
        ByVal lParam As LongPtr) As Long

    Private Declare PtrSafe Function GetLastError Lib "kernel32" () As Long
#Else
    Private Declare Function CompareStringEx Lib "kernel32" ( _
        ByVal lpLocaleName As Long, _
        ByVal dwCmpFlags As Long, _
        ByVal lpString1 As Long, _
        ByVal cchCount1 As Long, _
        ByVal lpString2 As Long, _
        ByVal cchCount2 As Long, _
        ByVal lpVersionInformation As Long, _
        ByVal lpReserved As Long, _
        ByVal lParam As Long) As Long

    Private Declare Function GetLastError Lib "kernel32" () As Long
#End If

' --- Return codes from CompareStringEx ---
Public Const CSTR_LESS_THAN    As Long = 1
Public Const CSTR_EQUAL        As Long = 2
Public Const CSTR_GREATER_THAN As Long = 3

' --- Common flags (có thể kết hợp bằng OR) ---
Public Const NORM_IGNORECASE       As Long = &H1
Public Const NORM_IGNORENONSPACE   As Long = &H2
Public Const NORM_IGNORESYMBOLS    As Long = &H4
Public Const SORT_STRINGSORT       As Long = &H1000

' --- Wrapper: trả về -1,0,1 ---
Public Function CompareUnicodeStrings( _
    ByVal s1 As String, _
    ByVal s2 As String, _
    Optional ByVal localeName As String = vbNullString, _
    Optional ByVal flags As Long = 0) As Long

    Dim lpLocale As LongPtr
    Dim res As Long

    ' Nếu không truyền localeName thì dùng thread/system default (pass NULL)
    If Len(localeName) = 0 Then
        lpLocale = 0
    Else
        lpLocale = StrPtr(localeName)    ' truyền pointer tới Unicode locale name (ví dụ "vi-VN")
    End If

    ' Gọi API: truyền pointer tới chuỗi Unicode bằng StrPtr, và độ dài bằng Len (số ký tự)
    res = CompareStringEx(lpLocale, flags, StrPtr(s1), Len(s1), StrPtr(s2), Len(s2), 0, 0, 0)
    If res = 0 Then
        ' Lấy mã lỗi Windows và ném lỗi VBA
        Err.Raise vbObjectError + 513, "CompareUnicodeStrings", "CompareStringEx failed. GetLastError=" & GetLastError()
    End If
    CompareUnicodeStrings = res - 2
End Function

' --- Ví dụ sử dụng ---
Sub TestCompareUnicode()
    Dim r As Long

    ' So sánh theo locale Việt Nam, bỏ qua hoa thường
    r = CompareUnicodeStrings("điện", "Dien", "vi-VN", NORM_IGNORECASE)
    Select Case r
        Case -1: Debug.Print "s1 < s2"
        Case 0:  Debug.Print "s1 = s2"
        Case 1:  Debug.Print "s1 > s2"
    End Select

    ' So sánh mặc định (system locale), phân biệt hoa thường
    Debug.Print CompareUnicodeStrings("a", "A")    ' thường sẽ khác nếu không dùng NORM_IGNORECASE
End Sub

Thuật ngữ "Đối chiếu Unicode" quan trọng trong việc xử lý chuỗi ký tự (1 người xem)

Người dùng đang xem chủ đề này

HeSanbi

Nam Nhân✨Hiếu Lễ Nghĩa Trí Tín✨

Các thao tác xử lý chuỗi:​

1. Thao tác cơ bản​

2. Biến đổi ký tự​

3. Xử lý Unicode và ngôn ngữ​

4. Tìm kiếm và khớp mẫu nâng cao​

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao​

6. Mã hóa, chuyển đổi và I/O​

7. Bảo mật, kiểm tra và tối ưu​

8. So sánh, đo lường và khác​

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ​

Giới thiệu ngắn gọn​

Đối chiếu Unicode là gì​

Tại sao cần đối chiếu Unicode​

Ứng dụng thực tế của đối chiếu Unicode​

Ứng dụng trong lập trình — cách thực hiện​

Tác dụng đối với đa ngôn ngữ​

Lời khuyên thực tiễn (tóm tắt)​

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode​

​

Khai báo API cho VBA 64‑bit và ví dụ sử dụng​

​

1. CompareStringEx (so sánh ngôn ngữ học)​

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)​

3. NormalizeString (chuẩn hóa Unicode)​

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)​

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)​

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit​

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu​

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode:​

jonythanht

Thành viên mới

Các thao tác xử lý chuỗi:​

1. Thao tác cơ bản​

2. Biến đổi ký tự​

3. Xử lý Unicode và ngôn ngữ​

4. Tìm kiếm và khớp mẫu nâng cao​

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao​

6. Mã hóa, chuyển đổi và I/O​

7. Bảo mật, kiểm tra và tối ưu​

8. So sánh, đo lường và khác​

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ​

Giới thiệu ngắn gọn​

Đối chiếu Unicode là gì​

Tại sao cần đối chiếu Unicode​

Ứng dụng thực tế của đối chiếu Unicode​

Ứng dụng trong lập trình — cách thực hiện​

Tác dụng đối với đa ngôn ngữ​

Lời khuyên thực tiễn (tóm tắt)​

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode​

​

Khai báo API cho VBA 64‑bit và ví dụ sử dụng​

​

1. CompareStringEx (so sánh ngôn ngữ học)​

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)​

3. NormalizeString (chuẩn hóa Unicode)​

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)​

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)​

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit​

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu​

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode:​

HeSanbi

Nam Nhân✨Hiếu Lễ Nghĩa Trí Tín✨

Bài viết mới nhất

Thành viên có số lượng bài viết cao nhất tháng

Thành viên có điểm tương tác cao nhất tháng

Thời gian đếm ngược.

Các thao tác xử lý chuỗi:

1. Thao tác cơ bản

2. Biến đổi ký tự

3. Xử lý Unicode và ngôn ngữ

4. Tìm kiếm và khớp mẫu nâng cao

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao

6. Mã hóa, chuyển đổi và I/O

7. Bảo mật, kiểm tra và tối ưu

8. So sánh, đo lường và khác

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ

Giới thiệu ngắn gọn

Đối chiếu Unicode là gì

Tại sao cần đối chiếu Unicode

Ứng dụng thực tế của đối chiếu Unicode

Ứng dụng trong lập trình — cách thực hiện

Tác dụng đối với đa ngôn ngữ

Lời khuyên thực tiễn (tóm tắt)

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode

Khai báo API cho VBA 64‑bit và ví dụ sử dụng

1. CompareStringEx (so sánh ngôn ngữ học)

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)

3. NormalizeString (chuẩn hóa Unicode)

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode:

Các thao tác xử lý chuỗi:

1. Thao tác cơ bản

2. Biến đổi ký tự

3. Xử lý Unicode và ngôn ngữ

4. Tìm kiếm và khớp mẫu nâng cao

5. Phân tích ngôn ngữ tự nhiên và xử lý nâng cao

6. Mã hóa, chuyển đổi và I/O

7. Bảo mật, kiểm tra và tối ưu

8. So sánh, đo lường và khác

Đối chiếu Unicode là gì, vì sao cần, ứng dụng và vai trò trong lập trình đa ngôn ngữ

Giới thiệu ngắn gọn

Đối chiếu Unicode là gì

Tại sao cần đối chiếu Unicode

Ứng dụng thực tế của đối chiếu Unicode

Ứng dụng trong lập trình — cách thực hiện

Tác dụng đối với đa ngôn ngữ

Lời khuyên thực tiễn (tóm tắt)

Bảng so sánh nhanh các hàm Win32 hữu ích cho đối chiếu Unicode

Khai báo API cho VBA 64‑bit và ví dụ sử dụng

1. CompareStringEx (so sánh ngôn ngữ học)

2. LCMapStringEx (ánh xạ theo locale: chuyển hoa/thường, chuẩn hóa)

3. NormalizeString (chuẩn hóa Unicode)

4. FoldString (loại bỏ khác biệt hình thức, useful cho tìm kiếm)

5. CompareStringOrdinal (so sánh theo mã điểm, nhanh)

Lưu ý thực hành và mẹo khi dùng trong VBA 64‑bit

Các trang web chuẩn hóa về đối chiếu Unicode toàn cầu

Dưới đây là các nguồn chính thức và đáng tin cậy nhất về đối chiếu (collation) và chuẩn hóa Unicode: