Hàm phân biệt ngôn ngữ trong Excel (4 người xem)

Liên hệ QC

Người dùng đang xem chủ đề này

mayaincaztec

Thành viên mới
Tham gia
4/11/13
Bài viết
4
Được thích
0
Chào mọi người,

Hiện tại mình đang tìm một hàm hoặc phương pháp có thể phát hiện ngôn ngữ. Mục tiêu của hàm này là tìm trong range D6:D17426 và trả về giá trị TRUE (hoặc 1) nếu là tiếng Việt, và giá trị FALSE (hoặc 0) nếu là ngôn ngữ khác.
Có bạn nào có gợi ý gì về việc này không? Cảm ơn mọi người đã đọc!
 
Chào mọi người,

Hiện tại mình đang tìm một hàm hoặc phương pháp có thể phát hiện ngôn ngữ. Mục tiêu của hàm này là tìm trong range D6:D17426 và trả về giá trị TRUE (hoặc 1) nếu là tiếng Việt, và giá trị FALSE (hoặc 0) nếu là ngôn ngữ khác.
Có bạn nào có gợi ý gì về việc này không? Cảm ơn mọi người đã đọc!

Đối với ngôn ngữ khác tiếng Việt và tiếng Anh thì tôi không biết thế nào (không có nghiên cứu). Riêng việc phân biệt giữa tiếng Việt và Anh là chuyện không thể nào. Với một từ tiếng Việt có dấu thì người ta có thể dựa vào dấu để nói rằng đó là tiếng Việt, nhưng với từ tiếng Việt không dấu (chăng hạn như ANH EM) thì dựa vào cái gì để nói rằng đó không phải tiếng Anh?
 
Không biết bạn muốn mức độ chính xác của hàm này tới mức nào? Chính xác 100% thì chắc không thể nhưng nhỏ hơn thì vẫn có khả năng. Ví dụ tính nặng "Detect language" xác định khá chính xác ngôn ngữ nhập vào.

Trước tiên bạn phải có dữ liệu so sánh, dữ liệu ở đây chính là bộ từ vựng tiếng Việt. Độ chính xác sẽ tăng cao nếu dữ liệu nhập càng nhiều từ và có độ chuẩn về chính tả, ngữ pháp cao.

Tôi xin đưa ra 1 ví dụ minh hoa: anh yêu em.
  1. Tìm từ anh trong từ điển có,
  2. tìm từ yêu trong từ điển cũng có,
  3. tìm từ em trong từ điển cũng có
Kết luận rằng cụm từ đó là ngôn ngữ tiếng Việt

Đây là 1 cách đơn giản nhất (trình độ tôi thì chỉ đến thế). Bạn có thể tự phát triển thuật toán nào đó phức tạp hơn (mấy cái này chak tôi xin thua trước) chẳng hạn như của .... Google tránlate . Và cũng chú ý rằng không thể chính xác 100% nhé. Tốc độ tra cứu cũng sẽ là 1 vấn đề hóc búa.
 
Lần chỉnh sửa cuối:
Nói thiệt, đọc bài viết trên diễn đàn mà tôi còn không biết người ta dùng tiếng Việt hay tiếng Anh nữa là xét bằng hàm.
Nhất là viết tắt thì chịu thua 100%

Ví dụ: từ vs -> nó là tiếng Việt hay tiếng Anh?
 
Nếu phân biệt trong 1 cell thì có thể nhầm lẫn vì tiếng Việt trong cell đó có thể không có dấu
Tuy nhiên trong 1 range đủ lớn thì khả năng chính xác gần như 100% là trong đó có ký tự chứa dấu, ví dụ "á", "à"
Mình đề xuất một cách: Tìm 2 ký tự có dấu thường xuất hiện nhất trong một câu của tiếng Việt, ví dụ như: "á", "à", nếu tìm thấy thì kết luận đó là tiếng Việt.

Mã:
=SUMPRODUCT(IFERROR(SEARCH("á",A1:A1000),0)+IFERROR(SEARCH("à",A1:A1000),0))>0

Kết thúc bằng Ctrl-shift-enter

Nếu là tiếng Pháp thì cách này dùng không được --=0
 
Mình đề xuất một cách: Tìm 2 ký tự có dấu thường xuất hiện nhất trong một câu của tiếng Việt, ví dụ như: "á", "à", nếu tìm thấy thì kết luận đó là tiếng Việt.

Ấy, đâu có được! Ai mà biết ngôn ngữ khác (tiếng Pháp chẳng hạn) có ký tự á, à hay không
 
Theo mình, bài này tìm theo cách xem dữ liệu đó có phải là từ của tiếng Việt hay không (vì có biết mấy ngôn ngữ khác ra sao đâu mà tìm. Híc)
Nếu trong một cell chứa nhiều từ thì kết quả khả quan hơn chứa 1 từ
Dĩ nhiên chỉ tương đối thôi chứ gặp cell có dữ liệu:
"ANH PHANG EM XONG EM PHANG ANH, EM PHANG ANH XONG TA PHANG NHAU"
thì chắc "tèo" quá
Phải chi có file dữ liệu của chủ topic làm cho đỡ buồn
 
Tiêu chí để biết đó là tiếng Việt, dù có dấu hay không: Tỉ lệ xử dụng kí tự/vần 'N' rất cao

Chắc do chế độ fong kiến cuối cùng là Nhà Nguyễn chăng?

Bạn đếm xem trong bài này của mình có bao nhiều từ không có chữ 'N'.
 
Đối với ngôn ngữ khác tiếng Việt và tiếng Anh thì tôi không biết thế nào (không có nghiên cứu). Riêng việc phân biệt giữa tiếng Việt và Anh là chuyện không thể nào. Với một từ tiếng Việt có dấu thì người ta có thể dựa vào dấu để nói rằng đó là tiếng Việt, nhưng với từ tiếng Việt không dấu (chăng hạn như ANH EM) thì dựa vào cái gì để nói rằng đó không phải tiếng Anh?
Thầy ơi làm sao biết chuỗi là có dấu hay không dấu Tiếng Việt, mong Thầy trả lời giúp em
 
Lần chỉnh sửa cuối:
Theo mình, bài này tìm theo cách xem dữ liệu đó có phải là từ của tiếng Việt hay không (vì có biết mấy ngôn ngữ khác ra sao đâu mà tìm. Híc)
Nếu trong một cell chứa nhiều từ thì kết quả khả quan hơn chứa 1 từ
Dĩ nhiên chỉ tương đối thôi chứ gặp cell có dữ liệu:
"ANH PHANG EM XONG EM PHANG ANH, EM PHANG ANH XONG TA PHANG NHAU"
thì chắc "tèo" quá
Phải chi có file dữ liệu của chủ topic làm cho đỡ buồn
Anh concogia, làm sao biết chuỗi là có dấu hay không dấu Tiếng Việt, anh trả lời giúp
 
Web KT

Bài viết mới nhất

Back
Top Bottom