app
Thành viên hoạt động



- Tham gia
- 1/5/11
- Bài viết
- 114
- Được thích
- 144
- Nghề nghiệp
- Thợ đụng
Chắc nhiều người mới đọc tiêu đề sẽ nghĩ ngay “Ái chà chắc lại con ma đề nào đây. Nó lên đây định xin số GPE đây mà.”. Thực sự thì không phải vậy.
Giấc mơ số của tôi là mọi thông tin trên giấy tờ của tôi sẽ được số hóa và lưu lên máy tính để dù ở đâu, chỉ cần tay không mọi công việc thủ tục của tôi đều được xác nhận và giải quyết triệt để.
Thật ra giấc mơ đó đang được các bác lãnh đạo vô cùng trăn trở. Đã có khá nhiều công trình nghiên cứu chỉ ra ích lợi của việc “Số hóa” này.
Có thể kê ra hàng loạt nguyên do và nguyên do nào cũng đáng để là… nguyên do cả.
Quả thật nhiều nước phát triển đã đưa tất cả thông tin công dân vào máy tính và tới giờ thi họ chỉ thi thoảng phải nhập thông tin cho mấy baby mới ra đời. Với 90 triệu dân Việt Nam thì giả sử thông tin mỗi anh khoảng 2 tờ A4 thì cũng phải nhập tới 180 triệu trang. Thật là một khối lượng công việc không tưởng.
Tuy nhiên tôi được biết anh Google thực hiện dự án “Thư viện số” mới vài năm. Và trong chỉ trong một thời gian ngắn hàng triệu đầu sách, tạp chí, ấn phẩm mỗi cái có từ vài chục tới vài ngàn trang được số hóa. Trừ một phần số sách được xuất bản gần đây là có sẵn ấn bản điện tử còn lại số lượng rất lớn tài liệu được số hóa từ dạng giấy in. Vậy phải chăng chỉ trong một thời gian ngắn họ gõ tất tần tật từng ấy sách vào máy tính? Chắc không ai trả lương vài ngàn đô một anh nhân viên để mỗi giờ nhập được 4-5 trang không thì Google phá sản lâu rồi.
Vậy nguyên do thực sự tại số hóa bên mình khó hơn số hóa bên Tây thế nhỉ?
Mấy tháng trước tôi có một trải nghiệm rất thú vị khi tìm hiểu về công nghệ nhận dạng chữ viết OCR.
Tôi moi ra anh Office 2003 có từ 10 năm trước cái chương trình nhận dạng văn bản của ảnh (Microsoft Office Document Imaging).
Tôi có thử một số file nội dung tiếng Anh có kèm ảnh, hoặc có màu nền dưới chữ. Kết quả cũng rất khả quan với phần nội dung chữ. Thế thì giờ tôi đã hiểu tại sao Google gõ chữ lẹ thế.
Nói về công nghệ số hóa thật ra không có gì lạ. Đơn giản là họ dùng một cỗ máy quét hao hao máy Photocopy (nhiều máy Photocopy thật ra cũng là máy quét tài liệu). Hàng vạn trang tài liệu có thể được sử lý nhanh chóng trong vài giờ. Các tài liệu này thực ra vẫn đang ở dạng hình ảnh. Một lần nữa chương trình OCR làm công việc của mình là chuyển đổi hình ảnh thành file văn bản.
Trở về khoảng 10 năm trước, nhận dạng chữ là một trong những vấn đề công nghệ khá nóng đối CNTT Việt Nam có khả nhiều hội thảo các trường Đại học. Một số bạn sinh viên còn lấy đề tài về nhận dạng biển số xe làm báo cáo. Thậm chí hãng HP có mua bản quyền phần mềm nhận dạng chữ in của một viện nghiên cứu Việt Nam bán kèm theo máy Scanner tại thị trường Việt. Nghĩa là ít nhiều chúng ta đã tiếp cận công nghệ nhận dạng chữ Việt từ khá lâu nhưng không hiểu vì sao tới giờ này thì người ta vẫn bỏ ra gần 10k đồng +20p chờ đợi để đánh lại y trang 1 cái đơn trong khi cái máy Scanner trình ình kế bên, ối anh chị vẫn lên đây hỏi em có file hình này làm sao chuyển về chữ…
Tôi hoàn toàn chưa bao giờ viết ra một chương trình OCR nên cũng không rõ thế nào?
Vậy tại sao chữ mình cũng mang tiếng nguồn gốc Latinh mà sao chúng ta lại không thể viết ra một cái phần mềm nhận dạng chữ viết nhỉ? Thôi câu hỏi này xin dành cho mấy anh chị cao thủ lập trình quanh đây. Còn bản thân mình thì cũng đành bất lực với hiện tại.
Tuy giấc mơ vẫn là giấc mơ nhưng nếu nhìn lại thì cũng có khá nhiều điều tích cực phát sinh từ giấc mơ không thành ấy chứ.
- Tôi có một giấc mơ rằng một ngày nào đó chỉ cần đọc số ID cá nhân hoặc quen thuộc hơn là chìa cái thẻ ID cá nhân (giống cái thẻ CMND ấy) của mình thì dù là ở cơ quan địa chính, ngân hàng, bệnh viện… người ta sẽ dễ dàng truy ra các thông tin có liên quan tới tôi mà không phải yêu cầu tôi phải mang CMND, sổ hộ khẩu, sổ sức khỏe, sổ hồng, sổ… cùng hàng loạt thứ giấy tờ xác nhận, xác minh, photo công chứng… để bảo đảm cái người đang xin làm thủ tục là …tôi chứ không phải là người nào khác.
- Tôi có một giấc mơ rằng ngày nào đó mẹ tôi sẽ chẳng phải luôn nhắc tôi: “Mày đem xác nhận cái bằng PTTH, CMND, học bạ… xong thì nhớ mang liền vế nhà nhá con. Kẻo mất hay bị giật đồ thì phiền lắm con ah!”.
- Tôi có một giấc mơ rằng cái tủ gỗ ở nhà cất hằng đống giấy tờ quan trọng như bằng cấp, giấy khai sinh, học bạ… không bị mấy chú mối, chuột, gián đói khát đem ra chén.
Giấc mơ số của tôi là mọi thông tin trên giấy tờ của tôi sẽ được số hóa và lưu lên máy tính để dù ở đâu, chỉ cần tay không mọi công việc thủ tục của tôi đều được xác nhận và giải quyết triệt để.
Thật ra giấc mơ đó đang được các bác lãnh đạo vô cùng trăn trở. Đã có khá nhiều công trình nghiên cứu chỉ ra ích lợi của việc “Số hóa” này.
1600 tỷ đồng cơ à? Thật là một số tiền đáng thèm thuồng nhưng sao để nuốt… trôi sao mà khó quá trong khi có một mình anh giám đốc nào đó bỏ túi 300 tỷ chỉ bằng 1 cái chữ ký. Vì sao thế?Quản lý công dân bằng dữ liệu sẽ giảm tối thiểu các loại giấy tờ như khai sinh, sổ hộ khẩu… Mỗi người có số định danh, khi đi làm thủ tục hành chính không phải kê khai, nộp các bản sao, ước tính tiết kiệm 1.600 tỷ đồng/năm.
Có thể kê ra hàng loạt nguyên do và nguyên do nào cũng đáng để là… nguyên do cả.
- Kinh phí trang thiết bị không có? Ái chà đầu tư vài trăm tỷ để thu lời 1600 tỷ mà còn chê đây mà. Căn bản là máy tính, máy sao chụp đã trang bị đầy ra đấy sao anh lý sự không có?
- Thiếu nhân lực? Không hiểu thiếu nhân sự thế nào chứ cái cảnh mấy anh chị viên chức ngáp ngắn dài, bấm line nhan nhản khắp các cơ quan ấy chứ.
- Thiếu nhân tài? Mỗi năm riêng về ngành CNTT hoặc liên quan công nghệ thông tin (Toán tin, điện tử…) chỉ với trình độ đại học thôi nhẩm ra cũng phải 5 ngàn cử nhân, kỹ sư ra trường.
- À thì người ta đi trước mấy chục năm,
- à thì dữ liệu họ nhập từ xưa tới h vô máy tính cả rồi.
À thì… đều có nguyên do cả.
Quả thật nhiều nước phát triển đã đưa tất cả thông tin công dân vào máy tính và tới giờ thi họ chỉ thi thoảng phải nhập thông tin cho mấy baby mới ra đời. Với 90 triệu dân Việt Nam thì giả sử thông tin mỗi anh khoảng 2 tờ A4 thì cũng phải nhập tới 180 triệu trang. Thật là một khối lượng công việc không tưởng.
Tuy nhiên tôi được biết anh Google thực hiện dự án “Thư viện số” mới vài năm. Và trong chỉ trong một thời gian ngắn hàng triệu đầu sách, tạp chí, ấn phẩm mỗi cái có từ vài chục tới vài ngàn trang được số hóa. Trừ một phần số sách được xuất bản gần đây là có sẵn ấn bản điện tử còn lại số lượng rất lớn tài liệu được số hóa từ dạng giấy in. Vậy phải chăng chỉ trong một thời gian ngắn họ gõ tất tần tật từng ấy sách vào máy tính? Chắc không ai trả lương vài ngàn đô một anh nhân viên để mỗi giờ nhập được 4-5 trang không thì Google phá sản lâu rồi.
Vậy nguyên do thực sự tại số hóa bên mình khó hơn số hóa bên Tây thế nhỉ?
Mấy tháng trước tôi có một trải nghiệm rất thú vị khi tìm hiểu về công nghệ nhận dạng chữ viết OCR.
Tôi moi ra anh Office 2003 có từ 10 năm trước cái chương trình nhận dạng văn bản của ảnh (Microsoft Office Document Imaging).
- Để thử chương trình tôi tạo ra một file hình ảnh có nội dung chữ English rồi dùng cái chương ấy quét. Sau vài giây tôi nhận được file nội dung và khá ngạc nhiên là 100% nội dung được chuyển thành dạng văn bản chính xác.
- Để thử tài của anh OCR tôi quyết định chuyển file ảnh về độ phân giải thấp đến mức đường nét chữ bắt đầu vỡ ra thành từng ô vuông nhỏ đủ thấy bằng mắt thường… Kết quả vẫn 100% nội dung chính xác.
- Máu me ăn thua đủ tôi dùng Photoshop làm nhòe file ảnh đã vỡ chữ đấy đi và cũng không quên ác ý xoay ảnh cho xéo đi tý (giống photo lệch giấy). Kết quả thật đáng kinh ngạc nội dung vẫn khá ổn dù chỉ đạt độ chính xác ..99,9%. Thật sự là chỉ sai vài ký tự trong vài ngàn ký tự trong file ảnh.
Tôi có thử một số file nội dung tiếng Anh có kèm ảnh, hoặc có màu nền dưới chữ. Kết quả cũng rất khả quan với phần nội dung chữ. Thế thì giờ tôi đã hiểu tại sao Google gõ chữ lẹ thế.
- Tiếp tục thử nghiệm với một file ảnh nội dung tiếng Việt. Bắt đầu bằng một file hoàn toàn đúng chuẩn “Vở sạch chữ đẹp”. Kết quả rất bất ngờ…
- Tôi không chắc file đầu ra có phải là kết quả cái file ảnh tôi vừa thử nghiệm không. Ngoại chứ các phụ âm hoặc nguyên âm không dấu còn thì… hằm bà lằng ký tự chả biết từ đâu ra. Hiển nhiên là tôi không dám thử file ảnh tiếng Việt với độ thử thách hơn.
Nói về công nghệ số hóa thật ra không có gì lạ. Đơn giản là họ dùng một cỗ máy quét hao hao máy Photocopy (nhiều máy Photocopy thật ra cũng là máy quét tài liệu). Hàng vạn trang tài liệu có thể được sử lý nhanh chóng trong vài giờ. Các tài liệu này thực ra vẫn đang ở dạng hình ảnh. Một lần nữa chương trình OCR làm công việc của mình là chuyển đổi hình ảnh thành file văn bản.
Vậy tại sao OCR trên file ngoại lại cho kết quả tốt thế? Phải chắng OCR khoái chữ …ngoại?
Trở về khoảng 10 năm trước, nhận dạng chữ là một trong những vấn đề công nghệ khá nóng đối CNTT Việt Nam có khả nhiều hội thảo các trường Đại học. Một số bạn sinh viên còn lấy đề tài về nhận dạng biển số xe làm báo cáo. Thậm chí hãng HP có mua bản quyền phần mềm nhận dạng chữ in của một viện nghiên cứu Việt Nam bán kèm theo máy Scanner tại thị trường Việt. Nghĩa là ít nhiều chúng ta đã tiếp cận công nghệ nhận dạng chữ Việt từ khá lâu nhưng không hiểu vì sao tới giờ này thì người ta vẫn bỏ ra gần 10k đồng +20p chờ đợi để đánh lại y trang 1 cái đơn trong khi cái máy Scanner trình ình kế bên, ối anh chị vẫn lên đây hỏi em có file hình này làm sao chuyển về chữ…
Tôi hoàn toàn chưa bao giờ viết ra một chương trình OCR nên cũng không rõ thế nào?
Vậy tại sao chữ mình cũng mang tiếng nguồn gốc Latinh mà sao chúng ta lại không thể viết ra một cái phần mềm nhận dạng chữ viết nhỉ? Thôi câu hỏi này xin dành cho mấy anh chị cao thủ lập trình quanh đây. Còn bản thân mình thì cũng đành bất lực với hiện tại.
Tuy giấc mơ vẫn là giấc mơ nhưng nếu nhìn lại thì cũng có khá nhiều điều tích cực phát sinh từ giấc mơ không thành ấy chứ.
- Các anh kỹ thuật viên nạp mực, sửa máy in, máy photo tiếp tục có công ăn việc làm đều đều. Các anh chị văn phòng vẫn thi thoảng ngồi bấm lách cách cho khỏi nhàm chán.
- Các cửa hàng văn phòng phẩm vẫn có nguồn thu ổn định. Các nhà máy giấy vẫn nhả khói đều đều. Các anh thợ rừng vẫn hằng ngày lên rừng đốn gỗ. Các cô bác đồng nát vẫn kiếm thêm vài ba trăm từ mớ giấy thải văn phòng.
- Nhiều người luyện được đức kiên nhẫn cũng như sự dẻo dai sao bao nhiêu lần chầu trực, chạy giấy tờ tới lui.
- GPE vẫn nhộp nhịp các đề tài về chuyển đổi PDF về Word, hình ảnh về text… Và các anh tài lại có dịp thử thách với những vấn đề “biết rồi khổ lắm hỏi mãi”.
Lần chỉnh sửa cuối: