Giấc mơ … số hóa (1 người xem)

app · 22/11/13

Chắc nhiều người mới đọc tiêu đề sẽ nghĩ ngay “Ái chà chắc lại con ma đề nào đây. Nó lên đây định xin số GPE đây mà.”. Thực sự thì không phải vậy.

Tôi có một giấc mơ rằng một ngày nào đó chỉ cần đọc số ID cá nhân hoặc quen thuộc hơn là chìa cái thẻ ID cá nhân (giống cái thẻ CMND ấy) của mình thì dù là ở cơ quan địa chính, ngân hàng, bệnh viện… người ta sẽ dễ dàng truy ra các thông tin có liên quan tới tôi mà không phải yêu cầu tôi phải mang CMND, sổ hộ khẩu, sổ sức khỏe, sổ hồng, sổ… cùng hàng loạt thứ giấy tờ xác nhận, xác minh, photo công chứng… để bảo đảm cái người đang xin làm thủ tục là …tôi chứ không phải là người nào khác.
Tôi có một giấc mơ rằng ngày nào đó mẹ tôi sẽ chẳng phải luôn nhắc tôi: “Mày đem xác nhận cái bằng PTTH, CMND, học bạ… xong thì nhớ mang liền vế nhà nhá con. Kẻo mất hay bị giật đồ thì phiền lắm con ah!”.
Tôi có một giấc mơ rằng cái tủ gỗ ở nhà cất hằng đống giấy tờ quan trọng như bằng cấp, giấy khai sinh, học bạ… không bị mấy chú mối, chuột, gián đói khát đem ra chén.

Tôi mơ những giấc mơ như thế vì thực ra trên thế giới này ở một chốn khá xa xăm, người ta chỉ cần trình cái ID hoặc ngặt nghèo hơn là ịn cái ngón tay lấy vân thì tất tần tật mọi thông tin từ tên tuổi, trình độ, tình trạng nhân thân… đến cả mẫu máu và tiền sử bệnh án để có thể truy ra trong chớp mắt. Và đâu phải riêng mình tôi mơ như thế. Chắc chắn cũng có nhiều người cùng mơ giấc mơ như tôi…

Giấc mơ số của tôi là mọi thông tin trên giấy tờ của tôi sẽ được số hóa và lưu lên máy tính để dù ở đâu, chỉ cần tay không mọi công việc thủ tục của tôi đều được xác nhận và giải quyết triệt để.

Thật ra giấc mơ đó đang được các bác lãnh đạo vô cùng trăn trở. Đã có khá nhiều công trình nghiên cứu chỉ ra ích lợi của việc “Số hóa” này.

Thứ trưởng Bộ Tư pháp Lê Hồng Sơn đã viết:
Quản lý công dân bằng dữ liệu sẽ giảm tối thiểu các loại giấy tờ như khai sinh, sổ hộ khẩu… Mỗi người có số định danh, khi đi làm thủ tục hành chính không phải kê khai, nộp các bản sao, ước tính tiết kiệm 1.600 tỷ đồng/năm.

1600 tỷ đồng cơ à? Thật là một số tiền đáng thèm thuồng nhưng sao để nuốt… trôi sao mà khó quá trong khi có một mình anh giám đốc nào đó bỏ túi 300 tỷ chỉ bằng 1 cái chữ ký. Vì sao thế?

Có thể kê ra hàng loạt nguyên do và nguyên do nào cũng đáng để là… nguyên do cả.

Kinh phí trang thiết bị không có? Ái chà đầu tư vài trăm tỷ để thu lời 1600 tỷ mà còn chê đây mà. Căn bản là máy tính, máy sao chụp đã trang bị đầy ra đấy sao anh lý sự không có?
Thiếu nhân lực? Không hiểu thiếu nhân sự thế nào chứ cái cảnh mấy anh chị viên chức ngáp ngắn dài, bấm line nhan nhản khắp các cơ quan ấy chứ.
Thiếu nhân tài? Mỗi năm riêng về ngành CNTT hoặc liên quan công nghệ thông tin (Toán tin, điện tử…) chỉ với trình độ đại học thôi nhẩm ra cũng phải 5 ngàn cử nhân, kỹ sư ra trường.

Thế còn lý do nào không? Ngó sang nước ngoài sao người ta số hóa dễ thế?

À thì người ta đi trước mấy chục năm,
à thì dữ liệu họ nhập từ xưa tới h vô máy tính cả rồi.

À thì… đều có nguyên do cả.

Quả thật nhiều nước phát triển đã đưa tất cả thông tin công dân vào máy tính và tới giờ thi họ chỉ thi thoảng phải nhập thông tin cho mấy baby mới ra đời. Với 90 triệu dân Việt Nam thì giả sử thông tin mỗi anh khoảng 2 tờ A4 thì cũng phải nhập tới 180 triệu trang. Thật là một khối lượng công việc không tưởng.

Tuy nhiên tôi được biết anh Google thực hiện dự án “Thư viện số” mới vài năm. Và trong chỉ trong một thời gian ngắn hàng triệu đầu sách, tạp chí, ấn phẩm mỗi cái có từ vài chục tới vài ngàn trang được số hóa. Trừ một phần số sách được xuất bản gần đây là có sẵn ấn bản điện tử còn lại số lượng rất lớn tài liệu được số hóa từ dạng giấy in. Vậy phải chăng chỉ trong một thời gian ngắn họ gõ tất tần tật từng ấy sách vào máy tính? Chắc không ai trả lương vài ngàn đô một anh nhân viên để mỗi giờ nhập được 4-5 trang không thì Google phá sản lâu rồi.

Vậy nguyên do thực sự tại số hóa bên mình khó hơn số hóa bên Tây thế nhỉ?

Mấy tháng trước tôi có một trải nghiệm rất thú vị khi tìm hiểu về công nghệ nhận dạng chữ viết OCR.
Tôi moi ra anh Office 2003 có từ 10 năm trước cái chương trình nhận dạng văn bản của ảnh (Microsoft Office Document Imaging).

Để thử chương trình tôi tạo ra một file hình ảnh có nội dung chữ English rồi dùng cái chương ấy quét. Sau vài giây tôi nhận được file nội dung và khá ngạc nhiên là 100% nội dung được chuyển thành dạng văn bản chính xác.
Để thử tài của anh OCR tôi quyết định chuyển file ảnh về độ phân giải thấp đến mức đường nét chữ bắt đầu vỡ ra thành từng ô vuông nhỏ đủ thấy bằng mắt thường… Kết quả vẫn 100% nội dung chính xác.
Máu me ăn thua đủ tôi dùng Photoshop làm nhòe file ảnh đã vỡ chữ đấy đi và cũng không quên ác ý xoay ảnh cho xéo đi tý (giống photo lệch giấy). Kết quả thật đáng kinh ngạc nội dung vẫn khá ổn dù chỉ đạt độ chính xác ..99,9%. Thật sự là chỉ sai vài ký tự trong vài ngàn ký tự trong file ảnh.

Tôi có thử một số file nội dung tiếng Anh có kèm ảnh, hoặc có màu nền dưới chữ. Kết quả cũng rất khả quan với phần nội dung chữ. Thế thì giờ tôi đã hiểu tại sao Google gõ chữ lẹ thế.

Tiếp tục thử nghiệm với một file ảnh nội dung tiếng Việt. Bắt đầu bằng một file hoàn toàn đúng chuẩn “Vở sạch chữ đẹp”. Kết quả rất bất ngờ…
Tôi không chắc file đầu ra có phải là kết quả cái file ảnh tôi vừa thử nghiệm không. Ngoại chứ các phụ âm hoặc nguyên âm không dấu còn thì… hằm bà lằng ký tự chả biết từ đâu ra. Hiển nhiên là tôi không dám thử file ảnh tiếng Việt với độ thử thách hơn.

Nói về công nghệ số hóa thật ra không có gì lạ. Đơn giản là họ dùng một cỗ máy quét hao hao máy Photocopy (nhiều máy Photocopy thật ra cũng là máy quét tài liệu). Hàng vạn trang tài liệu có thể được sử lý nhanh chóng trong vài giờ. Các tài liệu này thực ra vẫn đang ở dạng hình ảnh. Một lần nữa chương trình OCR làm công việc của mình là chuyển đổi hình ảnh thành file văn bản.

Vậy tại sao OCR trên file ngoại lại cho kết quả tốt thế? Phải chắng OCR khoái chữ …ngoại?

Trở về khoảng 10 năm trước, nhận dạng chữ là một trong những vấn đề công nghệ khá nóng đối CNTT Việt Nam có khả nhiều hội thảo các trường Đại học. Một số bạn sinh viên còn lấy đề tài về nhận dạng biển số xe làm báo cáo. Thậm chí hãng HP có mua bản quyền phần mềm nhận dạng chữ in của một viện nghiên cứu Việt Nam bán kèm theo máy Scanner tại thị trường Việt. Nghĩa là ít nhiều chúng ta đã tiếp cận công nghệ nhận dạng chữ Việt từ khá lâu nhưng không hiểu vì sao tới giờ này thì người ta vẫn bỏ ra gần 10k đồng +20p chờ đợi để đánh lại y trang 1 cái đơn trong khi cái máy Scanner trình ình kế bên, ối anh chị vẫn lên đây hỏi em có file hình này làm sao chuyển về chữ…

Tôi hoàn toàn chưa bao giờ viết ra một chương trình OCR nên cũng không rõ thế nào?

Vậy tại sao chữ mình cũng mang tiếng nguồn gốc Latinh mà sao chúng ta lại không thể viết ra một cái phần mềm nhận dạng chữ viết nhỉ? Thôi câu hỏi này xin dành cho mấy anh chị cao thủ lập trình quanh đây. Còn bản thân mình thì cũng đành bất lực với hiện tại.

Tuy giấc mơ vẫn là giấc mơ nhưng nếu nhìn lại thì cũng có khá nhiều điều tích cực phát sinh từ giấc mơ không thành ấy chứ.

Các anh kỹ thuật viên nạp mực, sửa máy in, máy photo tiếp tục có công ăn việc làm đều đều. Các anh chị văn phòng vẫn thi thoảng ngồi bấm lách cách cho khỏi nhàm chán.
Các cửa hàng văn phòng phẩm vẫn có nguồn thu ổn định. Các nhà máy giấy vẫn nhả khói đều đều. Các anh thợ rừng vẫn hằng ngày lên rừng đốn gỗ. Các cô bác đồng nát vẫn kiếm thêm vài ba trăm từ mớ giấy thải văn phòng.
Nhiều người luyện được đức kiên nhẫn cũng như sự dẻo dai sao bao nhiêu lần chầu trực, chạy giấy tờ tới lui.
GPE vẫn nhộp nhịp các đề tài về chuyển đổi PDF về Word, hình ảnh về text… Và các anh tài lại có dịp thử thách với những vấn đề “biết rồi khổ lắm hỏi mãi”.

Ông bà mình có câu “Trong cái rủi lại có cái hay” quả đúng lắm chứ! Những mà mỗi năm bỏ mất 1.600 tỷ thì chắc là có mình mình là thấy tiếc.

app · 22/11/13

À mà các bạn có vô thử thư viện số của Google chưa nhỉ? Thật sự rất tượng về số lượng tài liệu.

Tuy nhiên cái mà tôi ấn tượng nhất là những trang sách nguyên bản ố vàng, mép đã lởm chởm, chữ đã không còn rõ như lúc mới... thế anh Google vẫn dùng OCR đọc ra nội dung để đánh chỉ mục được. Tài... tài thật

leonguyenz · 22/11/13

Thật ra làm thì ... không khó. Ặc ặc ... mình nói vui thế thôi, nhưng suy ngẫm thế này:
Xem như giấc mơ của anh app đã thành hiện thực.
Một ngày đẹp trời nào đó, hệ thống máy chủ Quốc gia ò í e Thông báo: Máy chủ của bạn đã bị Hacker đánh sập!!! Vậy là hết Tập 1.
Các ban, ngành, cơ sở tê liệt vì không quản lý được hồ sơ người công dân. Hồ sơ đen thành trắng, tệ nạn xã hội bùng phát, cướp bóc và chiến tranh nổ ra, ... Dân cư các nước lân cận nhảy vào, chìa cái ID giả ... Tập 2 chiếu chưa biết điểm dừng.
---
Tương lai mọi thứ có thể xảy ra, có thể còn hơn thế nữa ...

app · 22/11/13

leonguyenz đã viết:
Thật ra làm thì ... không khó. Ặc ặc ... mình nói vui thế thôi, nhưng suy ngẫm thế này:
Xem như giấc mơ của anh app đã thành hiện thực.
Một ngày đẹp trời nào đó, hệ thống máy chủ Quốc gia ò í e Thông báo: Máy chủ của bạn đã bị Hacker đánh sập!!! Vậy là hết Tập 1.
Các ban, ngành, cơ sở tê liệt vì không quản lý được hồ sơ người công dân. Hồ sơ đen thành trắng, tệ nạn xã hội bùng phát, cướp bóc và chiến tranh nổ ra, ... Dân cư các nước lân cận nhảy vào, chìa cái ID giả ... Tập 2 chiếu chưa biết điểm dừng.
---
Tương lai mọi thứ có thể xảy ra, có thể còn hơn thế nữa ...

Nếu anh bạn hiểu về khái niệm độ trễ, độ lệch, đồng bộ hóa, backup, sandbox, sai số cho phép... thì những giả tưởng này chẳng là vân đề gì nghiêm trọng đâu.. Nếu ở nước ngoài người ta sợ những thứ như thế thì công nghệ quản lý của họ sẽ không hiện đại như bây h đâu.

SA_DQ · 22/11/13

Tác giả topic này chỉ biết 1 mà chưa biết 2;

Đó là sức ì trong bộ máy công quyền!

Cứ đem cái số hóa của bạn ra, thì 30% viên chức mất việc hay sao?

Mô hình nào tốt cỡ nào ở nơi nào đó sẽ trở thành dị tật ở VN!

Thôi, chúng ta chỉ nên tiến hóa, chớ cách mạng;

Cách mạng đã có ở năm 45 rồi mà! Giờ cách mạng nữa hay sao?

vodoi2x · 22/11/13

app đã viết:
..........

Tôi hoàn toàn chưa bao giờ viết ra một chương trình OCR nên cũng không rõ thế nào?

Vậy tại sao chữ mình cũng mang tiếng nguồn gốc Latinh mà sao chúng ta lại không thể viết ra một cái phần mềm nhận dạng chữ viết nhỉ? Thôi câu hỏi này xin dành cho mấy anh chị cao thủ lập trình quanh đây. Còn bản thân mình thì cũng đành bất lực với hiện tại.

Có loại phần mềm như thế cho tiếng Việt từ lâu lâu rùi bạn ah, phải trên 10 năm là cái chắc
http://www.vndocr.com/home/Products.asp?ProductID=2

--------
Còn ý kiến của bạn, thì có thể nói theo Marx là :
Quan hệ sản xuất chưa đi kịp Lực lượng SX (dân)

Số hóa như bạn nói, không quan trọng công nghệ hay máy tính ...vv mà quan trọng con người và con người trong cách vận hành quản lý - đó là cốt lõi vấn đề.

Đầy dự án tin học hóa, số hóa, cp điện tử -- lại bắt nhân viên, kỹ sư văn phòng đi học về MẠNG, QUẢN TRỊ MẠNG ...... học server serveo về làm gì đâu, cuối cùng phí ..... đại phí --- Trong khi cái quan trọng là -CÁCH NHÌN NHẬN và CÁCH THỨC thì lại không ban hành hay hướng dẫn, học

Nước phát triển hay lạc hậu thì cũng bắt đầu từ số 0 - khi chuyển từ lưu trữ bản cứng sang bản mềm (số) cả, nên đừng đổ lỗi cho việc là nhiều quá không làm,

app · 22/11/13

vodoi2x đã viết:
Có loại phần mềm như thế cho tiếng Việt từ lâu lâu rùi bạn ah, phải trên 10 năm là cái chắc
http://www.vndocr.com/home/Products.asp?ProductID=2

Nếu nhớ không làm thì VNDOCR từng được HP bán kèm máy scanner đây mà. Hồi đó mình ấn tượng bởi cái giá mua phần mềm này. 10 năm sau quay trở lại thì mình lại ấn tượng hơn vì ...cái giá của nó. Có cài thử v4.0 demo mà không hiểu lý do tét file không được đành dùng đỡ file mồi của nó thử. Nói chung là khá ổn... Tuy nhiên chẳng biết tét với mấy file ảnh loang lổ ố ó nhưng thằng Gôogle thì kết quả ra sao?

Giấc mơ … số hóa (1 người xem)

Người dùng đang xem chủ đề này

app

Thành viên hoạt động

app

Thành viên hoạt động

leonguyenz

Thành viên gạo cội

app

Thành viên hoạt động

SA_DQ

/(hông là gì!

vodoi2x

Nothing & Nothing

app

Thành viên hoạt động

Bài viết mới nhất

Thành viên có số lượng bài viết cao nhất tháng

Thành viên có điểm tương tác cao nhất tháng

Đếm ngược thời gian