Chuyển đổi file PDF sang file excel

Liên hệ QC
Cám ơn các bạn đã giúp đỡ, mình làm được rồi !
 
Xin lỗi bạn vì cái tật hay tò mò (chưa hiểu được là hơi khó chịu trong người), bạn đã tìm ra nguyên nhân gây bệnh là gì vậy bạn? Thân.
 
Thực ra phần chia sẻ của tác giả cũng có một số điểm chưa hợp lý dẫn đến các giải pháp bị lệch pha. Tôi không phải là chuyên gia về chuẩn cấu trúc dữ liệu PDF nhưng cũng xin giải thích một cách sơ bộ thế này:

Về định dạng file PDF - tôi không kịp viết hết, nhưng xin cố gắng chia sẻ dần dần

PDF - được thiết kế để giúp các văn bản giữ được định dạng giống nhau qua các máy tính mà không quá phụ thuộc vào sự sẵn có của bộ phông chữ hoặc nhưng đặc điểm cấu hình riêng biệt của từng máy tính. Chính vì điểm này mà trong PDF dữ liệu không còn giống như ta nghĩ nữa.
Hãy nhìn chữ [ắ] (sử dụng phông chữ .VnTime), nhưng khi sử dụng font Unicode thì nó là [¾] - nó sẽ có hình dạng khác nhau nếu ta sử dụng bộ phông chữ khác nhau. Nhưng trong file PDF, nếu ta có phần mềm để đọc, nhìn chung bạn cơ bản là không thấy sự khác biệt cho dù máy tính của bạn có hay không có phông .VnTime.
Vậy điều này là gì? Trong cấu trúc tập tin PDF, người ta không dùng dữ liệu kiểu Text để hiển thị dữ liệu mà bộ công cụ định dạng PDF khi chúng ta xuất ra định dạng này đã chuyển dữ liệu sang dạng ảnh vecto (Glyph). Hay nói khác hơn, chữ [ắ] không phải là ký tự có số hiệu [7855] trong bảng mã Unicode nữa mà nó đã được chuyển thành một ảnh vec tơ giống chữ [ắ] để bộ công cụ hiển thị chỉ việc xuất ra dưới dạng ảnh mà thôi. Để dễ hiểu, nếu ai đã từng dùng Correll Draw, sẽ hiểu là chế độ Convert Text to Outline, hoặc đây là ảnh thể hiện bằng cách nối điểm các tọa độ của ký tự trong bộ phông chữ. (xem hình dưới)
ftmaster_glyph_editor.gif
Ngoài ra, để phục vụ yêu cầu chuyển đổi ngược từ ảnh chữ [ắ] sang mã [7855], người ta có một phần trong cấu trúc file PDF quy định phông chữ sử dụng là gì, chuẩn mã hóa là gì để khi cần người ta có thể dịch ngược bằng cách so ảnh với ký tự trong bộ phông vector được đính kèm theo file.
Một số file PDF, nếu họ bỏ phần cấu trúc này đi thì các chương trình dịch ngược sẽ bó tay hoặc làm sai lung tung. Hoặc là họ cấm in, cấm lưu, cấm copy chẳng hạn ... đều nằm trong cấu trúc ấy. Tất nhiên bàn về cấu trúc nghiêm túc của file PDF thì dài lắm có đến cả 1000 trang tài liệu liên quan đến việc này trong trang chủ của Adobe System (đơn vị tạo ra định dạng PDF). Và tôi không thể đủ khả năng để giới thiệu hết.
Các bạn hãy quan sát cấu trúc một nội dung trong file pdf mà xem, nó không có gì bí mật và hoàn toàn có thể đọc được bằng bất kỳ công cụ đọc văn bản nào. Nhưng để hiển thị nó, người ta cần bộ công cụ cho phép hiển thị lại ảnh vector thông qua dữ liệu có trong file (ví dụ Foxit chẳng hạn)
[GPECODE=vb]9 0 obj<<
/Type /FontDescriptor
/Ascent 891
/CapHeight 784
/Descent -216
/Flags 98
/FontBBox [0 -216 1753 891]
/ItalicAngle 0
/StemV 0
/FontFile2 44 0 R
/FontName /VYOSXR+TimesNewRomanPS-BoldItalicMT
>>
endobj[/GPECODE]
Quay lại câu chuyện của tác giả [Kh Biet]
Việc chuyển ngược từ PDF sang Excel thì có nhiều công cụ làm, có một số công cụ kém thì thuật toán đoán ảnh tương đồng với mã ký tự trong bộ phông là kém và nó hay đoán sai, dẫn đến một số ký tự UNICODE nó đành bó tay và đặt kết quả là dấu [?] hoặc ký tự thay thế như dấu [cách].
Việc bạn không đọc được kết quả không phải là do lỗi phông chữ gì cả vì nó chả có gì liên quan đến phông chữ ở đây, mà do phần mềm chuyển từ pdf sang excel bị kém.
Một số công cụ chuyển đổi tốt thì nó "đoán" tương đối chính xác mã tương ứng với ảnh vì thế nên kết quả ra đúng.
Túm lại, xin kết luận một tẹo, khi chuyển từ pdf sang tài liệu có thể sử dụng được (word, Excel), có đến 90% là ta không thể quay lại định dạng cũ được. Và nếu kết quả có sai sót, hãy sử dụng các phần mềm chuyển đổi khác nhau để có kết quả đúng hơn. Việc còn lại thì phải thao tác bằng tay thôi.
Xin phép võ vẽ vài dòng thế. Khi nào có điều kiện ta sẽ trao đổi sâu hơn về vấn đề này các bạn nhể.
 
Lần chỉnh sửa cuối:
Thực ra phần chia sẻ của tác giả cũng có một số điểm chưa hợp lý dẫn đến các giải pháp bị lệch pha. Tôi không phải là chuyên gia về chuẩn cấu trúc dữ liệu PDF nhưng cũng xin giải thích một cách sơ bộ thế này:
Về định dạng file PDF - tôi không kịp viết hết, nhưng xin cố gắng chia sẻ dần dần
PDF - được thiết kế để giúp các văn bản giữ được định dạng giống nhau qua các máy tính mà không quá phụ thuộc vào sự sẵn có của bộ phông chữ hoặc nhưng đặc điểm cấu hình riêng biệt của từng máy tính. Chính vì điểm này mà trong PDF dữ liệu không còn giống như ta nghĩ nữa.
Hãy nhìn chữ [ắ] (sử dụng phông chữ .VnTime), nhưng khi sử dụng font Unicode thì nó là [¾] - nó sẽ có hình dạng khác nhau nếu ta sử dụng bộ phông chữ khác nhau. Nhưng trong file PDF, nếu ta có phần mềm để đọc, nhìn chung bạn cơ bản là không thấy sự khác biệt cho dù máy tính của bạn có hay không có phông .VnTime.
Vậy điều này là gì? Trong cấu trúc tập tin PDF, người ta không dùng dữ liệu kiểu Text để hiển thị dữ liệu mà bộ công cụ định dạng PDF khi chúng ta xuất ra định dạng này đã chuyển dữ liệu sang dạng ảnh vecto (Glyph). Hay nói khác hơn, chữ [ắ] không phải là ký tự có số hiệu [7855] trong bảng mã Unicode nữa mà nó đã được chuyển thành một ảnh vec tơ giống chữ [ắ] để bộ công cụ hiển thị chỉ việc xuất ra dưới dạng ảnh mà thôi. Để dễ hiểu, nếu ai đã từng dùng Correll Draw, sẽ hiểu là chế độ Convert Text to Outline, hoặc đây là ảnh thể hiện bằng cách nối điểm các tọa độ của ký tự trong bộ phông chữ. (xem hình dưới)
View attachment 102450
Ngoài ra, để phục vụ yêu cầu chuyển đổi ngược từ ảnh chữ [ắ] sang mã [7855], người ta có một phần trong cấu trúc file PDF quy định phông chữ sử dụng là gì, chuẩn mã hóa là gì để khi cần người ta có thể dịch ngược bằng cách so ảnh với ký tự trong bộ phông vector được đính kèm theo file.
Một số file PDF, nếu họ bỏ phần cấu trúc này đi thì các chương trình dịch ngược sẽ bó tay hoặc làm sai lung tung. Tất nhiên bàn về cấu trúc nghiêm túc của file PDF thì dài lắm có đến cả 1000 trang tài liệu liên quan đến việc này trong trang chủ của Adobe System (đơn vị tạo ra định dạng PDF). Và tôi không thể đủ khả năng để giới thiệu hết.
Quay lại câu chuyện của tác giả [Kh Biet]
Việc chuyển ngược từ PDF sang Excel thì có nhiều công cụ làm, có một số công cụ kém thì thuật toán đoán ảnh tương đồng với mã ký tự trong bộ phông là kém và nó hay đoán sai, dẫn đến một số ký tự UNICODE nó đành bó tay và đặt kết quả là dấu [?] hoặc ký tự thay thế như dấu [cách].
Việc bạn không đọc được kết quả không phải là do lỗi phông chữ gì cả vì nó chả có gì liên quan đến phông chữ ở đây, mà do phần mềm chuyển từ pdf sang excel bị kém.
Một số công cụ chuyển đổi tốt thì nó "đoán" tương đối chính xác mã tương ứng với ảnh vì thế nên kết quả ra đúng.
Túm lại, xin kết luận một tẹo, khi chuyển từ pdf sang tài liệu có thể sử dụng được (word, Excel), có đến 90% là ta không thể quay lại định dạng cũ được. Và nếu kết quả có sai sót, hãy sử dụng các phần mềm chuyển đổi khác nhau để có kết quả đúng hơn. Việc còn lại thì phải thao tác bằng tay thôi.
Xin phép võ vẽ vài dòng thế. Khi nào có điều kiện ta sẽ trao đổi sâu hơn về vấn đề này các bạn nhể.

Nhưng cho phép em được đặt câu hỏi mà em thắc mắc ở đây là: cùng file đó em dùng online để chuyển đổi thì đọc hoàn toàn bình thường (với các format cũng như font chữ) nhưng đối với máy của bạn Kh Biet thì lại bị lỗi??? Theo như bạn ấy nói thì bạn ấy đã dùng website của em đưa lên nhưng vẫn bị. Em muốn tìm hiểu rõ nguyên nhân để biết và nhớ cho sau này mà thôi. Thân
 
Tôi nghĩ là tác giả không dùng đúng phần mềm bạn chỉ ra hoặc cậu ấy chưa biết cách làm - mở file danh sách liệt sĩ ra thì thấy không phải là do công cụ online thực hiện (tôi đoán bạn ấy tải bản free trial nào đó chẳng hạn). Tôi chưa thử việc tải về bản dùng thử đó nhưng vẫn giữ nguyên quan điểm kết luận ấy.
Nếu muốn biết bạn ấy bị lỗi phông hay cái gì khác, bạn cứ gửi cái file ma bạn đã chuyển đổi, đề nghị bạn Kh Biet mở ra trên máy mình, nếu đọc được tức là ổn, nếu không đọc được mới là có chuyện.

Ngoài ra, một điểm khá bí mật nữa là bạn Kh Biet không kể rõ bạn ấy đã làm như thế nào, trang nào, phần mềm nào, thậm chí cũng chưa có xác nhận là đã dùng công cụ của bạn chưa ...vv vì thế việc ta đoán già, đoán non cũng không hữu dụng lắm.
 
Nhưng cho phép em được đặt câu hỏi mà em thắc mắc ở đây là: cùng file đó em dùng online để chuyển đổi thì đọc hoàn toàn bình thường (với các format cũng như font chữ) nhưng đối với máy của bạn Kh Biet thì lại bị lỗi??? Theo như bạn ấy nói thì bạn ấy đã dùng website của em đưa lên nhưng vẫn bị. Em muốn tìm hiểu rõ nguyên nhân để biết và nhớ cho sau này mà thôi. Thân
Mình đoán là trên trang web chuyển đổi PDF to excel online họ dùng 1 phần mềm có khả năng "chuyển đổi tốt" như của mình. '''''''''''''''''' , phần mềm đó các bạn có thể thấy ngay khi vào trang web đó.
 
Tôi nghĩ là tác giả không dùng đúng phần mềm bạn chỉ ra hoặc cậu ấy chưa biết cách làm - mở file danh sách liệt sĩ ra thì thấy không phải là do công cụ online thực hiện (tôi đoán bạn ấy tải bản free trial nào đó chẳng hạn). Tôi chưa thử việc tải về bản dùng thử đó nhưng vẫn giữ nguyên quan điểm kết luận ấy.
Nếu muốn biết bạn ấy bị lỗi phông hay cái gì khác, bạn cứ gửi cái file ma bạn đã chuyển đổi, đề nghị bạn Kh Biet mở ra trên máy mình, nếu đọc được tức là ổn, nếu không đọc được mới là có chuyện.

Ngoài ra, một điểm khá bí mật nữa là bạn Kh Biet không kể rõ bạn ấy đã làm như thế nào, trang nào, phần mềm nào, thậm chí cũng chưa có xác nhận là đã dùng công cụ của bạn chưa ...vv vì thế việc ta đoán già, đoán non cũng không hữu dụng lắm.

Đúng thật là bạn Kh Biet đưa bài lên và cách nói không đi thẳng vào trọng tâm của vấn đề khiến cho mọi người không biết bạn ấy áp dụng cách nào để làm. Dựa vào bài trả lời của bạn ấy (bạn ấy quote vanle33) thì em nghĩ bạn ấy đã dùng online làm ra. Tại vì tính em chưa tìm câu trả lời thích đáng thì rất khó chịu trong người hehe..

Gửi bạn Kh Biet: file mình gửi đính kèm là file dùng web online để chuyển đổi, bạn mở thử xem có bị trường hợp đó ko nhé. Thân.
 

File đính kèm

  • HaiHung.zip
    9.6 KB · Đọc: 16
Từ sáng giờ mải việc khác, giờ mới quay lại, thấy mọi người quan tâm, mình xin cám ơn ! Riêng 2 bản chuyển đổi của Vanle và Bảy Dzõ mình thấy tốt cả, riêng của mình thì hỏng nên mình thắc mắc. Sau khi vanle huong dan bo xung font, mình tải về và giải nén rồi coppy vào windows\font nhưng xung đột, sau mình phải đổi đuôi của các tập tin cùng loại ấy rồi dán vào , nó mới nghe. Sau đó mình mới theo các bạn hướng dẫn chuyển đổi online thấy được,nên mình thông báo cho các bạn biết , để các bạn đỡ mất thời gian. có thể mình chuyển đổi bằng phần mềm "nitro_pdf_pro_32_dlm.exe" down về chắc có lỗi .(đúng như bạn"cái chai không đầu mà sao có cổ" nói đó _ xin lỗi bạn paulsteigel nhé).chắc Nguyên nhân vậy, chẳng hiểu do đâu nữa ( vì mình đã nói mà, trước giờ đâu có "bị" cái vụ Font này nên mình mù tịt )vậy đó các bạn, mình cám ơn cả nhà nhé ( nửa tháng rồi vào mạng down danh sách liệt sĩ đến 30.000 người rồi mà không tìm được bạn, thất vọng quá )
 
Lần chỉnh sửa cuối:
Từ sáng giờ mải việc khác, giờ mới quay lại, thấy mọi người quan tâm, mình xin cám ơn ! Riêng 2 bản chuyển đổi của Vanle và Bảy Dzõ mình thấy tốt cả, riêng của mình thì hỏng nên mình thắc mắc. Sau khi vanle huong dan bo xung font, mình tải về và giải nén rồi coppy vào windows\font nhưng xung đột, sau mình phải đổi đuôi của các tập tin cùng loại ấy rồi dán vào , nó mới nghe. Sau đó mình mới theo các bạn hướng dẫn chuyển đổi online thấy được,nên mình thông báo cho các bạn biết , để các bạn đỡ mất thời gian. có thể mình chuyển đổi bằng phần mềm "nitro_pdf_pro_32_dlm.exe" down về chắc có lỗi . Nguyên nhân mình cũng chẳng hiểu do đâu nữa ( vì mình đã nói mà, trước giờ đâu có "bị" cái vụ Font này nên mình mù tịt)vậy đó các bạn, mình cám ơn cả nhà nhé ( nửa tháng rồi vào mạng down danh sách liệt sĩ đến 30.000 người rồi mà không tìm được bạn, thất vọng quá )

Vậy bây giờ vấn đề đã rõ: nguyên nhân gây ra anh này là do chương trình chuyển đổi bị lỗi. Bên cạnh vấn đề này, hình như đâu đó có một chuyện hơi nhầm lẫn là: font chữ cho windows không đơn giản là bạn giải nén và copy vào là chạy đâu bạn à. Mà bạn cần vào CP và install font chữ để thay thế font cũ hoặc thêm vào (với kiến thức cũng như kinh nghiệm hạn hẹp của mình nhé).... hoặc có thể có cách tự copy vào mà chạy thì mình chưa biết hoặc chưa làm bao giờ.

Tom lại bạn đã giải quyết vấn đề và tôi cũng hết thắc mắc. Vậy chúc bạn làm công tác tốt nhé. Thân.
 
Các bác ơi.cứu e với.Jo e muốn chuyển đổi từ Pdf sang excel mà ko bị lỗi font thì làm tn.e thấy các bác bảo chuyển đổi online gì đó mà e chẳng hiểu.Các bác hướng dẫn cụ thể cho e với.Thanks các bác nhiều.
 
Các bác ơi.cứu e với.Jo e muốn chuyển đổi từ Pdf sang excel mà ko bị lỗi font thì làm tn.e thấy các bác bảo chuyển đổi online gì đó mà e chẳng hiểu.Các bác hướng dẫn cụ thể cho e với.Thanks các bác nhiều.
Bạn muốn chuyển đổi online thì bạn vào trang web bài #9m chọn đường dẫn đến file rồi chờ chuyển xong thôi.
 
Các bác ơi.cứu e với.Jo e muốn chuyển đổi từ Pdf sang excel mà ko bị lỗi font thì làm tn.e thấy các bác bảo chuyển đổi online gì đó mà e chẳng hiểu.Các bác hướng dẫn cụ thể cho e với.Thanks các bác nhiều.
Bạn thử đưa file lên tôi thử xem.rồi mới dám nhận xét
 
Hình như bạn chưa biết cách share link từ mediafire thì phải
thày ạ, nhà em có tải lên media Fire đâu . Bởi tập tin này lớn quá giới hạn nên post lên MediaFre nên nhầm lung tung vậy . vừa rồi lại nhớ ra cái lỗi lần trước nên nhà em sửa lỗi, mọi người xem được chưa ? đầu óc nó mụ mẫm , chán quá .
 
Web KT
Back
Top Bottom