Trích xuất đoạn văn bản của file pdf

Liên hệ QC

ongtrungducmx25

Thành viên gạo cội
Tham gia
5/2/07
Bài viết
2,077
Được thích
1,987
Nghề nghiệp
GV
Trích xuất đoạn văn bản của file pdf
TTO - Khi xem nội dung một tập tin PDF, bạn cần sao chép một đoạn văn bản trong toàn bộ file thì cũng phải qua nhiều thao tác, nhưng nếu sử dụng Text Mining Tool thì công việc trở nên đơn giản hơn.

ImageView.aspx
Bạn có thể tải phần mềm miễn phí trực tiếp tại đây, dung lượng 8,39MB và yêu cầu hệ thống cài sẵn .NET FrameWork 2.0 trở lên.
Sau khi tải về, bạn thực thi tập tin TextMiningTool.exe trong thư mục giải nén để chạy chương trình. Giao diện chương trình rất đơn giản, để thực hiện việc lấy một đoạn text nào của tập tin PDF bạn thực hiện như sau:
+ Nhấn nút Open chỉ đường dẫn để mở một file PDF chứa đoạn text muốn sao chép. Sau đó bôi đen đoạn text muốn sao chép và nhấn tổ hợp phím Ctrl + C (hoặc có thể nhấn vào nút Clipboard để lưu vào bộ nhớ Clipboard).
+ Mở một ứng dụng có khả năng soạn thảo văn bản như Notepad hoặc Word rồi dán nội dung đoạn text vừa copy vào đó. Thế là bạn đã có đoạn văn bản cần chép, tại đây bạn hoàn toàn có thể thêm bớt, chỉnh sửa đoạn text đó dễ dàng.
QUỐC TRUNG


Nguồn: http://www.tuoitre.com.vn/Tianyon/Index.aspx?ArticleID=292639&ChannelID=67
 
Theo em biết thì trong Adobe Acrobat có chức năng lấy Text của file PDF mà! Ngoại trừ trường hợp là file đó bị khóa thôi. Dùng công cụ Text hình chữ T đó.
Còn nếu muốn chuyển tài liệu sang dạng khác thì có các phần mềm Convert sang như PDF2DOC, PDF2XLS,.v.v..
Thân.
 
nhưng khổ nổi là chuyển sang doc hoặc xls thì font không còn đúng nữa không chính xác 100% đâu, mình đã test chương trình đó rồi , những công thức toán học trong file.pdf thì em xin chào thua ,bó tay luôn.
 
Ngay cả tính năng Select Text của Acrobat cũng ko dùng được hả bác?
Thân.
 
không được đúng rồi! những phần mềm nước ngoài thì không có hổ trợ tiếng việt! nếu là tiếng anh thì very good !
 
Chuyển file PDF tiếng Việt sang Word

Xin trình bày thêm 1 cách củ chuối! Hiiiiiii

Chuyển file PDF tiếng Việt sang Word

Có nhiều phần mềm giúp chuyển một file pdf tiếng Anh sang Word một cách nhanh chóng và chính xác, nhưng chuyển đổi một file pdf tiếng Việt sang Word thì hoàn toàn không dễ dàng như vậy. Bài viết sẽ trình bày một cách phối hợp 3 phần mềm để cho các font tiếng Việt không hoặc ít bị lỗi sau khi khi chuyển đổi từ pdf sang Word.

picture.php

Chuyển đổi file pdf thành Word với một văn bản tiếng Anh là không khó khi có sự trợ giúp đắc lực của các phần mềm như Solid Converter PDF to Word, Free PDF to Word Doc Converter... Nhưng với một file pdf tiếng Việt thì việc sử dụng những phần mềm nêu trên là không hiệu quả, font chữ sẽ bị lỗi rất nhiều và việc sửa lỗi còn mất nhiều thời gian hơn là ngồi gõ lại. Bài viết này xin trình bày cách phối hợp 3 phần mềm là: IrfanView 4.1, PDF Converter XP và VnDocr 4.0 để chuyển một file pdf tiếng Việt sang định dạng doc quen thuộc.

1. Download và cài đặt các chương trình lên máy tính:

Bộ cài đặt bao gồm tất cả các phần mềm kể trên, bạn click vào đây để tải về .

2. Chuyển file pdf thành file ảnh:

picture.php


- Mở chương trình PDF Converter XP lên, chuyển qua tab Pdf > Image.

- Chọn Add files..., sẽ có 1 hộp thoại xuất hiện yêu cầu bạn nhập file pdf.

picture.php


- Chọn file pdf xong, hãy bấm vào nút Convert now! Một hộp thoại mới xuất hiện, yêu cầu xác định nơi lưu file ảnh xuất ra, độ phân giải của ảnh. Bạn nên chọn độ phân giải là 300 dpi để việc nhận dạng ký tự được chính xác hơn.

3. Chuyển định dạng ảnh về đen trắng (2 color):

Việc chuyển thành ảnh đen trắng này nhằm để cho chương trinh VnDocr 4.0 có thể làm việc được.

- Mở chương trình IrfanView 4.1, chọn File > Patch conversion/rename. Một hộp thoại xuất hiện. Trong phần Look in bạn chọn dường dẫn tới nơi bạn đã lưu file ảnh ở bước 2. Chọn tất cả hình cần rồi bấm Add.

- Bấm chọn vào Use advanced options > Advanced > Change color depth > 2 color (black/white) (1BPP) > OK.

- Chọn nơi lưu file trong mục Output directory for result files, chọn Patch để chương trình bắt đầu làm việc.

4. Sử dụng phần mềm VnDocr 4.0 để nhận dạng văn bản:

picture.php


- Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh đã lưu ở bước 3, bấm Open.

- Bấm chọn nút nhận dạng trên menu, trong bước này ta cần xác định chính xác vùng chọn là văn bản, ảnh hay là bảng biểu, bằng cách bấm chuột phải vào vùng đó và chọn định dạng phù hợp (lưu ý là chương trình thường nhầm lẫn giữa dịnh dạng ảnh và bảng).

- Sau khi đã chỉnh định dạng các vùng, bấm vào nút Nhận dạng để chương trình làm việc.

5. Copy qua Word văn bản đã được nhận dạng:

Vì bản demo của chương trình VNDocr 4.0 không cho phép ta lưu văn bản nhận dạng được nên cần phải copy qua Word để lưu.

- Mở một file Word mới và để dưới taskbar.

- Trong VnDocr 4.0, quét chọn vùng văn bản cần dùng, bấm giữ chuột trái vào vùng đã chọn và kéo rê thả vào Word ở dưới thanh taskbar.

Tới đây bạn đã hoàn thành việc chuyển văn bản. Các phần mềm giới thiệu ở trên đều có thể làm việc với nhiều file một lúc, giúp bạn đỡ tốn thời gian để hoàn thành công việc. Kinh nghiệm cho thấy, chuyển một file pdf 10 trang toàn chữ thành Word chỉ mất chưa tới 5 phút, chắc chắn là đỡ mất công hơn nhiều so với việc ngồi gõ lại 10 trang này.

(KhoaHocPhoThong)
Nguồn: http://cuocsongso.com/forum/showthread.php?t=2590

Bên WKT có mà quên! Hiii:
http://www.webketoan.vn/forum/showthread.php?t=16738&page=2
Thân.
 
Cho em hỏi các bác, sao em tải về và thực thi tập tin TextMiningTool.exe trong thư mục giải nén để chạy chương trình thì lại báo như thế này các bác.

textminingtool.png

Trong thư mục giải nén có 2 files này :
minetext.exe - TextMiningTool.exe

Nhờ Thầy Đức xem lại dùm.

Thân
 
Bác tải lại và giải nén lại 1 lần nữa xem!
Máy em dùng ko có hiện tượng gì cả.
Chạy file TextMiningTool.exe là OK ngay.
Thân.
 
Em đành bó tay khi thực thi tập tin TextMiningTool.exe này rùi. Xóa phần download cũ, download mới và chạy lại cũng bị tình trạng trên.+-+-+-++-+-+-+ Hụ hụ hụ hụ
 
Solid Converter PDF v4.0 build 560

88165_s__portable_solid_converter_p.jpg

Bạn có một tài liệu định dạng PDF nhưng không biết làm cách nào chuyển sang dạng Word để có thể sử dụng làm tài liệu cho riêng mình. Điều này có thể được thực hiện dễ dàng với Solid Converter PDF.

Đặc điểm nổi bật của Solid Converter PDF so với các phần mềm khác cùng loại là khả năng giữ nguyên được được định dạng chữ, bảng biểu và hình ảnh khi chuyển đổi. Chương trình cho phép người dùng lựa chọn các kiểu định dạng văn bản, số trang chuyển đổi và cách lưu file ở dạng .doc hay .rtf. Biểu tượng của chương trình được gắn kèm vào Microsoft Word, Acrobat Reader giúp thao tác chuyển đổi một cách dễ dàng.

Solid Converter PDF công cụ có khả năng tích hợp tuyệt vời với Microsoft Word. Nó có khả năng mở ra một file PDF ngay từ Word để chuyển đổi, tạo file PDF từ văn bản Word đang hiện hành, chuyển đổi mọi thứ mở từ Windows Explorer hoặc Internet Explorer thành PDF một cách dễ dàng và hoàn hảo.

Chức năng tuyệt vời nhất của Solid Converter PDF (SCP)là chuyển đổi dạng file PDF sang Microsoft Word với chất lượng không có thể chê vào đâu được và hơn hẳn so với nhiều phần mềm cùng công dụng . Khi kích hoạt SCP thành công là nó sẽ hiện ngay ra giao diện chuyển đổi từ PDF sang Word cho bạn sử dụng ngay.

Chọn file PDF cần chuyển đổi -> Nhấn vào mũi tên trỏ xuống kế biểu tượng “Convert” để chọn định dạng xuất là .DOC hoặc .RTF, nhưng bạn nên chọn là .DOC -> Nhấn vào nút “Convert” -> Check vào 1 trong 5 chức năng chuyển đổi để chọn định dạng cho văn bản Word là Flowing (chuyển toàn bộ định dạng sang Word hệt như file PDF gốc), Table (chuyển sang mọi định dạng như không chuyển dạng cột), Continuos (chỉ lấy mỗi hình ảnh và văn bản), Plain Text (chỉ lấy mỗi văn bản) và Extract (chỉ lấy mỗi văn bản nhưng lại lồng các đoạn văn bản vào các box của Word).

Khi chọn xong thì ta nhấn Next để vào giao diện chọn dạng xuất cho hình ảnh. Đây được xem là chiêu thức “trích xuất hình ảnh từ file PDF” cực kỳ độc đáo mà hiếm có công cụ nào làm được. Nên chọn “Automatic Anchoring” hoặc “Anchor to Paragraph”, “Anchor to Pages” tùy ý -> Next để qua giao diện chọn khoảng cách giữa các ký tự, nên check vào ô “Keep Character Spacing” để SCP giữ nguyên khoảng cách giữa các ký tự như bản gốc -> Next để qua giao diện chọn định dạng xuất và vị trí của file -> Next và chọn “All” để chuyển toàn bộ mọi trang trong PDF sang Word hoặc “Pages” để chỉ chuyển riêng 1 trang nào đó trong file PDF -> Next lần cuối và nhấn Finish để hoàn tất quá trình chuyển định dạng.

Khi chuyển xong là SCP sẽ lập tức mở ngay ra file Word vừa xuất cho các bạn xem. Mọi định dạng như hình ảnh, màu sắc, bảng biểu, tiêu đề v.v... đều được chuyển trọn vẹn qua Microsoft Word.

Khi Solid Converter PDF được cài đặt thành công vào Windows là ngay lập tức trong giao diện của Microsoft Word sẽ xuất hiện 2 biểu tượng chức năng của công cụ này. Biểu tượng đầu tiên là “Open PDF” giúp bạn mở ngay ra file PDF cần chuyển đổi từ giao diện của Word, còn biểu tượng thứ hai là “Create PDF” giúp bạn chuyển đổi văn bản hiện hành thành file PDF ngay lập tức với mọi định dạng được chuyển qua một cách hoàn hảo.

Solid Converter PDF cũng tạo thêm 2 nút công cụ tương đương nằm trong giao diện của Windows Explorer và Internet Explorer để giúp chuyển đổi các trang web hiện hành thành PDF một cách nhanh nhất.

Download: Solid Converter PDF v4.0 build 560
Từ trang chủ: http://www.soliddocuments.com/download.htm?product=SolidConverterPDF
Thân.
 
Lần chỉnh sửa cuối:
Đầy là file HuongDanCapTocPhanMemGoWinvnkey.doc mà Solid Converter PDF v4.0 build 560 đã xuất ra từ file HuongDanCapTocPhanMemGoWinvnkey.pdf.

Tải tại đây: http://www.mediafire.com/?nmmmlylrxoo

Nếu mọi người xem file mà không thấy hình thì click chuột lên hình rồi kéo thanh trượt lên xuống thì hình sẽ được hiện ra. Cái này em nghĩ là do quá trình nạp dữ liệu bị chậm thôi.
Thân.
 
Đúng là lỗi do chưa cài đặt Microsoft .NET Framework. Quả không hổ danh các bậc Thầy lão luyện.
Sau khi em cài xong Microsoft .NET Framework vào và thực thi tập tin TextMiningTool.exe, em có 1 vài nhận xét sau :
Hạn chế của Text Mining Tool 1.1.42,
1.- có 1 số files pdf hình như chưa chuyển được các bác à. Hoặc theo em nghĩ chắc có thể 1 số files pdf để có pass word chăng ?
2.- Files pdf có hình ảnh chuyển qua bị mất hết.
Em xin gởi lên 3 files này :

1.- 02_2009_TT-BLDTBXH_09207073.pdf "Thông tư 02/2009/TT-BLĐTBXH của Bộ Lao động - Thương binh và Xã hội hướng dẫn điều chỉnh thu nhập tháng đã đóng bảo hiểm xã hội đối với người lao động tham gia bảo hiểm xã hội tự nguyện theo Nghị định 134/2008/NĐ-CP ngày 31/12/2008 của Chính phủ" ---> File này mở theo TextMiningTool.exe không thành công --> Cái này em kiểm là không có pass

2.- BTFoxpro.pdf (Bài tập Foxpro) và LTFoxpro.pdf (Lý thuyết Foxpro) : ---> 2 Fíle này mở theo TextMiningTool.exe thành công nhưng hình ảnh chuyển qua không có


Thân
 

File đính kèm

  • 02_2009_TT-BLDTBXH_09207073.pdf
    105.7 KB · Đọc: 17
  • BTFoxpro.pdf
    270.8 KB · Đọc: 24
  • LT_BT_Foxpro.rar
    366.6 KB · Đọc: 14
  • LTFoxpro.pdf
    694.9 KB · Đọc: 13
Không download complete được vậy ?

Đường link của bác Po_Pikachu gởi cho em sao down không thành công vậy.
Tải tại đây: http://www.mediafire.com/?nmmmlylrxoo
Không rõ sao mình down đến 99,99% thôi. Không complete được vậy. Đã nhiều lần khởi động lại máy tính
Có phải PortableIDMv5.12.8.exe có vấn đề chăng ?
Xin được hướng dẫn cách khắc phục

Kính,

(Phạm vi bài này có thể không phù hợp trong topic này. Kính mong, các Smod, Mod di chuyển vào 1 topic khác. Kính cám ơn)
 
Lần chỉnh sửa cuối:
Bác thử tắt IDM đi rồi Download bằng trình duyệt xem!
Để tắt chức năng tự download của IDM bác mở IDM lên -> vào Downloads -> Options -> trong thẻ General -> bỏ chọn dòng IE trong mục Integrate IDM into browser: -> OK.
Còn file LT_BT_Foxpro.rar trên của bác nó được nhúng vào mấy *.DBF nên quá trình lọc lấy dữ liệu bị đình trệ cả. Hiện chưa biết làm sao.
Nhưng em nghĩ chiều hướng là phải chụp ảnh rồi dùng cách đọc dữ liệu từ file ảnh trắng đen thôi. Nhưng làm vậy sẽ mất rất nhiều định dạng.
Đây là 1 điều nang giải.
Vậy phải xem lại các file PDF có nhúng file vào trong đó. Các trình này không thể đọc được những dữ liệu nhúng nên không hoàn thành được nhiệm vụ.
Thân.
 

File đính kèm

  • 02_2009_TT-BLDTBXH_09207073.rar
    550.1 KB · Đọc: 12
Bác thử tắt IDM đi rồi Download bằng trình duyệt xem!
Để tắt chức năng tự download của IDM bác mở IDM lên -> vào Downloads -> Options -> trong thẻ General -> bỏ chọn dòng IE trong mục Integrate IDM into browser: -> OK.
Không cần làm thế đâu (mất công lần sau phải chỉnh lại) ---> Cứ bấm phím Alt rồi click vào link là được (thao tác này nhầm mục đích tạm thời tắt IDM thôi, nếu lần sau ta click vào link mà không giữ phím Alt thì nó lại down bằng IDM như bình thường)
Thêm nữa, lổi 99,9% chứng tỏ anh KTGG đang xài IDM phiên bản củ ---> Lổi này xuất hiện đối với IDM đời củ khi download trên trang Mediafire ---> Tìm cách thay mới nó đi (IDM Version 5.15) là hết lổi liền
 
cho dùng thử 15 ngày bác ơi. có cách trị nó khg?
 
Thầy ndu96081631 đã viết:
Thêm nữa, lổi 99,9% chứng tỏ anh KTGG đang xài IDM phiên bản củ ---> Lổi này xuất hiện đối với IDM đời củ khi download trên trang Mediafire ---> Tìm cách thay mới nó đi (IDM Version 5.15) là hết lổi liền

Hồi sáng giờ loay quay download có khi thành công có khi không thành công.
Nay được Quý Thầy chỉ cài lại IDM version 5.15 và việc download không còn trở ngại nữa.
Phải nói qua topic này, em xin cám ơn Quý Thầy đã chỉ dạy cho những điều mới lạ.

Các anh chị có thể tham khảo và muốn download IDM version 5.15 bản mới tại đây ..... hoặc http://www.internetdownloadmanager.com/welcome.html
Chân thành cám ơn
 
Chỉnh sửa lần cuối bởi điều hành viên:
Web KT
Back
Top Bottom