OpenPDFTools

Chuyển PDF sang Excel online miễn phí

Trích xuất dữ liệu văn bản và dạng bảng từ tệp PDF và chuyển đổi chúng thành bảng tính Excel (.xlsx). Công cụ này phân tích bố cục văn bản để phát hiện các hàng và cột, giúp bạn dễ dàng làm việc với dữ liệu PDF trong bảng tính. ✓

Thả tập tin vào đây hoặc nhấp để duyệt

Tối đa 200 MB mỗi tệp - được xử lý cục bộ

Nó hoạt động như thế nào

1

Tải lên tệp PDF của bạn

2

Bảng được phát hiện và trích xuất tự động

3

Tải xuống bảng tính Excel (.xlsx) của bạn

Chuyển đổi PDF sang Excel hoạt động như thế nào?

Chuyển đổi

PDF sang Excel trích xuất văn bản từ tài liệu của bạn, phân tích bố cục không gian để phát hiện các hàng và cột và tạo bảng tính .xlsx có cấu trúc. Công cụ này xác định dữ liệu dạng bảng bằng cách kiểm tra cách các thành phần văn bản được định vị trên mỗi trang. Các phần tử trên cùng một đường ngang sẽ trở thành một hàng và khoảng cách nhất quán giữa các nhóm sẽ xác định ranh giới cột.

Đường dẫn trích xuất chạy hoàn toàn trong trình duyệt của bạn. PDF.js đọc tài liệu và trả về các mục văn bản có tọa độ x/y. Mã phân tích bố cục của chúng tôi nhóm các mục này thành hàng và cột dựa trên vị trí của chúng. Thư viện xlsx sau đó tạo một bảng tính có cấu trúc được phát hiện. Đối với các bảng được định dạng tốt với khoảng cách cột rõ ràng, độ chính xác phát hiện thường trên 90%. Các bảng phức tạp có các ô được hợp nhất hoặc khoảng cách không đều có thể cần điều chỉnh thủ công.

Dữ liệu mà mọi người thường xuyên trích xuất từ tệp PDF sang bảng tính:

  • Báo cáo tài chính và báo cáo hàng quý với bảng doanh thu
  • Các mục hàng hóa đơn có tên sản phẩm, số lượng và giá
  • ABảng điểm học tập và hồ sơ sinh viên từ cổng thông tin đại học
  • Danh mục sản phẩm với thông số kỹ thuật được sắp xếp theo cột
  • Báo cáo thống kê chính phủ với các bảng dữ liệu nhân khẩu học hoặc kinh tế

Các dịch vụ trích xuất đám mây sử dụng phức tạp hơn các thuật toán (đôi khi bao gồm cả AI) và có thể xử lý các bố cục bảng lộn xộn hơn. Chi phí là tải báo cáo tài chính hoặc dữ liệu khách hàng của bạn lên máy chủ mà bạn không kiểm soát. Đối với các bảng đơn giản có khoảng cách cột đều đặn, tính năng trích xuất dựa trên trình duyệt của chúng tôi phù hợp với chất lượng đám mây. Đối với các báo cáo phức tạp có bảng lồng nhau, bạn có thể cần điều chỉnh đầu ra bảng tính theo cách thủ công.

Nếu tệp PDF của bạn chứa chủ yếu là văn bản thay vì bảng thì PDF sang Word sẽ phù hợp hơn. Sau khi trích xuất dữ liệu sang Excel, bạn có thể muốn tách PDF gốc để chỉ giữ lại các trang có liên quan hoặc nén nó trước khi lưu trữ.

Tại sao lại là OpenPDFTools?

100% riêng tư

Các tập tin của bạn không bao giờ rời khỏi thiết bị của bạn. Tất cả quá trình xử lý diễn ra cục bộ trong trình duyệt của bạn bằng công nghệ WebAssembly. Không thu thập dữ liệu, không có rủi ro về quyền riêng tư.

Hoàn toàn miễn phí

Không cần đăng ký. Không có phí ẩn. Không có giới hạn tập tin. Không có hình mờ. Chỉ cần những công cụ bạn cần, bất cứ khi nào bạn cần chúng.

Nhanh như chớp

Không có thời gian chờ tải lên/tải xuống. Các tập tin được xử lý ngay lập tức trên thiết bị của bạn. Ngay cả các tập tin lớn cũng được xử lý trong vài giây.

Câu hỏi thường gặp

Tính năng phát hiện bảng hoạt động như thế nào?
Công cụ trích xuất văn bản từ PDF và Phân tích vị trí không gian của từng thành phần văn bản. Các phần tử trên cùng một đường ngang sẽ trở thành một hàng và khoảng cách giữa các phần tử xác định ranh giới cột. Điều này hoạt động tốt cho các bảng được định dạng rõ ràng.
Các bảng phức tạp có chuyển đổi chính xác không?
Công cụ hoạt động tốt nhất với các bảng đơn giản, có cấu trúc tốt. Các bảng phức tạp có các ô được hợp nhất, bảng lồng nhau hoặc bố cục không đều có thể không chuyển đổi hoàn hảo. Bạn có thể cần phải điều chỉnh bảng tính theo cách thủ công sau khi chuyển đổi.
Tôi có thể chuyển đổi tệp PDF có nhiều bảng không?
Đúng. Tất cả nội dung văn bản từ tất cả các trang được trích xuất thành một bảng tính. Các bảng từ các trang khác nhau sẽ xuất hiện dưới dạng các hàng liên tiếp. Sau đó, bạn có thể tách chúng ra khi cần trong ứng dụng bảng tính của mình.
Còn các bảng PDF được quét thì sao?
Không thể xử lý các tệp PDF đã quét có chứa hình ảnh của bảng bằng công cụ này vì không có văn bản có thể trích xuất được. Trước tiên, bạn sẽ cần phần mềm OCR để chuyển đổi hình ảnh được quét thành văn bản.
Định dạng bảng tính nào được sử dụng?
Đầu ra là tệp .xlsx (định dạng Bảng tính Office Open XML), tương thích với Microsoft Excel, Google Sheets, LibreOffice Calc, Apple Numbers và hầu hết các ứng dụng bảng tính khác.

Công cụ liên quan