Skip to content

Document

Excel, PDF, and Word document read/write/convert.

8 modules

ModuleDescription
Đọc ExcelĐọc dữ liệu từ tệp Excel (xlsx, xls)
Ghi ExcelGhi dữ liệu vào tệp Excel (xlsx)
Điền form PDFĐiền các trường form PDF với dữ liệu và tùy chọn chèn hình ảnh
Tạo PDFTạo tệp PDF từ nội dung HTML hoặc văn bản
Phân tích PDFTrích xuất văn bản và metadata từ tệp PDF
PDF sang WordChuyển đổi tệp PDF sang tài liệu Word (.docx)
Phân tích tài liệu WordTrích xuất văn bản và nội dung từ tài liệu Word (.docx)
Word sang PDFChuyển đổi tài liệu Word (.docx) thành tệp PDF

Modules

Đọc Excel

excel.read

Đọc dữ liệu từ tệp Excel (xlsx, xls)

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the Excel file
sheetstringNo-Sheet name (default: first sheet)
header_rownumberNo1Row number for headers (1-based, 0 for no headers)
rangestringNo-Cell range to read (e.g., "A1:D10")
as_dictbooleanNoTrueReturn rows as dictionaries (using headers as keys)

Output:

FieldTypeDescription
dataarrayCác hàng dữ liệu trích xuất
headersarrayCác hàng dữ liệu trích xuất
row_countnumberCác hàng dữ liệu trích xuất
sheet_namesarrayTiêu đề cột

Example: Read entire sheet

yaml
path: /tmp/data.xlsx
as_dict: true

Ghi Excel

excel.write

Ghi dữ liệu vào tệp Excel (xlsx)

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the Excel file
dataarrayYes-Data to write (array of arrays or array of objects)
headersarrayNo-Column headers (auto-detected from objects if not provided)
sheet_namestringNoSheet1Name of the worksheet
auto_widthbooleanNoTrueAutomatically adjust column widths

Output:

FieldTypeDescription
pathstringĐường dẫn đến tệp Excel đã tạo
row_countnumberĐường dẫn đến tệp Excel đã tạo
sizenumberĐường dẫn đến tệp Excel đã tạo

Example: Write data to Excel

yaml
path: /tmp/output.xlsx
data: [{"name": "Alice", "age": 30}, {"name": "Bob", "age": 25}]

Điền form PDF

pdf.fill_form

Điền các trường form PDF với dữ liệu và tùy chọn chèn hình ảnh

Parameters:

NameTypeRequiredDefaultDescription
templatestringYes-Path to the PDF template file
outputstringYes-Path for the output document
fieldsobjectNo{}Key-value pairs of form field names and values
imagesarrayNo[]List of images to insert with position info
flattenbooleanNoTrueFlatten form fields (make them non-editable)

Output:

FieldTypeDescription
output_pathstringĐường dẫn đến PDF đã điền
fields_fillednumberĐường dẫn đến PDF đã điền
images_insertednumberĐường dẫn đến PDF đã điền
file_size_bytesnumberSố hình ảnh đã chèn

Example: Fill form with text fields

yaml
template: /templates/form.pdf
output: /output/filled.pdf
fields: {"name": "John Doe", "id_number": "A123456789", "date": "2024-01-01"}

Example: Fill form with photo

yaml
template: /templates/id_card.pdf
output: /output/id_card_filled.pdf
fields: {"name": "Jane Doe"}
images: [{"file": "/photos/jane.jpg", "page": 1, "x": 50, "y": 650, "width": 100, "height": 120}]

Tạo PDF

pdf.generate

Tạo tệp PDF từ nội dung HTML hoặc văn bản

Parameters:

NameTypeRequiredDefaultDescription
contentstringYes-HTML or text content to convert to PDF
output_pathstringYes-Path for the output document
titlestringNo-Document title (metadata)
authorstringNo-Document author (metadata)
page_sizeselect (A4, Letter, Legal, A3, A5)NoA4Page size format
orientationselect (portrait, landscape)NoportraitPage orientation
marginnumberNo20Page margin in millimeters
headerstringNo-Header text for each page
footerstringNo-Footer text for each page

Output:

FieldTypeDescription
output_pathstringĐường dẫn đến PDF đã tạo
page_countnumberĐường dẫn đến PDF đã tạo
file_size_bytesnumberSố trang trong PDF

Example: Generate from HTML

yaml
content: <h1>Report</h1><p>Content here</p>
output_path: /path/to/report.pdf
title: Monthly Report

Phân tích PDF

pdf.parse

Trích xuất văn bản và metadata từ tệp PDF

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the PDF file
pagesstringNoallPage range (e.g., "1-5", "1,3,5", or "all")
extract_imagesbooleanNoFalseExtract embedded images
extract_tablesbooleanNoFalseExtract tables as structured data

Output:

FieldTypeDescription
textstringNội dung văn bản đã trích xuất
pagesarrayNội dung văn bản đã trích xuất
metadataobjectNội dung văn bản đã trích xuất
page_countnumberNội dung văn bản theo trang

Example: Extract all text from PDF

yaml
path: /tmp/document.pdf
pages: all

PDF sang Word

pdf.to_word

Chuyển đổi tệp PDF sang tài liệu Word (.docx)

Parameters:

NameTypeRequiredDefaultDescription
input_pathstringYes-Path to the input document
output_pathstringNo-Path for the output document
preserve_formattingbooleanNoTruePreserve basic formatting
pagesstringNoallPage range (e.g., "1-5", "1,3,5", or "all")

Output:

FieldTypeDescription
output_pathstringĐường dẫn đến tài liệu Word đã tạo
page_countnumberĐường dẫn đến tài liệu Word đã tạo
file_sizenumberSố trang đã chuyển đổi

Example: Convert entire PDF to Word

yaml
input_path: /tmp/document.pdf

Example: Convert specific pages

yaml
input_path: /tmp/document.pdf
output_path: /tmp/output.docx
pages: 1-5

Phân tích tài liệu Word

word.parse

Trích xuất văn bản và nội dung từ tài liệu Word (.docx)

Parameters:

NameTypeRequiredDefaultDescription
file_pathstringYes-Path to the Word document (.docx)
extract_tablesbooleanNoTrueExtract tables as structured data
extract_imagesbooleanNoFalseExtract embedded images
images_output_dirstringNo-Directory to save extracted images
preserve_formattingbooleanNoFalsePreserve basic formatting

Output:

FieldTypeDescription
textstringToàn bộ nội dung văn bản của tài liệu
paragraphsarrayToàn bộ nội dung văn bản của tài liệu
tablesarrayToàn bộ nội dung văn bản của tài liệu
imagesarrayDanh sách các đoạn văn
metadataobjectCác bảng được trích xuất dưới dạng mảng

Example: Extract text from Word

yaml
file_path: /path/to/document.docx

Example: Extract with tables and images

yaml
file_path: /path/to/document.docx
extract_tables: true
extract_images: true
images_output_dir: /path/to/images/

Word sang PDF

word.to_pdf

Chuyển đổi tài liệu Word (.docx) thành tệp PDF

Parameters:

NameTypeRequiredDefaultDescription
input_pathstringYes-Path to the input document
output_pathstringNo-Path for the output document
methodselect (auto, libreoffice, docx2pdf)NoautoMethod to use for conversion

Output:

FieldTypeDescription
output_pathstringĐường dẫn đến tệp PDF đã tạo
file_sizenumberĐường dẫn đến tệp PDF đã tạo
method_usedstringKích thước tệp đầu ra tính bằng byte

Example: Convert Word to PDF

yaml
input_path: /tmp/document.docx

Example: Convert with specific output path

yaml
input_path: /tmp/document.docx
output_path: /tmp/output.pdf

Released under the Apache 2.0 License.