Skip to content

Document

Excel, PDF, and Word document read/write/convert.

8 modules

ModuleDescription
Lire ExcelLire des donnees depuis des fichiers Excel (xlsx, xls)
Ecrire ExcelEcrire des donnees dans des fichiers Excel (xlsx)
Remplir le formulaire PDFRemplir les champs de formulaire PDF avec des donnees et optionnellement inserer des images
Generer un PDFGenerer des fichiers PDF a partir de contenu HTML ou texte
Analyser un PDFExtraire du texte et des metadonnees des fichiers PDF
PDF vers WordConvertir des fichiers PDF en documents Word (.docx)
Analyser un document WordExtraire du texte et du contenu des documents Word (.docx)
Word vers PDFConvertir des documents Word (.docx) en fichiers PDF

Modules

Lire Excel

excel.read

Lire des donnees depuis des fichiers Excel (xlsx, xls)

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the Excel file
sheetstringNo-Sheet name (default: first sheet)
header_rownumberNo1Row number for headers (1-based, 0 for no headers)
rangestringNo-Cell range to read (e.g., "A1:D10")
as_dictbooleanNoTrueReturn rows as dictionaries (using headers as keys)

Output:

FieldTypeDescription
dataarrayLignes de donnees extraites
headersarrayLignes de donnees extraites
row_countnumberLignes de donnees extraites
sheet_namesarrayEn-tetes de colonnes

Example: Read entire sheet

yaml
path: /tmp/data.xlsx
as_dict: true

Ecrire Excel

excel.write

Ecrire des donnees dans des fichiers Excel (xlsx)

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the Excel file
dataarrayYes-Data to write (array of arrays or array of objects)
headersarrayNo-Column headers (auto-detected from objects if not provided)
sheet_namestringNoSheet1Name of the worksheet
auto_widthbooleanNoTrueAutomatically adjust column widths

Output:

FieldTypeDescription
pathstringChemin vers le fichier Excel cree
row_countnumberChemin vers le fichier Excel cree
sizenumberChemin vers le fichier Excel cree

Example: Write data to Excel

yaml
path: /tmp/output.xlsx
data: [{"name": "Alice", "age": 30}, {"name": "Bob", "age": 25}]

Remplir le formulaire PDF

pdf.fill_form

Remplir les champs de formulaire PDF avec des donnees et optionnellement inserer des images

Parameters:

NameTypeRequiredDefaultDescription
templatestringYes-Path to the PDF template file
outputstringYes-Path for the output document
fieldsobjectNo{}Key-value pairs of form field names and values
imagesarrayNo[]List of images to insert with position info
flattenbooleanNoTrueFlatten form fields (make them non-editable)

Output:

FieldTypeDescription
output_pathstringChemin vers le PDF rempli
fields_fillednumberChemin vers le PDF rempli
images_insertednumberChemin vers le PDF rempli
file_size_bytesnumberNombre d'images inserees

Example: Fill form with text fields

yaml
template: /templates/form.pdf
output: /output/filled.pdf
fields: {"name": "John Doe", "id_number": "A123456789", "date": "2024-01-01"}

Example: Fill form with photo

yaml
template: /templates/id_card.pdf
output: /output/id_card_filled.pdf
fields: {"name": "Jane Doe"}
images: [{"file": "/photos/jane.jpg", "page": 1, "x": 50, "y": 650, "width": 100, "height": 120}]

Generer un PDF

pdf.generate

Generer des fichiers PDF a partir de contenu HTML ou texte

Parameters:

NameTypeRequiredDefaultDescription
contentstringYes-HTML or text content to convert to PDF
output_pathstringYes-Path for the output document
titlestringNo-Document title (metadata)
authorstringNo-Document author (metadata)
page_sizeselect (A4, Letter, Legal, A3, A5)NoA4Page size format
orientationselect (portrait, landscape)NoportraitPage orientation
marginnumberNo20Page margin in millimeters
headerstringNo-Header text for each page
footerstringNo-Footer text for each page

Output:

FieldTypeDescription
output_pathstringChemin vers le PDF genere
page_countnumberChemin vers le PDF genere
file_size_bytesnumberNombre de pages dans le PDF

Example: Generate from HTML

yaml
content: <h1>Report</h1><p>Content here</p>
output_path: /path/to/report.pdf
title: Monthly Report

Analyser un PDF

pdf.parse

Extraire du texte et des metadonnees des fichiers PDF

Parameters:

NameTypeRequiredDefaultDescription
pathstringYes-Path to the PDF file
pagesstringNoallPage range (e.g., "1-5", "1,3,5", or "all")
extract_imagesbooleanNoFalseExtract embedded images
extract_tablesbooleanNoFalseExtract tables as structured data

Output:

FieldTypeDescription
textstringContenu textuel extrait
pagesarrayContenu textuel extrait
metadataobjectContenu textuel extrait
page_countnumberContenu textuel par page

Example: Extract all text from PDF

yaml
path: /tmp/document.pdf
pages: all

PDF vers Word

pdf.to_word

Convertir des fichiers PDF en documents Word (.docx)

Parameters:

NameTypeRequiredDefaultDescription
input_pathstringYes-Path to the input document
output_pathstringNo-Path for the output document
preserve_formattingbooleanNoTruePreserve basic formatting
pagesstringNoallPage range (e.g., "1-5", "1,3,5", or "all")

Output:

FieldTypeDescription
output_pathstringChemin vers le document Word genere
page_countnumberChemin vers le document Word genere
file_sizenumberNombre de pages converties

Example: Convert entire PDF to Word

yaml
input_path: /tmp/document.pdf

Example: Convert specific pages

yaml
input_path: /tmp/document.pdf
output_path: /tmp/output.docx
pages: 1-5

Analyser un document Word

word.parse

Extraire du texte et du contenu des documents Word (.docx)

Parameters:

NameTypeRequiredDefaultDescription
file_pathstringYes-Path to the Word document (.docx)
extract_tablesbooleanNoTrueExtract tables as structured data
extract_imagesbooleanNoFalseExtract embedded images
images_output_dirstringNo-Directory to save extracted images
preserve_formattingbooleanNoFalsePreserve basic formatting

Output:

FieldTypeDescription
textstringContenu textuel complet du document
paragraphsarrayContenu textuel complet du document
tablesarrayContenu textuel complet du document
imagesarrayListe des paragraphes
metadataobjectTableaux extraits sous forme de tableaux

Example: Extract text from Word

yaml
file_path: /path/to/document.docx

Example: Extract with tables and images

yaml
file_path: /path/to/document.docx
extract_tables: true
extract_images: true
images_output_dir: /path/to/images/

Word vers PDF

word.to_pdf

Convertir des documents Word (.docx) en fichiers PDF

Parameters:

NameTypeRequiredDefaultDescription
input_pathstringYes-Path to the input document
output_pathstringNo-Path for the output document
methodselect (auto, libreoffice, docx2pdf)NoautoMethod to use for conversion

Output:

FieldTypeDescription
output_pathstringChemin vers le fichier PDF genere
file_sizenumberNombre de pages converties
method_usedstringTaille du fichier de sortie en octets

Example: Convert Word to PDF

yaml
input_path: /tmp/document.docx

Example: Convert with specific output path

yaml
input_path: /tmp/document.docx
output_path: /tmp/output.pdf

Released under the Apache 2.0 License.