Skip to content

Analysis

HTML analysis modules for readability, forms, tables, and metadata extraction.

6 modules

ModuleDescription
Khả năng đọc HTMLPhân tích khả năng đọc nội dung
Trích xuất FormsTrích xuất dữ liệu form từ HTML
Trích xuất MetadataTrích xuất metadata từ HTML
Trích xuất bảngTrích xuất dữ liệu bảng từ HTML
Tìm mẫuTìm các mẫu dữ liệu lặp lại trong HTML
Cấu trúc HTMLPhân tích cấu trúc DOM HTML

Modules

Khả năng đọc HTML

analysis.html.analyze_readability

Phân tích khả năng đọc nội dung

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Trích xuất Forms

analysis.html.extract_forms

Trích xuất dữ liệu form từ HTML

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Trích xuất Metadata

analysis.html.extract_metadata

Trích xuất metadata từ HTML

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Trích xuất bảng

analysis.html.extract_tables

Trích xuất dữ liệu bảng từ HTML

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Tìm mẫu

analysis.html.find_patterns

Tìm các mẫu dữ liệu lặp lại trong HTML

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Cấu trúc HTML

analysis.html.structure

Phân tích cấu trúc DOM HTML

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Released under the Apache 2.0 License.