Skip to content

Analysis

HTML analysis modules for readability, forms, tables, and metadata extraction.

6 modules

ModuleDescription
HTML 可讀性分析內容可讀性
擷取表單從 HTML 擷取表單資料
擷取中繼資料從 HTML 擷取中繼資料
擷取表格從 HTML 擷取表格資料
尋找模式在 HTML 中尋找重複的資料模式
HTML 結構分析 HTML DOM 結構

Modules

HTML 可讀性

analysis.html.analyze_readability

分析內容可讀性

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

擷取表單

analysis.html.extract_forms

從 HTML 擷取表單資料

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

擷取中繼資料

analysis.html.extract_metadata

從 HTML 擷取中繼資料

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

擷取表格

analysis.html.extract_tables

從 HTML 擷取表格資料

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

尋找模式

analysis.html.find_patterns

在 HTML 中尋找重複的資料模式

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

HTML 結構

analysis.html.structure

分析 HTML DOM 結構

Parameters:

NameTypeRequiredDefaultDescription
htmlstringYes-HTML content to analyze

Output:

FieldTypeDescription
typeanyobject
propertiesany

Released under the Apache 2.0 License.