Skip to content

Text

Text analysis: word count, encoding detection, email/URL/number extraction.

6 modules

ModuleDescription
字元計數計算文字中的字元數
偵測編碼偵測文字編碼
提取電子郵件從文字中提取所有電子郵件地址
提取數字從文字中提取所有數字
提取 URL從文字中提取所有 URL
字數統計計算文字中的字數

Modules

字元計數

text.char_count

計算文字中的字元數

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要分析的文字

Output:

FieldTypeDescription
totalnumber要分析的文字
without_spacesnumber總字元數
lettersnumber總字元數
digitsnumber不含空格的計數
spacesnumber字母計數
linesnumber數字計數

偵測編碼

text.detect_encoding

偵測文字編碼

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要偵測編碼的文字或位元組

Output:

FieldTypeDescription
encodingstring要偵測編碼的文字或位元組
confidencenumber偵測到的編碼
is_asciiboolean偵測到的編碼
has_bomboolean信心水準(0-1)

提取電子郵件

text.extract_emails

從文字中提取所有電子郵件地址

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要從中提取電子郵件的文字
uniquebooleanNoTrue要從中提取電子郵件的文字
lowercasebooleanNoTrue僅返回唯一的電子郵件

Output:

FieldTypeDescription
emailsarray將電子郵件轉為小寫
countnumber提取的電子郵件列表
domainsarray提取的電子郵件列表

提取數字

text.extract_numbers

從文字中提取所有數字

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要從中提取數字的文字
include_decimalsbooleanNoTrue要從中提取數字的文字
include_negativebooleanNoTrue包含小數

Output:

FieldTypeDescription
numbersarray包含負數
countnumber提取的數字列表
sumnumber提取的數字列表
minnumber找到的數字數量
maxnumber所有數字的總和

提取 URL

text.extract_urls

從文字中提取所有 URL

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要從中提取 URL 的文字
uniquebooleanNoTrue要從中提取 URL 的文字

Output:

FieldTypeDescription
urlsarray僅返回唯一的 URL
countnumber提取的 URL 列表

字數統計

text.word_count

計算文字中的字數

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-要分析的文字

Output:

FieldTypeDescription
word_countnumber要分析的文字
unique_wordsnumber總字數
sentence_countnumber總字數
paragraph_countnumber獨特單字數量
avg_word_lengthnumber大約的句子數

Released under the Apache 2.0 License.