Skip to content

Text

Text analysis: word count, encoding detection, email/URL/number extraction.

6 modules

ModuleDescription
文字数テキストの文字数を数える
エンコーディング検出テキストのエンコーディングを検出する
メール抽出テキストからすべてのメールアドレスを抽出する
数字抽出テキストからすべての数字を抽出する
URL抽出テキストからすべてのURLを抽出する
単語数テキストの単語数を数える

Modules

文字数

text.char_count

テキストの文字数を数える

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-解析するテキスト

Output:

FieldTypeDescription
totalnumber解析するテキスト
without_spacesnumber総文字数
lettersnumber総文字数
digitsnumberスペースなしでカウント
spacesnumber文字の数
linesnumber数字の数

エンコーディング検出

text.detect_encoding

テキストのエンコーディングを検出する

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-エンコーディングを検出するテキストまたはバイト

Output:

FieldTypeDescription
encodingstringエンコーディングを検出するテキストまたはバイト
confidencenumber検出されたエンコーディング
is_asciiboolean検出されたエンコーディング
has_bomboolean信頼度スコア (0-1)

メール抽出

text.extract_emails

テキストからすべてのメールアドレスを抽出する

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-メールを抽出するテキスト
uniquebooleanNoTrueメールを抽出するテキスト
lowercasebooleanNoTrueユニークなメールのみを返す

Output:

FieldTypeDescription
emailsarrayメールを小文字に変換
countnumber抽出されたメールのリスト
domainsarray抽出されたメールのリスト

数字抽出

text.extract_numbers

テキストからすべての数字を抽出する

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-数字を抽出するテキスト
include_decimalsbooleanNoTrue数字を抽出するテキスト
include_negativebooleanNoTrue小数を含める

Output:

FieldTypeDescription
numbersarray負の数を含める
countnumber抽出された数字のリスト
sumnumber抽出された数字のリスト
minnumber見つかった数字の数
maxnumberすべての数字の合計

URL抽出

text.extract_urls

テキストからすべてのURLを抽出する

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-URLを抽出するテキスト
uniquebooleanNoTrueURLを抽出するテキスト

Output:

FieldTypeDescription
urlsarrayユニークなURLのみを返す
countnumber抽出されたURLのリスト

単語数

text.word_count

テキストの単語数を数える

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-分析するテキスト

Output:

FieldTypeDescription
word_countnumber分析するテキスト
unique_wordsnumber総単語数
sentence_countnumber総単語数
paragraph_countnumberユニークな単語の数
avg_word_lengthnumberおおよその文数

Released under the Apache 2.0 License.