Skip to content

Text

Text analysis: word count, encoding detection, email/URL/number extraction.

6 modules

ModuleDescription
Liczba znakówPolicz znaki w tekście
Wykryj kodowanieWykryj kodowanie tekstu
Wyodrębnij e-maileWyodrębnij wszystkie adresy e-mail z tekstu
Wyodrębnij liczbyWyodrębnij wszystkie liczby z tekstu
Wyodrębnij URLWyodrębnij wszystkie URL z tekstu
Word CountCount words in text

Modules

Liczba znaków

text.char_count

Policz znaki w tekście

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Tekst do analizy

Output:

FieldTypeDescription
totalnumberTekst do analizy
without_spacesnumberCałkowita liczba znaków
lettersnumberCałkowita liczba znaków
digitsnumberLiczba bez spacji
spacesnumberLiczba liter
linesnumberLiczba cyfr

Wykryj kodowanie

text.detect_encoding

Wykryj kodowanie tekstu

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Tekst lub bajty do wykrycia kodowania

Output:

FieldTypeDescription
encodingstringTekst lub bajty do wykrycia kodowania
confidencenumberWykryte kodowanie
is_asciibooleanWykryte kodowanie
has_bombooleanWskaźnik pewności (0-1)

Wyodrębnij e-maile

text.extract_emails

Wyodrębnij wszystkie adresy e-mail z tekstu

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Tekst do wyodrębnienia e-maili
uniquebooleanNoTrueTekst do wyodrębnienia e-maili
lowercasebooleanNoTrueZwróć tylko unikalne e-maile

Output:

FieldTypeDescription
emailsarrayKonwertuj e-maile na małe litery
countnumberLista wyodrębnionych e-maili
domainsarrayLista wyodrębnionych e-maili

Wyodrębnij liczby

text.extract_numbers

Wyodrębnij wszystkie liczby z tekstu

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Tekst do wyodrębnienia liczb
include_decimalsbooleanNoTrueTekst do wyodrębnienia liczb
include_negativebooleanNoTrueUwzględnij liczby dziesiętne

Output:

FieldTypeDescription
numbersarrayUwzględnij liczby ujemne
countnumberLista wyodrębnionych liczb
sumnumberLista wyodrębnionych liczb
minnumberLiczba znalezionych liczb
maxnumberSuma wszystkich liczb

Wyodrębnij URL

text.extract_urls

Wyodrębnij wszystkie URL z tekstu

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Tekst do wyodrębnienia URL
uniquebooleanNoTrueTekst do wyodrębnienia URL

Output:

FieldTypeDescription
urlsarrayZwróć tylko unikalne URL
countnumberLista wyodrębnionych URL

Word Count

text.word_count

Count words in text

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text to analyze

Output:

FieldTypeDescription
word_countnumberText to analyze
unique_wordsnumberTotal word count
sentence_countnumberTotal word count
paragraph_countnumberNumber of unique words
avg_word_lengthnumberApproximate sentence count

Released under the Apache 2.0 License.