Skip to content

Text

Text analysis: word count, encoding detection, email/URL/number extraction.

6 modules

ModuleDescription
Contagem de CaracteresContar caracteres no texto
Detectar CodificaçãoDetectar codificação do texto
Extrair EmailsExtrair todos os endereços de email do texto
Extrair NúmerosExtrair todos os números do texto
Extrair URLsExtrair todos os URLs do texto
Word CountCount words in text

Modules

Contagem de Caracteres

text.char_count

Contar caracteres no texto

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Texto para analisar

Output:

FieldTypeDescription
totalnumberTexto para analisar
without_spacesnumberContagem total de caracteres
lettersnumberContagem total de caracteres
digitsnumberContar sem espaços
spacesnumberContagem de letras
linesnumberContagem de dígitos

Detectar Codificação

text.detect_encoding

Detectar codificação do texto

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Texto ou bytes para detectar codificação

Output:

FieldTypeDescription
encodingstringTexto ou bytes para detectar codificação
confidencenumberCodificação detectada
is_asciibooleanCodificação detectada
has_bombooleanPontuação de confiança (0-1)

Extrair Emails

text.extract_emails

Extrair todos os endereços de email do texto

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Texto para extrair emails
uniquebooleanNoTrueTexto para extrair emails
lowercasebooleanNoTrueRetornar apenas emails únicos

Output:

FieldTypeDescription
emailsarrayConverter emails para minúsculas
countnumberLista de emails extraídos
domainsarrayLista de emails extraídos

Extrair Números

text.extract_numbers

Extrair todos os números do texto

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Texto para extrair números
include_decimalsbooleanNoTrueTexto para extrair números
include_negativebooleanNoTrueIncluir números decimais

Output:

FieldTypeDescription
numbersarrayIncluir números negativos
countnumberLista de números extraídos
sumnumberLista de números extraídos
minnumberNúmero de números encontrados
maxnumberSoma de todos os números

Extrair URLs

text.extract_urls

Extrair todos os URLs do texto

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Texto para extrair URLs
uniquebooleanNoTrueTexto para extrair URLs

Output:

FieldTypeDescription
urlsarrayRetornar apenas URLs únicos
countnumberLista de URLs extraídos

Word Count

text.word_count

Count words in text

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text to analyze

Output:

FieldTypeDescription
word_countnumberText to analyze
unique_wordsnumberTotal word count
sentence_countnumberTotal word count
paragraph_countnumberNumber of unique words
avg_word_lengthnumberApproximate sentence count

Released under the Apache 2.0 License.