Skip to content

Text

Text analysis: word count, encoding detection, email/URL/number extraction.

6 modules

ModuleDescription
ZeichenzählerZeichen im Text zählen
Kodierung erkennenTextkodierung erkennen
E-Mails extrahierenAlle E-Mail-Adressen aus dem Text extrahieren
Zahlen extrahierenAlle Zahlen aus dem Text extrahieren
URLs extrahierenAlle URLs aus dem Text extrahieren
WortanzahlWörter im Text zählen

Modules

Zeichenzähler

text.char_count

Zeichen im Text zählen

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Zu analysierender Text

Output:

FieldTypeDescription
totalnumberZu analysierender Text
without_spacesnumberGesamtanzahl der Zeichen
lettersnumberGesamtanzahl der Zeichen
digitsnumberZählen ohne Leerzeichen
spacesnumberBuchstabenanzahl
linesnumberZiffernanzahl

Kodierung erkennen

text.detect_encoding

Textkodierung erkennen

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text oder Bytes zur Kodierungserkennung

Output:

FieldTypeDescription
encodingstringText oder Bytes zur Kodierungserkennung
confidencenumberErkannte Kodierung
is_asciibooleanErkannte Kodierung
has_bombooleanVertrauenswürdigkeit (0-1)

E-Mails extrahieren

text.extract_emails

Alle E-Mail-Adressen aus dem Text extrahieren

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text, aus dem E-Mails extrahiert werden sollen
uniquebooleanNoTrueText, aus dem E-Mails extrahiert werden sollen
lowercasebooleanNoTrueNur eindeutige E-Mails zurückgeben

Output:

FieldTypeDescription
emailsarrayE-Mails in Kleinbuchstaben umwandeln
countnumberListe der extrahierten E-Mails
domainsarrayListe der extrahierten E-Mails

Zahlen extrahieren

text.extract_numbers

Alle Zahlen aus dem Text extrahieren

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text, aus dem Zahlen extrahiert werden sollen
include_decimalsbooleanNoTrueText, aus dem Zahlen extrahiert werden sollen
include_negativebooleanNoTrueDezimalzahlen einbeziehen

Output:

FieldTypeDescription
numbersarrayNegative Zahlen einbeziehen
countnumberListe der extrahierten Zahlen
sumnumberListe der extrahierten Zahlen
minnumberAnzahl der gefundenen Zahlen
maxnumberSumme aller Zahlen

URLs extrahieren

text.extract_urls

Alle URLs aus dem Text extrahieren

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Text, aus dem URLs extrahiert werden sollen
uniquebooleanNoTrueText, aus dem URLs extrahiert werden sollen

Output:

FieldTypeDescription
urlsarrayNur eindeutige URLs zurückgeben
countnumberListe der extrahierten URLs

Wortanzahl

text.word_count

Wörter im Text zählen

Parameters:

NameTypeRequiredDefaultDescription
texttextYes-Zu analysierender Text

Output:

FieldTypeDescription
word_countnumberZu analysierender Text
unique_wordsnumberGesamtanzahl der Wörter
sentence_countnumberGesamtanzahl der Wörter
paragraph_countnumberAnzahl der einzigartigen Wörter
avg_word_lengthnumberUngefähre Satzanzahl

Released under the Apache 2.0 License.