[ Source: html-text ]
Package: python3-html-text (0.7.1-2)
Links for python3-html-text
Debian Resources:
Download Source Package html-text:
Maintainer:
External Resources:
- Homepage [github.com]
Similar packages:
estrazione di testo dall'HTML
In cosa html_text è differente da .xpath('//text()') di LXML o .get_text() di Beautiful Soup?
* Il testo estratto con html_text non contiene stili in linea, JavaScript,
commenti e altro testo che non sia normalmente visibile agli utenti.
* html_text normalizza gli spazi, ma in maniera più intelligente di
.xpath('normalize-space()), aggiungendo spazi intorno agli elementi in
linea (che spesso sono usati come elementi di tipo blocco nei marcatori
HTML) e cercando di evitare di aggiungere ulteriori spazi alla
punteggiatura.
* html-text può aggiungere degli a-capo (es. dopo intestazioni o
paragrafi), in modo che il testo in output appaia più simile a come
viene reso nei browser.
Other Packages Related to python3-html-text
|
|
|
|
-
- dep: python3
- linguaggio interattivo di alto livello orientato agli oggetti (versione python3 predefinita)
-
- dep: python3-lxml
- collegamento pythonico per le librerie libxml2 e libxslt
-
- dep: python3-lxml-html-clean
- blocklist-based HTML cleaner
Download python3-html-text
| Architecture | Package Size | Installed Size | Files |
|---|---|---|---|
| all | 9.2 kB | 36.0 kB | [list of files] |
