Filters

Quelli seguenti sono alcuni esempi di come utilizzare i Filters nei file di configurazione.

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
STATUS: true

Per una migliore comprensione puoi effettuare i test utilizzando questo file di configurazione iniziale:

watchpage --config test.yaml --result . --dump

Questo restituirà automaticamente tutti i collegamenti nella pagina https://github.com/muflone/watchpage e i Filters seguenti saranno usati per ottenere o trasformare i risultati fino a ottenere quanto necessario.

STARTS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - STARTS: 'https://github.com/muflone/watchpage/tree/master/'
STATUS: true

Restituirà soltanto i collegamenti che iniziano con https://github.com/muflone/watchpage/tree/master/ con i risultati seguenti:

https://github.com/muflone/watchpage/tree/master/.circleci
https://github.com/muflone/watchpage/tree/master/icons
https://github.com/muflone/watchpage/tree/master/watchpage

NOT STARTS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - STARTS: 'https://pypi.org/'
  - NOT STARTS: 'https://pypi.org/project/PyYAML/'
  - NOT STARTS: 'https://pypi.org/project/beautifulsoup4/'
  - NOT STARTS: 'https://pypi.org/project/html5lib/'
  - NOT STARTS: 'https://pypi.org/project/lxml/'
STATUS: true

Restituirà soltanto i collegamenti che iniziano con https://pypi.org/ ma che non iniziano con gli altri pattern, con i risultati seguenti:

https://pypi.org/project/WatchPage/

ENDS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - ENDS: '.zip'
STATUS: true

Restituirà soltanto i collegamenti che terminano con .zip con i risultati seguenti:

https://github.com/muflone/watchpage/archive/refs/heads/master.zip

NOT ENDS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - STARTS: 'https://pypi.org/'
  - NOT ENDS: '/PyYAML/'
  - NOT ENDS: '/beautifulsoup4/'
  - NOT ENDS: '/html5lib/'
  - NOT ENDS: '/lxml/'
STATUS: true

Restituirà soltanto i collegamenti che inziano con https://pypi.org/ ma che non terminano con gli altri pattern, con i risultati seguenti:

https://pypi.org/project/WatchPage/

CONTAINS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: '/watchpage/tree/master/'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa /watchpage/tree/master/ con i risultati seguenti:

https://github.com/muflone/watchpage/tree/master/.circleci
https://github.com/muflone/watchpage/tree/master/icons
https://github.com/muflone/watchpage/tree/master/watchpage

NOT CONTAINS

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: '/watchpage/'
  - NOT CONTAINS: 'github.com'
STATUS: true

Restituirà soltanto i collegamenti contenenti la stringa /watchpage/ ma non quelli contenenti la stringa github.com con i seguenti risultati:

http://www.muflone.com/watchpage/

REGEX

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - REGEX: '^(http|https):\/\/github\.com\/.*/watchpage\/tree\/master\/'
STATUS: true

Restituirà soltanto i collegamenti che corrispondono all’espressione regolare indicata, con i risultati seguenti:

https://github.com/muflone/watchpage/tree/master/.circleci
https://github.com/muflone/watchpage/tree/master/icons
https://github.com/muflone/watchpage/tree/master/watchpage

NOT REGEX

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: '/watchpage'
  - NOT REGEX: '(github|circleci)'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa /watchpage tranne quelli corrispondenti all’espressione regolare indicata, con i risultati seguenti:

http://www.muflone.com/watchpage/

TRIM

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - TRIM: '/:.watchpge'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà i caratteri specificati, sia dall’inizio che dalla fine, con i risultati seguenti:

muflone.com

LTRIM

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - LTRIM: ':/htp'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà i caratteri specificati, dall’inizio del testo, con i risultati seguenti:

www.muflone.com/watchpage/

RTRIM

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - RTRIM: '/watchpge'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà i caratteri specificati, dalla fine del testo, con i risultati seguenti:

http://www.muflone.com

PREPEND

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - LTRIM: ':/htp'
  - PREPEND: 'https://'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà i caratteri specificati dall’inizio del testo e quindi aggiungerà la stringa https:// all’inizio con i risultati seguenti:

https://www.muflone.com/watchpage

APPEND

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - RTRIM: '/watchpge'
  - APPEND: '/watchpage/'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà i caratteri specificati dalla fine del testo e quindi aggiungerà la stringa /watchpage/ alla fine con i risultati seguenti:

http://www.muflone.com/watchpage/

REMOVE

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REMOVE: 'www.'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà la stringa specificata con i risultati seguenti:

http://muflone.com/watchpage/

REMOVE LEFT

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REMOVE LEFT: 'http://'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà la stringa specificata all’inizio del testo con i risultati seguenti:

www.muflone.com/watchpage/

REMOVE RIGHT

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REMOVE RIGHT: 'watchpage/'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi rimuoverà la stringa specificata dalla fine del testo con i risultati seguenti:

http://www.muflone.com/

REPLACE

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REPLACE: '/watchpage/'
    WITH: '/gwakeonlan/'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi sostituirà la stringa /watchpage/ con /gwakeonlan/ con i risultati seguenti:

http://www.muflone.com/gwakeonlan/

REVERSE

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REVERSE:
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi restituirà il testo invertito con i risultati seguenti:

/egaphctaw/moc.enolfum.www//:ptth

UPPER

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'pypi.org/project/WatchPage'
  - UPPER:
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa pypi.org/project/WatchPage e per ciascuno di essi restituirà il testo in maiuscolo con i risultati seguenti:

HTTPS://PYPI.ORG/PROJECT/WATCHPAGE/

LOWER

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'pypi.org/project/WatchPage'
  - LOWER:
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa pypi.org/project/WatchPage e per ciascuno di essi restituirà il testo in minuscolo con i risultati seguenti:

https://pypi.org/project/watchpage/

LEFT

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - LEFT: 23
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi restituirà i primi 23 caratteri con i risultati seguenti:

http://www.muflone.com/

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - RIGHT: 26
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi restituirà gli ultimi 26 caratteri con i risultati seguenti:

www.muflone.com/watchpage/

REGEX REPLACE

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REGEX REPLACE: '[w]{3}\.'
    WITH: ''
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi sostituirà l’espressione regolare specificata col nuovo valore con i risultati seguenti:

http://muflone.com/watchpage/

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - REGEX SEARCH: '(http|https):\/\/[w]{3}\.muflone\.com\/'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi estrarrà il risultato dell’espressione regolare specificata con i risultati seguenti:

http://www.muflone.com/

JSON DICT

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - PREPEND: '{ "name": "Test", "value": "This is a sample dictionary" }'
  - LEFT: 58
  - JSON DICT: 'value'
  - TRIM: '"'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi aggiungerà il testo JSON specificato, limitando i risultati al solo testo JSON, estraendo il valore ed eliminando le virgolette intorno con i risultati seguenti:

This is a sample dictionary

JSON LIST

NAME: watchpage
URL: github:muflone/watchpage
PARSER: html5lib
TYPE: links
ABSOLUTE_URLS: true
FILTERS:
  - CONTAINS: 'www.muflone.com'
  - PREPEND: '[{ "name": "Data 1" }, { "name": "Data 2" }]'
  - LEFT: 44
  - JSON LIST: 1
  - JSON DICT: 'name'
  - TRIM: '"'
STATUS: true

Restituirà soltanto i collegamenti che contengono la stringa www.muflone.com e per ciascuno di essi aggiungerà il testo JSON specificato, limitando i risultati al solo testo JSON, estraendo il secondo valore della lista e quindi da esso estraendo il valore ed eliminando le virgolette intorno con i risultati seguenti:

Data 2