Dans mon métier et même dans ma vie perso je suis régulièrement amené à utiliser des xPath.

Qu’est-ce qu’un xPath ?

Le XPath est un langage (non XML) qui permet de localiser une partie d’un document HTML/XML. A l’origine créé pour fournir une syntaxe complémentaire et une sémantique aux fonctions communes à XPointer et XSL, XPath, il a rapidement été adopté par les développeurs (et d’autres Growth Hacker et marketeur plus récemment) comme langage d’interrogation simple.

Je trouve comment les xPath ?

Via des extensions comme :

Via un clic droit dans mon navigateur via la fonction « inspecter » (ou F12, ou CTRL+Maj+I).

N.B.: testé sous Chrome, mais ne fonctionne pas sous Firefox par exemple

Et après comment s’en servir

Vous pouvez avoir un extraction directement dans certaines extensions (xPath Helper, Scraper, …), mais vous pouvez vous en servir dans des Google Docs (Spread Sheet) ou dans des outils comme Screaming Frog.

Pour Google Drive, la fonction existe de base :

=IMPORTXML(url, xpath)

Mes xPath « préférés »

Vous pouvez comme indiqué au paragraphe précédent faire un copier/coller d’un xPath trouvé sur une page web, mais vous pouvez aussi trouvé certains « facilement » en ayant des réflexes.

Pour trouver la h1 :

//a/@href

Sur le même principe, vous pouvez trouver les liens :

//a/@href

Pour aller plus loin, j’ai dû trouver toutes les URL qui possédaient un mots clés précis :

//a[contains(@href,'a word')]/@href