UNIX工具转储select的HTML?

我正在寻找监控网站上的变化,我目前的做法正在被旋转的顶级横幅所击败。 是否有一个UNIX工具,采用select参数(ID属性或XPath),从标准input读取HTML和基于select打印到标准输出的子树?

例如,给定一个html文档,我想过滤除了id="content"元素的子树以外的所有东西。 基本上,我正在寻找最简单的HTML / XML等价于grep

可能不是你要找的东西,但是如何用Python编写一个快速脚本,使用BeautifulSoup来处理HTML,并给你一个合理的结构化对象,你可以访问内容。

 import urllib2 from BeautifulSoup import BeautifulSoup as BS soup = BS(urllib2.urlopen('http://www.google.com').read()) soup.findAll('a')[1] #returns <a onclick="gbar.qs(this)" href="http://video.google.co.uk/?hl=en&amp;tab=wv" class="gb1">Videos</a> 

也许用LWP和HTML :: TreeBuilder :: XPath写一个Perl脚本。