获得网页上文字

作者: twd2 日期: 2011 年 09 月 16 日被围观 3,204 次发表评论 (7) 查看评论

今天上计算机课, 老师要求我们获取http://rdfz.cn/xyxw/xyxwx/t20110915_19890.htm里面的文字(网页上限制不许选择、不许右键点击), 限时2分钟。

我的第一反应就是查看源代码, 然后去除HTML标签, 即可获得内容。于是我在某一个用老师的方法做完的同学之后做完, 叫老师看, 老师说我是不是从别的网站找的, bs

时间到, 老师公布了方法, 点击一个”用Microsoft Word编辑”的按钮即可, 显然这个办法是不好的, 因为老师说如果网页的代码过滤严格的话就会报错。

怎么办呢? 老师给出了第二种办法, 另存为txt, 如果过滤严格同样会报错。

于是, 老师给出了妙招, 查看源代码, 然后删除某些代码即可, 和我的方法相似, 这个办法挺好的, 成功率大。

于是我又想, 如果网页禁止查看源代码怎么办呢?

解决方案0: 调整安全级别, 禁止网页脚本, 可是还要调回去。

解决方案1: 抓包获得源代码, 然后用老师的妙招即可, 可是抓包不容易。

解决方案2: 编写程序模拟HTTP请求获得源代码并自动处理。

所以我就实现了解决方案2, 下载: DownloadAndFormat.zip

自认为写程序是最好的一个方法, 一劳永逸啊!

PS.使用方法如下:

1.打开exe文件

2.键入或者粘贴(Alt+空格、再按E、再按P)网址

3.回车

4.查看生成的txt文件即可

7 条评论。