获得网页上文字

今天上计算机课, 老师要求我们获取http://rdfz.cn/xyxw/xyxwx/t20110915_19890.htm里面的文字(网页上限制不许选择、不许右键点击), 限时2分钟。

我的第一反应就是查看源代码, 然后去除HTML标签, 即可获得内容。于是我在某一个用老师的方法做完的同学之后做完, 叫老师看, 老师说我是不是从别的网站找的, bs :(

时间到, 老师公布了方法, 点击一个”用Microsoft Word编辑”的按钮即可, 显然这个办法是不好的, 因为老师说如果网页的代码过滤严格的话就会报错。

怎么办呢? 老师给出了第二种办法, 另存为txt, 如果过滤严格同样会报错。

于是, 老师给出了妙招, 查看源代码, 然后删除某些代码即可, 和我的方法相似, 这个办法挺好的, 成功率大。

于是我又想, 如果网页禁止查看源代码怎么办呢?

解决方案0: 调整安全级别, 禁止网页脚本, 可是还要调回去。

解决方案1: 抓包获得源代码, 然后用老师的妙招即可, 可是抓包不容易。

解决方案2: 编写程序模拟HTTP请求获得源代码并自动处理。

所以我就实现了解决方案2, 下载: DownloadAndFormat.zip

自认为写程序是最好的一个方法, 一劳永逸啊!

PS.使用方法如下:

1.打开exe文件

2.键入或者粘贴(Alt+空格、再按E、再按P)网址

3.回车

4.查看生成的txt文件即可

发表评论?

7 条评论。

  1. 2,禁用js即可

  2. 不错,有研究精神。
    顺便同BS一下你们这位老师

  3. 被遗忘的telnet,
    telnet xiaoxia.org 80

    GET / HTTP/1.0
    Host: xiaoxia.org

  4. 我看到了大坨大坨的

发表评论

注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

:wink: :twisted: :roll: :oops: :mrgreen: :lol: :idea: :evil: :cry: :arrow: :?: :-| :-x :-o :-P :-D :-? :) :( :!: 8-O 8)

本文链接:https://twd2.me/archives/1081QrCode