今天上计算机课, 老师要求我们获取http://rdfz.cn/xyxw/xyxwx/t20110915_19890.htm里面的文字(网页上限制不许选择、不许右键点击), 限时2分钟。
我的第一反应就是查看源代码, 然后去除HTML标签, 即可获得内容。于是我在某一个用老师的方法做完的同学之后做完, 叫老师看, 老师说我是不是从别的网站找的, bs
时间到, 老师公布了方法, 点击一个”用Microsoft Word编辑”的按钮即可, 显然这个办法是不好的, 因为老师说如果网页的代码过滤严格的话就会报错。
怎么办呢? 老师给出了第二种办法, 另存为txt, 如果过滤严格同样会报错。
于是, 老师给出了妙招, 查看源代码, 然后删除某些代码即可, 和我的方法相似, 这个办法挺好的, 成功率大。
于是我又想, 如果网页禁止查看源代码怎么办呢?
解决方案0: 调整安全级别, 禁止网页脚本, 可是还要调回去。
解决方案1: 抓包获得源代码, 然后用老师的妙招即可, 可是抓包不容易。
解决方案2: 编写程序模拟HTTP请求获得源代码并自动处理。
所以我就实现了解决方案2, 下载: DownloadAndFormat.zip
自认为写程序是最好的一个方法, 一劳永逸啊!
PS.使用方法如下:
1.打开exe文件
2.键入或者粘贴(Alt+空格、再按E、再按P)网址
3.回车
4.查看生成的txt文件即可
2,禁用js即可
可是用完后还要调回去
禁用js方法已添加
不错,有研究精神。
顺便同BS一下你们这位老师
被遗忘的telnet,
telnet xiaoxia.org 80
GET / HTTP/1.0
Host: xiaoxia.org
我看到了大坨大坨的
<P style=”MARGIN: 0cm 0cm 0pt” class=MsoPlainText>