发布网友 发布时间:2023-08-14 16:16
共1个回答
热心网友 时间:2024-08-15 00:14
网页内容不能复制怎么办?
尊重知识产权,尊重劳动者和网站的合法权益!
为了帮助解决一些用户的燃眉之急,跟大家分享的一点点小伎俩。
很多人有过这样的经历:好容易找到了一篇心仪的文档,只让看,不让摸(下)。急死个人!
不是不想注册账号,因为注册了也未必能下载;
更不是不想花钱买下载券(豆),关键是着急用,怕耽误事儿(^_^)。
最好是能直接拷贝才够贴心。
可惜的是,很多网页的内容连拷贝都做不到。为此,作者给个建议,看官不妨一试。
绝大部分网页对内容复制的*主要靠Java脚本功能实现的,只要想办法把这些脚本屏蔽掉就可以了。下面,分别就普通网页和百度文库的内容复制做一尝试。
拢共分三步:1、保存网页;2、编辑网页源文件(删除JavaScript);3、复制您想要的内容。
这三步中,最麻烦的就是删除JavaScript了。
一、普通网页内容的复制
(一)保存网页
浏览网页时,按下Ctrl+S,保存网页源文件。保存后的结果包括一个.html文件和一个_files文件夹。
如:某网页标题为“规范性文件的程序文件”,保存源文件的结果有两个:规范性文件的程序文件.html文件和规范性文件的程序文件_files文件夹。我们只关注.html文件,_files文件夹是网页上的图片等资源,只关注文字的话,这个文件夹不用理会,删除.html文件后,此文件夹一并消失。
(二)编辑网页源文件(删除JavaScript)
先打开Word或记事本等文字编辑工具,再在Word或记事本中打开“规范性文件的程序文件.html”文件。不能双击打开.html文件,因为.html文件一般默认用浏览器打开的,看不到.html文件的源内容。推荐使用Notepad++或UltraEdit等工具编辑,因为能提供行号。
1、按Ctr+F查找到您关注内容的开头几个字,记下行号。如图:
开头在第112行。
2、再按Ctr+F查找到您关注内容的结尾几个字。如图:
3、保留第本行至第112行间所有内容。
方法是,拷贝此行至上面第112行间所有内容,粘贴至一个新建文档,保存该文档为.html格式文件,名字假设为temp.html。
(三)复制您要的内容
双击temp.html文件,用浏览器打开之,一般情况下,您就可以随意复制了。可惜的是,网页中看到的文件格式如加粗、缩进等可能就没了,看官只好自己再排版了。
二、百度文库内容的复制
第一步仍然是保存网页源码,不再赘述。
关键是找到控制复制权限的JavaScript并删除之。
百度文库的JavaScript删除不能像普通网页那样,仅保留文档开都和结尾间的内容,否则新建的文件打开后,内容将乱得跟满天星似的。
删除步骤如下:
1、用Word或记事本打开源文件。
2、按Ctr+F查找到您关注内容的开头几个字,记下行号。如图:
开头在第638行。
3、按Ctr+F查找到“header-wrap”字符串,如图:
4、将“header-wrap”所在行(包括此行在内)至第638行间所有内容删除,之后,按Ctrl+S保存修改结果。
5、双击打开此源文件,您会发现文字可复制了。注意:打开此文件时,浏览器需要执行剩下的一些脚本语言以及其他原因,打开可能会慢一些,您只需看到自己想要的文字显示出来了,停止浏览器继续刷新即可。
同样非常可惜,复制百度文库内容的这个方法,也会损失文档的一些格式。更要命的是,有些文档是表格形式,而此方法只能复制其中的文字,表格复制不了,容我再研究一下,届时跟大家分享。