懒人采集器最新版是一款十分好用的网页采集工具,这款软件专为小白用户设计打造,用户可以通过懒人采集器最新版进行浏览器的可视化内容采集,用户可以在极短的时间内快速创建出一个采集任务,不需要分析网页源代码,更不需要熟悉网络协议,使用起来十分的简单。
1、懒人采集器操作简单,可通过鼠标点击的方式轻松选取要抓取的内容;
2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,加上独创的内存优化使浏览器采集也可以高速运行,甚至可以快速转换为HTTP方式运行,享受更高的采集速度;
3、而在抓取JSON数据时,同样可以使用浏览器可视化方式,通过鼠标点选需要抓取的内容,完全不需要去分析JSON数据结构,使非网页专业设计人士也可以轻松抓取需要的数据;
4、不用分析网页请求和源代码,却支持更多的网页采集;
5、先进的智能算法,可以一键生成目标元素XPATH、自动识别网页列表、自动识别分页中的下一页按钮;
6、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件;
7、也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,通过向导的方式简单映射字段,即可轻松导出到目标网站数据库中。
下载并解压完成后,双击setup1.0.exe启动安装程序(1.0是版本后,后续新版会不同)
按照安装向导,一路点击“下一步”按钮即可完成安装。
1.采集时怎样避免重复到重复数据?
在运行某个采集任务时,如果该任务之前有采集过数据,那么采集前如果没有清空原有数据的话,会以追加的形式将新采集数据添加到本地采集库中,这样就可能出现某些已采集过的数据再次重复采集入库,还有,如果目标网页本身也重复的数据,也可能造成数据重复,那么怎么避免采集的数据出现重复呢?
方法很简单,我们希望哪一个字段内容不允许出现重复,只要点击该字段表头上这个三角符号,再勾选“过滤重复”复选框,点击确定就可以了
2.如何手动生成字段?
①点击“增加字段”按钮
②点击列表中任意一行中要提取的元素,比如要提取标题和链接地址,鼠标左键点击一下该标题即可
③当点击的是网页链接时,会提示是否用时要抓取链接地址
④如果要同时提取链接标题和链接地址,点“是”,如果只要提取标题文本,点否,这里我们点“是”
⑤系统会自动生成标题和链接地址字段,并在字段列表中显示出提取到的字段内容,当点击底部表格字段标题时,会在网页上以黄色背景高亮显示出匹配的内容。
⑥如何还有标记列表中的其他字段,点击新增字段,重复以上操作即可。
同类推荐
2022-06-18
立即下载2022-06-18
立即下载2022-07-23
立即下载2022-08-13
立即下载2022-08-20
立即下载2022-09-06
立即下载相关文章
NoteExpress删除参考文献的方法
2023-01-02印象笔记连接不了服务器怎么处理?
2022-12-25wps office使用Word做电子签名的教程
2022-12-25Edraw Max画彩虹图形的操作方法
2022-12-25有道云笔记删除背景色的方法
2022-12-25教你使用图怪兽添加LOGO教程
2022-12-25草图大师如何画柱子腰线?
2022-12-18中望CAD无法连接多段线怎么办?
2022-11-12Stata怎么导入excel数据?Stata导入excel数据的技巧
2022-11-12ACDSee如何重命名?ACDSee批量重命名的方法
2022-05-26