爬虫小器合集 | 不见面编程也会爬数据

当前的主流爬虫手段是为此Python编程,Python的劲毋庸置疑,但新家学习Python还是用一两独月时间的。有没有发出有重复简约的爬取数据方式吗?答案是局部,DataCastle为汝准备了之类小器,对于每个微器而才待花十几分钟时间,跟着自己的步骤走相同全体就是可以掌握它啦~

一、Microsoft Excel

先是让大家一个用Excel爬取多少的方式,这里用底Microsoft Excel
2013本,下面手把手开始教学~

(1)新建Excel,打开她,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里因为全国实时空气质量网站啊条例,点击转至,再导入

慎选导入位置,确定

(4)结果使下图所显示,怎么样,是未是坏赞?

(5)如果要是实时更新数据,可以在“数据”——“全部更新”——“连接属性”中开展安装,输入更新频率即可

二、Google Sheet

动Google
Sheet爬取多少前,要管三碰:使用Chrome浏览器、拥有Google账号、电脑已翻墙。如果就三只尺码具备了吧,下面我们便从头吧~

(1)打开Google
Sheet网站:

(2)在首页上点击“转至Google表格”,然后登录自己的账号,可以看看如下界面,再点击“+”创建新的表

新建的表格如下:

(3)打开要爬取的对象网站,一个全国实时空气质量网站
,目标网站及之报表结构使下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是只要爬取数据的对象网站,“查询”中输入“list”或“table”,这个在数量的切实组织类型,“索引”填阿拉伯数字,从1从头,对诺在网站中定义之呐一样卖报表或列表

对此咱们若爬取的网站,我们在Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后哪怕爬得多少啦

(5)将攀登取好之表格存到当地

凡不是觉得超级简单?

三、you-get

就是一个程序员基于python
3开发之路,已经在github上面开源,支持64单网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的若会体悟的网站都有!
还有一个黑科技之地方,即使是名单上没有底网站,当您输入链接,程序吗会见怀疑你想只要生充斥什么,然后拉您下载。当然you-get要在python3条件下进展设置,用pip安装好后,在终端输入“you
get+你想生充斥资源的链接”就好当正在藏资源了。

这边叫一个you-get的中文使用验证,按照说明上勾的仍步骤操作就得啊。

未完待续……以后DataCastle还见面延续加部分大概好用之爬虫小器的,记得支持一下啦~

相关文章