对于刚学过python的基本知识的小伙伴,大家一般对“爬虫”这个词,一听就比较熟悉,都知道是爬一些网站上的数据,然后整理这些内容,得到人们想要的数据,但如何编写爬虫程序代码呢?相信很多人都不会,今天就写一篇想学习爬虫的新手入门文章,希望对想学习的你可以有所帮助~~废话不多说,进入正文!
一、准备工作
1、首先代码使用python3.x编写的,要有一个本地的python3环境。
python下载地址页面:https://www.python.org/downloads/release/python-370/
2、然后要有一个开发工具,推荐PyCharm,一款很好的Python交互IDE。Python自带编译器 -- IDLE也可以。
PyCharm下载地址页面:https://www.jetbrains.com/pycharm/download/
3、准备工作都做好就可以做开发在IDE里编写代码程序了。
二、简单爬虫代码开发
以豆瓣网为例,爬取豆瓣官网页面,看看能获取到什么东西,代码如下:
代码:
-
-
-
-
-
url = 'http://www.douban.com'
-
-
-
response = urllib.request.urlopen(url)
-
-
-
print ('状态码:',response.getcode())
-
-
-
-
-
-
data = data.decode('utf-8')
-
-
-
运行结果:
截取部分代码如下,第一行是状态码:200,表明获取成功,下面是爬取到的豆瓣页面代码,由于内容过多,故截取以下部分内容。

感兴趣的小伙伴可以动手试试!
关于《利用python编写简单爬虫教程》的相关内容,就给大家讲到这里。
本文链接地址:https://www.xiaozeseo.com/jzjc/315.html 未经允许禁止转载。