主页 > 技术开发 > 利用python编写简单爬虫教程

利用python编写简单爬虫教程

对于刚学过python的基本知识的小伙伴,大家一般对“爬虫”这个词,一听就比较熟悉,都知道是爬一些网站上的数据,然后整理这些内容,得到人们想要的数据,但如何编写爬虫程序代码呢?相信很多人都不会,今天就写一篇想学习爬虫的新手入门文章,希望对想学习的你可以有所帮助~~废话不多说,进入正文!

一、准备工作

1、首先代码使用python3.x编写的,要有一个本地的python3环境。

python下载地址页面:https://www.python.org/downloads/release/python-370/

2、然后要有一个开发工具,推荐PyCharm,一款很好的Python交互IDE。Python自带编译器 -- IDLE也可以。

PyCharm下载地址页面:https://www.jetbrains.com/pycharm/download/

3、准备工作都做好就可以做开发在IDE里编写代码程序了。

二、简单爬虫代码开发

以豆瓣网为例,爬取豆瓣官网页面,看看能获取到什么东西,代码如下:

代码:

  1. # -*- coding: utf-8 -*-
  2.  
    import urllib.request
  3.  
     
  4.  
    # 1、网址url --豆瓣网
  5.  
    url = 'http://www.douban.com'
  6.  
     
  7.  
    # 2、直接请求 返回结果
  8.  
    response = urllib.request.urlopen(url)
  9.  
     
  10.  
    # 3、获取状态码,如果是200表示获取成功
  11.  
    print ('状态码:',response.getcode())
  12.  
     
  13.  
    # 4、读取内容
  14.  
    data = response.read()
  15.  
     
  16.  
    # 5、设置编码
  17.  
    data = data.decode('utf-8')
  18.  
     
  19.  
    # 6、打印结果
  20.  
    print (data)

 

运行结果:

截取部分代码如下,第一行是状态码:200,表明获取成功,下面是爬取到的豆瓣页面代码,由于内容过多,故截取以下部分内容。

感兴趣的小伙伴可以动手试试!

本文链接地址:https://www.xiaozeseo.com/jzjc/315.html 未经允许禁止转载,违反必究!