Python学习笔记之简略爬虫

来历 : 作者 : admin时刻 : 2017-07-16 08:30:08 人气指数 :

导语所谓的爬虫便是经过代码的方法，抓取网站上的你想要的任何信息，比方你在网上看见许多有意思的图片，假如不会爬虫的话，我是不是的一张张另存下来，假如会了爬虫，就能悄然无声的吧图片下载下来，渐渐赏识。

　　现阶段咱们运用urllib模块，去做最简略的爬虫，由于比较简略，所以直接看代码就行。首要常识便是经过urllib模块的各个函数加上正则表达式去完结。

#encoding:utf-8

import re

import urllib

#运用urllib的urlopen（）函数翻开一个url地址

#并读取一切的html代码，

def gethtml(url):

    content=urllib.urlopen(url)

    html=content.read()

    return html

#依据正则表达式去匹配契合规矩的内容

def geturls(html):

    r=r'data-src="(https://.*?)"'

    alllist=re.findall(r,html)

    return alllist

#运用urlretrieve（）下载文件

def download(list):

    x=0

    for li in list:

        x=x+1

        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':

    #内在段子

    url = "https://neihanshequ.com/pic/"

    #获取网页源码

    html = gethtml(url)

    #依据必定规矩过滤出想要的内容

    list = geturls(html)

    #下载图片

    download(list)

    print list

阅览作用当即下载

TAG:爬虫 Python

本站欢迎任何方式的转载，但请有必要注明出处，尊重别人劳动成果
转载请注明：文章转载自：BETWAY官网网 https://www.nucmc.com/show-18-1109-1.html

Python学习笔记之简略爬虫

[BETWAY登录插件引荐] Plugin