领取淘宝天猫优惠券:优惠淘 | 欢迎使用随心而码微信小程序,微信搜一搜【随心而码】可直接搜到。

Python爬虫实战——爬取XKCD漫画

Python Hicoder 828℃ 0评论

 

0 前言

Python版本:3.7.0

开发工具:IDLE(Python 3.7 64-bit)、Google Chrome

1 网络爬虫(web crawler)?

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 ——百度百科

简单点,网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序

2 必备HTML、CSS知识

一个基本的网页-example.html:

2.1 了解HTML基本组成

详细学习HTML:https://www.runoob.com/html/html-tutorial.html

在example.html中,“<!doctype html>”声明文档类型,为html。

用“<”、“>”包含单词或字母构成html的标签,标签一般是成对的,如“<p></p>”。

“<head></head>”中包含网页的基本信息,如网页标题(显示在浏览器标题栏)、编码、作者、描述等。

“<body></body>”中包含的内容将展示在浏览器中。

标签有属性。如src、href等。

常见的标签:

2.2 了解CSS是什么?CSS选择器是什么?

详细学习CSS:https://www.runoob.com/css/css-tutorial.html

CSS用来告诉浏览器该怎么显示网页内容——使网页更美观。

常用CSS选择器:id、class、标签选择器

3 Python基础知识

请学习:https://linjianming.com/python

4 Python开发网络爬虫

4.1 requests

安装requests模块:pip3 install requests

用途:从网络上下载文件和网页。

常用函数:requests.get()函数接受一个要下载的URL

4.2 bs4

安装bs4模块:pip3 install bs4

用途:解析HTML

使用方法:用select()方法寻找HTML元素,用标签的get()方法从元素中获取数据。

常用CSS选择器的模式:

传递给select()方法的选择器 将匹配…
soup.select(‘div’) 所有<div>元素
soup.select(‘#author’) 带有id属性为author的元素
soup.select(‘.nav’) 所有使用CSS class属性名为nav的元素
soup.select(‘div p’) 所有在<div>元素之内的<p>元素

4.3 os

Python自带,不用手动安装。

常用:

  • 用 os.makedirs() 创建新文件夹
  • os.path.join() 构建文件路径
  • os.path.basename() 获取文件基本名称

关于Python文件读写,参考:https://linjianming.com/python-zhongjijiaochengduxiewenjianer.html

5 网络爬虫实战

5.1 下载xkcd漫画——《Python编程快速上手——让繁琐工作自动化》

5.2 待更…

 

转载请注明:随心而码 » Python爬虫实战——爬取XKCD漫画

喜欢 (2)
(1)个小伙伴在吐槽
  1. 微信渲染有问题,请到官网阅读
    JM Lin2019-06-25 17:42 回复