博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Python3网络爬虫开发实战] 4-解析库的使用
阅读量:6380 次
发布时间:2019-06-23

本文共 411 字,大约阅读时间需要 1 分钟。

上一章中,我们实现了一个最基本的爬虫,但提取页面信息时使用的是正则表达式,这还是比较烦琐,而且万一有地方写错了,可能导致匹配失败,所以使用正则表达式提取页面信息多多少少还是有些不方便。

对于网页的节点来说,它可以定义idclass或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,不就可以提取我们想要的任意信息了吗?

在Python中,怎样实现这个操作呢?不用担心,这种解析库已经非常多,其中比较强大的库有lxml、Beautiful Soup、pyquery等,本章就来介绍这3个解析库的用法。有了它们,我们就不用再为正则表达式发愁,而且解析效率也会大大提高。

转载于:https://www.cnblogs.com/palace/p/9628220.html

你可能感兴趣的文章
NATS连线协议详解
查看>>
vue插槽slot
查看>>
日历类报表可以这样实现
查看>>
linux常用命令
查看>>
CirruScript 写的: 函数式编程另类指南
查看>>
Java 获取文件的上级目录
查看>>
Confluence 6 CSS 编辑快速入门
查看>>
我要做 Android 之消息机制
查看>>
极简的高性能框架 one 1.4.6 发布,新增参数验证器
查看>>
推荐两个漂亮的编程字体
查看>>
Linux系统诊断小技巧(14):启停问题之如何修复initrd损坏
查看>>
Python数据科学分析速查表
查看>>
jmeter测试教程
查看>>
Trie 树内存消耗问题
查看>>
区块链教程btcpool矿池源码分析slparser
查看>>
OC 中,覆盖属性会有怎么样的化学反应?
查看>>
Linux MySQL 8.0 忘记密码
查看>>
Android:随笔——我们用什么来替代 Enum 这个内存大户
查看>>
TCP连接的状态详解以及故障排查
查看>>
RFC2616-HTTP1.1-Methods(方法规定部分—译文)
查看>>