中文源码网
欢迎您!
会员登录
会员注册
发布自媒体
发布模版
发布源码
发布模版
发布酷站
推荐源码
常用源码
帮助中心
栏目导航
热门搜索:
网站首页
免费源码
精品源码
html模版
精品模版
酷站大全
技术文档
方案大全
网络教程
站长自媒体
新闻动态
帮助中心
免费源码下载
asp源码
php源码
python源码
.net源码
jsp源码
JS特效
安卓源码
IOS源码
微信小程序下载
毕业设计源码下载
模版下载
商城模版
手机wap模版
网络教程
html5教程
asp教程
php教程
jsp教程
html5/css教程
html5
CSS
javascript教程
javascript技巧
jquery
json
ajax
asp教程
asp入门教程
asp技巧
asp函数/类库
aspCMS
php教程
php入门教程
php技巧
php函数/类库
php框架
jsp教程
jsp入门教程
jsp技巧
jsp框架
C#/.NET教程
C#/.NET入门教程
C#/.NET技巧
MVC
Python教程
python入门教程
Python编程技巧
Python网站web
Python网络爬虫
Python自动化运维
数据挖掘/机器学习
Python人工智能
Python多媒体
Python科学计算
Python游戏开发
Python图形界面
Python数据库相关
Python与其他语言
网络营销
营销理论
营销技巧
建站经验
技术探讨
网站运营
创业学堂
点击排行
详解Python中6种数据类型
如何优化你的Mysql
PyPI常用的几个国内源地址收藏
常用Python模版库大全
python使用正则表达式最详细的教程
Python3中Random的实例教程
Python3中的BS4库的安装及使用方法教程
python中关于单行注释、多行注释以及变量、类型基础知识用法
Python3解决中文字符输出乱码的方法
Python3中关于字典和列表以及指定元素排序方法举例说明
Python3中的type和object用法
python实现txt在excel的.xls和.xlsx文件中的导入与导出
python判断文件夹是否存在,不存在则创建文件夹
Python运行错误详解
python3以后用urllib.request代替urllib2
您现在的位置:
首页
>
网络教程
>
Python编程技巧
我要投稿
我要报错
python爬虫工作原理及常用技巧
来源:
中文源码网
浏览:397 次 日期:2024-04-27 00:49:48
学习python爬虫
之前需要哪些准备?
一颗热爱学习,不屈不挠的心
一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)
html相关的一些知识。不需要精通,能懂一点就行
Python的基础语法知识 。
当这些你都具备了,这个时候你需要学习:
0.
基本的爬虫工作原理
1.
基本的http抓取工具
:scrapy
2
.Bloom Filter:
Bloom
Filters by Example
3.
如果需要大规模网页抓取,你需要学习分布式爬虫的概念。
简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。
最简单的实现是——
python-rq: https://
github
.com/nvie/rq
4.
rq和Scrapy的结合:
darkrho/scrapy-redis · GitHub
5.
后续处理:
网页析取(grangier/python-go
os
e ·
GitHub
),存储(Mongodb)
python
的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——
NO.1 F12 开发者工具
看源代码:快速定位元素
分析
xpath
:1、此处建议谷歌系浏览器,可以在源码界面直接右键看
NO.2 抓包工具
推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息
NO.3 XPATH CHECKER (火狐插件)
非常不错的xpath测试工具,不过也有几个小缺点,:
xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考
记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本
xpath
的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。
NO.4
正则表达测试工具
在线
正则表达式
测试 ,拿来多练练手,也辅助分析!里面有很多现成的
正则表达式
可以用,也可以进行参考!
上一篇:
使用正则表达式,批量去掉php注释的方法
下一篇:
利用Python爬虫批量下载视频
精彩推荐
相关内容
•
详解Python中6种数据类型
•
PyPI常用的几个国内源地址收藏
•
python使用正则表达式最详细的教程
•
python实现txt在excel的.xls和.xlsx文件中的导入与导出
•
python判断文件夹是否存在,不存在则创建文件夹
•
Python开发网站:pycharm中使用GitHub一文深入教程
•
python爬虫开发技巧,值得收藏
•
python 数据科学最实用的python库
•
python爬虫应用:采用requests + Xpath技巧
•
用Python爬取网页小技巧
•
Python几套常用开发工具对比
•
python爬虫工作原理及常用技巧
•
利用Python爬虫批量下载视频
•
python计算机视觉应用:人脸识别、面部特征提取
•
Python操作MySQL存储代码
•
python网站开发框架推荐
•
python开发学习之Django学习入门技巧篇
•
Python操作sqlite3的代码下载
网友评论
QQ客服
公众号
手机版
帮助中心