php实现爬取和分析知乎用户数据

您现在的位置：首页 > 技术文档 > php入门教程

来源：中文源码网浏览：200 次日期：2024-05-14 11:41:25

php实现爬取和分析知乎用户数据
背景说明：小拽利用php的curl写的爬虫，实验性的爬取了知乎5w用户的基本信息；同时，针对爬取的数据，进行了简单的分析呈现。
php的spider代码和用户dashboard的展现代码，整理后上传github，在个人博客和公众号更新代码库，程序仅供娱乐和学习交流；如果有侵犯知乎相关权益，请尽快联系本人删除。
无图无真相
移动端分析数据截图
pc端分析数据截图
整个爬取，分析，展现过程大概分如下几步，小拽将分别介绍
curl爬取知乎网页数据
正则分析知乎网页数据
数据数据入库和程序部署
数据分析和呈现
curl爬取网页数据
PHP的curl扩展是PHP支持的，允许你与各种服务器使用各种类型的协议进行连接和通信的库。是一个非常便捷的抓取网页的工具，同时，支持多线程扩展。
本程序抓取的是知乎对外提供用户访问的个人信息页面http://www.zhihu.com/people/xxx,抓取过程需要携带用户cookie才能获取页面。直接上码
获取页面cookie
复制代码代码如下:
// 登录知乎，打开个人中心，打开控制台，获取cookie
document.cookie
"_za=67254197-3wwb8d-43f6-94f0-fb0e2d521c31; _ga=GA1.2.2142818188.1433767929; q_c1=78ee1604225d47d08cddd8142a08288b23|1452172601000|1452172601000; _xsrf=15f0639cbe6fb607560c075269064393; cap_id="N2QwMTExNGQ0YTY2NGVddlMGIyNmQ4NjdjOTU0YTM5MmQ=|1453444256|49fdc6b43dc51f702b7d6575451e228f56cdaf5d"; __utmt=1; unlock_ticket="QUJDTWpmM0lsZdd2dYQUFBQVlRSlZUVTNVb1ZaNDVoQXJlblVmWGJ0WGwyaHlDdVdscXdZU1VRPT0=|1453444421|c47a2afde1ff334d416bafb1cc267b41014c9d5f"; __utma=51854390.21428dd18188.1433767929.1453187421.1453444257.3; __utmb=51854390.14.8.1453444425011; __utmc=51854390; __utmz=51854390.1452846679.1.dd1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmv=51854390.100-1|2=registration_date=20150823=1^dd3=entry_date=20150823=1"
抓取个人中心页面
通过curl，携带cookie，先抓取本人中心页面
/**
* 通过用户名抓取个人中心页面并存储
*
* @param $username str :用户名 flag
* @return boolean :成功与否标志
*/
public function spiderUser($username)
{
$cookie = "xxxx" ;
$url_info = 'http://www.zhihu.com/people/' . $username; //此处cui-xiao-zhuai代表用户ID,可以直接看url获取本人id
$ch = curl_init($url_info); //初始化会话
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIE, $cookie); //设置请求COOKIE
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
$result = curl_exec($ch);
file_put_contents('/home/work/zxdata_ch/php/zhihu_spider/file/'.$username.'.html',$result);
return true;
}
正则分析网页数据分析新链接，进一步爬取
对于抓取过来的网页进行存储，要想进行进一步的爬取，页面必须包含有可用于进一步爬取用户的链接。通过对知乎页面分析发现：在个人中心页面中有关注人和部分点赞人和被关注人。
如下所示
复制代码代码如下:
// 抓取的html页面中发现了新的用户，可用于爬虫

ok，这样子就可以通过自己-》关注人-》关注人的关注人-》。。。进行不断爬取。接下来就是通过正则匹配提取该信息
复制代码代码如下:
// 匹配到抓取页面的所有用户
preg_match_all('/\/people\/([\w-]+)\"/i', $str, $match_arr);
// 去重合并入新的用户数组,用户进一步抓取
self::$newUserArr = array_unique(array_merge($match_arr[1], self::$newUserArr));
到此，整个爬虫过程就可以顺利进行了。
如果需要大量的抓取数据，可以研究下curl_multi和pcntl进行多线程的快速抓取，此处不做赘述。
分析用户数据，提供分析
通过正则可以进一步匹配出更多的该用户数据，直接上码。
// 获取用户头像
preg_match('//i', $str, $match_img);
$img_url = $match_img[1];
// 匹配用户名：
// 崔小拽
preg_match('/([\x{4e00}-\x{9fa5}]+).+span>/u', $str, $match_name);
$user_name = $match_name[1];
// 匹配用户简介
// class bio span 中文
preg_match('/([\x{4e00}-\x{9fa5}]+).+span>/u', $str, $match_title);
$user_title = $match_title[1];
// 匹配性别
// 男
// gender value1 ;结束中文
preg_match('/$user_sex = $match_sex[1];
// 匹配地区
//
preg_match('//u', $str, $match_city);
$user_city = $match_city[1];
// 匹配工作
//人见人骂的公司
preg_match('//u', $str, $match_employment);
$user_employ = $match_employment[1];
// 匹配职位
// 程序猿
preg_match('//u', $str, $match_position);
$user_position = $match_position[1];
// 匹配学历
// 研究僧
preg_match('//u', $str, $match_education);
$user_education = $match_education[1];
// 工作情况
// 挨踢
preg_match('/([\x{4e00}-
\x{9fa5}]+)$user_education_extra = $match_education_extra[1];
// 匹配关注话题数量
// class="zg-link-litblue">41 个话题
preg_match('/class=\"?zg-link-litblue\"?>(\d+)\s.+strong>/i', $str, $match_topic);
$user_topic = $match_topic[1];
// 关注人数
// 关注了
preg_match_all('/(\d+)<.+/i', $str, $match_care);
$user_care = $match_care[1][0];
$user_be_careed = $match_care[1][1];
// 历史浏览量
// 个人主页被 17 人浏览
preg_match('/class=\"?zg-gray-normal\"?.+>(\d+)<.+span>/i', $str, $match_browse);
$user_browse = $match_browse[1];
在抓取的过程中，有条件的话，一定要通过redis入库，确实能提升抓取和入库效率。没有条件的话只能通过sql优化。这里来几发心德。
数据库表设计索引一定要慎重。在spider爬取的过程中，建议出了用户名，左右字段都不要索引，包括主键都不要，尽可能的提高入库效率，试想5000w的数据，每次添加一个，建立索引需要多少消耗。等抓取完毕，需要分析数据时，批量建立索引。
数据入库和更新操作，一定要批量。 mysql 官方给出的增删改的建议和速度：http://dev.mysql.com/doc/refman/5.7/en/insert-speed.html
# 官方的最优批量插入
INSERT INTO yourtable VALUES (1,2), (5,5), ...;
部署操作。程序在抓取过程中，有可能会出现异常挂掉，为了保证高效稳定，尽可能的写一个定时脚本。每隔一段时间干掉，重新跑，这样即使异常挂掉也不会浪费太多宝贵时间，毕竟，time is money。
#!/bin/bash
# 干掉
ps aux |grep spider |awk '{print $2}'|xargs kill -9
sleep 5s
# 重新跑
nohup /home/cuixiaohuan/lamp/php5/bin/php /home/cuixiaohuan/php/zhihu_spider/spider_new.php &
数据分析呈现
数据的呈现主要使用echarts 3.0，感觉对于移动端兼容还不错。兼容移动端的页面响应式布局主要通过几个简单的css控制，代码如下
// 获取用户头像
preg_match('//i', $str, $match_img);
$img_url = $match_img[1];
// 匹配用户名：
// 崔小拽
preg_match('/([\x{4e00}-\x{9fa5}]+).+span>/u', $str, $match_name);
$user_name = $match_name[1];
// 匹配用户简介
// class bio span 中文
preg_match('/([\x{4e00}-\x{9fa5}]+).+span>/u', $str, $match_title);
$user_title = $match_title[1];
// 匹配性别
// 男
// gender value1 ;结束中文
preg_match('/$user_sex = $match_sex[1];
// 匹配地区
//
preg_match('//u', $str, $match_city);
$user_city = $match_city[1];
// 匹配工作
//人见人骂的公司
preg_match('//u', $str, $match_employment);
$user_employ = $match_employment[1];
// 匹配职位
// 程序猿
preg_match('//u', $str, $match_position);
$user_position = $match_position[1];
// 匹配学历
// 研究僧
preg_match('//u', $str, $match_education);
$user_education = $match_education[1];
// 工作情况
// 挨踢
preg_match('/([\x{4e00}-
\x{9fa5}]+)$user_education_extra = $match_education_extra[1];
// 匹配关注话题数量
// class="zg-link-litblue">41 个话题
preg_match('/class=\"?zg-link-litblue\"?>(\d+)\s.+strong>/i', $str, $match_topic);
$user_topic = $match_topic[1];
// 关注人数
// 关注了
preg_match_all('/(\d+)<.+/i', $str, $match_care);
$user_care = $match_care[1][0];
$user_be_careed = $match_care[1][1];
// 历史浏览量
// 个人主页被 17 人浏览
preg_match('/class=\"?zg-gray-normal\"?.+>(\d+)<.+span>/i', $str, $match_browse);
$user_browse = $match_browse[1];
不足和待学习
整个过程中涉及php,shell,js,css,html,正则等语言和部署等基础知识，但还有诸多需要改进完善，小拽特此记录，后续补充例：
php 采用multicul进行多线程。
正则匹配进一步优化
部署和抓取过程采用redis提升存储
移动端布局的兼容性提升
js的模块化和sass书写css。

上一篇：PHP实现排序堆排序（Heap Sort）算法

下一篇：php实现模拟登陆方正教务系统抓取课表

相关内容

• 在Ubuntu 18.04上安装PHP 7.3 7.2和7.0的方法

• 用PHP做了一个领取优惠券活动的示例代码

• 因str_replace导致的注入问题总结

• 一文掌握PHP Xdebug 本地与远程调试(小结)

• 详细对比php中类继承和接口继承

• 网站被恶意镜像怎么办 php一段代码轻松搞定（全面版）

• 通过PHP设置BugFree获取邮箱通知

• 使用PHP反射机制来构造_CREATE TABLE_的sql语句

• 实例说明js脚本语言和php脚本语言的区别

• 实例介绍PHP删除数组中的重复元素

• 实例讲解通过PHP创建数据库

• 实例讲解PHP中使用命名空间

• 实例讲解PHP验证邮箱是否合格

• 实例讲解php将字符串输出到HTML

• 实例分析10个PHP常见安全问题

• 深入理解 PHP7 中全新的 zval 容器和引用计数机制

• 如何让PHP编码更加好看利于阅读

• 浅析PHP 中move_uploaded_file 上传中文文件名失败

• 浅谈PHP无限级分类原理

• 浅谈php使用curl模拟多线程发送请求

• 浅谈PHP各环境下的伪静态配置

• 浅谈php调用python文件

• 浅谈php的TS和NTS的区别

• 浅谈php___filter的妙用

• 浅谈PHPANALYSIS提取关键字

• 浅谈PHP SHA1withRSA加密生成签名及验签

• 利用PHP如何统计Nginx日志的User Agent数据

• 简单实用的PHP文本缓存类实例

• 关于PHP虚拟主机概念及如何选择稳定的PHP虚拟主机

• 定位地理位置PHP判断员工打卡签到经纬度是否在打卡之内

• 不常用但很实用的PHP预定义变量分析

• 安装docker和docker-compose实例详解

• Windows环境下安装PHP Pear的方法图文教程

• vmware linux系统安装最新的php7图解

• safari下载文件自动加了html后缀问题

• PHP字符串中抽取子串操作实例分析

• PHP中引用类型和值类型功能与用法示例

• PHP中数组转换为SimpleXML教程

• PHP中使用CURL发送get_post请求上传图片批处理功能

• PHP中上传文件打印错误错误类型分析

• PHP中散列密码的安全性分析

• php中目录操作opendir()、readdir()及scandir()用法示例

• PHP中常见的密码处理方式和建议总结

• PHP中“=>

• PHP中__set()实例用法和基础讲解

• PHP中Static（静态）关键字功能与用法实例分析

• PHP中soap用法示例【SoapServer服务端与SoapClient客户端编写】

• PHP智能识别收货地址信息实例

• PHP支付宝当面付2.0代码

• php原生数据库分页的代码实例

• PHP与Perl之间知识点区别整理

• PHP一个简单的无需刷新爬虫

• PHP压缩图片功能的介绍

• php学习笔记之字符串常见操作总结

• PHP信号处理机制的操作代码讲解

• PHP下载大文件失败并限制下载速度的实例代码

• PHP文件上传小程序适合初学者学习!

• PHP文件类型检查及fileinfo模块安装使用详解

• PHP文件操作实例总结【文件上传、下载、分页】

• PHP微商城开源代码实例

• php往mysql中批量插入数据实例教程

• PHP图像处理技术实例总结【绘图、水印、验证码、图像压缩】

• PHP通过文件路径获取文件名的实例代码

• PHP添加文字水印或图片水印的水印类完整源代码与使用示例

• PHP添加PNG图片背景透明水印操作类定义与用法示例

• php数组遍历类与用法示例

• PHP数字金额转换成中文大写显示

• PHP数据对象映射模式实例分析

• PHP树形结构tree类用法示例

• PHP示例演示发送邮件给某个邮箱

• php使用socket调用http和smtp协议实例小结

• PHP使用SOAP调用API操作示例

• php使用pecl方式安装扩展操作示例

• PHP使用mysqli同时执行多条sql查询语句的实例

• PHP使用mongoclient简单操作mongodb数据库示例

• PHP使用HTML5 FormData对象提交表单操作示例

• PHP使用ajax的post方式下载excel文件简单示例

• PHP使用 Pear 进行安装和卸载包的方法详解

• PHP实时统计中文字数和区别

• PHP时间戳和日期相互转换操作实例小结

• PHP生成指定范围内的N个不重复的随机数

• php生成word并下载代码实例

• php如何利用pecl安装mongodb扩展详解

• PHP如何将图片文件上传到另外一台服务器上

• php如何计算两坐标点之间的距离

• PHP如何根据文件头检测文件类型实例代码

• PHP如何防止XSS攻击与XSS攻击原理的讲解

• PHP如何搭建百度Ueditor富文本编辑器

• php如何把表单内容提交到数据库

• PHP去除空数组且数组键名重置的讲解

• PHP配置ZendOpcache插件加速

• PHP模糊查询技术实例分析【附源码下载】

• php面试中关于面向对象的相关问题

• PHP利用DWZ.CN服务生成短网址

• PHP里的$_GET数组介绍

• PHP结合Ffmpeg快速搭建流媒体服务的实践记录

• PHP将整数数字转换为罗马数字实例分享

• PHP将英文数字转换为阿拉伯数字实例讲解

• PHP集成环境XAMPP的安装与配置

• PHP基础之输出缓冲区基本概念、原理分析

• php获取用户真实IP和防刷机制的实例代码

• php获取手机端的号码以及ip地址实例代码

• PHP回调函数简单用法示例

• PHP后台备份MySQL数据库的源码实例

• PHP后期静态绑定之self__限制实例分析

• PHP后期静态绑定实例浅析

• php和asp语法上的区别总结

• PHP观察者模式实例分析【对比JS观察者模式】

• PHP观察者模式定义与用法实例分析

• PHP关于foreach复制知识点总结

• PHP根据key删除数组中指定的元素

• PHP各种常见经典算法总结【排序、查找、翻转等】

• php防止表单重复提交实例讲解

• PHP二维索引数组的遍历实例分析【2种方式】

• PHP调用全国天气预报数据接口查询天气示例

• PHP递归算法的简单实例

• PHP递归的三种常用方式

• PHP登录验证功能示例【用户名、密码、验证码、数据库、已登陆验证、自动登录和注销登录等】

• php的优点总结 php有哪些优点

• php的扩展写法总结

点击排行

您现在的位置：首页 > 技术文档 > php入门教程

php实现爬取和分析知乎用户数据

相关内容