Techeek's Studio.

腾讯云问答社区抓取统计实践

最近同事请假，我帮忙支援问答社区，其中有一份统计工作比较令人苦恼，因为需要将问答的标题、地址、是否回答等信息统计为表格，然后每天通过邮件发给领导。因为没有相关工具，需要手动将当天的问题信息一个一个复制到表格中，十分浪费时间。为此，写了个小工具将任意时间段的内容统计并自动导出为excel文件，从此方便了许多，特写文章记录心酸历程。分析首先分析下需要准备的内容，每天发邮件内的表格如图。表内的标题是可以点击的，当点击后需要转跳到相关页面。那么就需要标题和链接这两个参数。我们还需要是否回答这个参数，以及当前问题的标签，为了方便判断当前问题是什么时候提问的，还需要时间这个参数。总计5个参数，...

2018/12/05

爬虫统计

抓了知乎60W个网页，发现了很有趣的东西

前言最近在做知乎渠道的运营工作，一直抓不住用户的痛点，不知道该如何下手。为了增加粉丝及阅读数，我想到了用爬虫去抓取知乎内各话题的关注数，抓完后发现了很有意思的现象，固撰写本文分享。爬虫分析我们先讲讲爬虫，这10w个网页我没有写代码去实现抓取，当时在上班，不想花太多时间去抓取这些内容（flag）。所以就采用Chrome浏览器的插件Web Scrape去实现抓取。分析下知乎标签相关页面的逻辑吧。请看上图，着重分析几个点：话题名称：腾讯云话题关注者：3516 话题阅读数：598 话题ID：19879841 其中话题ID是爬虫需要关注的内容，每个话题的话题ID不同，我尝试了下，...

2018/06/30

爬虫

如何不用服务器爬取温哥华房产数据

我最近从巴西的里约热内卢搬到了加拿大的温哥华。除了美丽的风景以外，当头一棒的就是当地的房租价格了。温哥华目前是全球五大最贵房租城市之一。物业的租金表明，拥有固定资产是多么的奢侈。我决定启动一个可以挖掘当前房屋数量的爬虫项目，我希望对目前温哥华房地产市场有一个自己的结论。话说有一堆很好的数据就在网上，我为什么不能去收集这些数据呢？本文将从架构、成本、优点、缺点、及基于AWS(Amazon Web Services)无服务器架构的方向向您介绍爬虫项目。等等，你说“没有服务器？” 众所周知，你在服务器上运行的所有数据都会在一天结束的时候由服务器进行自动备份。这里的无服务器...

2017/11/09

翻译爬虫