Techeek's Studio.

Techeek's Studio.

爱猫深漂小透明,半吊子售前/美工/产品/程序员。

抓了知乎60W个网页,发现了很有趣的东西
前言 最近在做知乎渠道的运营工作,一直抓不住用户的痛点,不知道该如何下手。为了增加粉丝及阅读数,我想到了用爬虫去抓取知乎内各话题的关注数,抓完后发现了很有意思的现象,固撰写本文分享。 爬虫分析我们先讲讲爬虫,这10w个网页我没有写代码去实现抓取,当时在上班,不想花太多时间去抓取这些内容(flag)。所以就采用Chrome浏览器的插件Web Scrape去实现抓取。 分析下知乎标签相关页面的逻辑吧。请看上图,着重分析几个点: 话题名称:腾讯云 话题关注者:3516 话题阅读数:598 话题ID:19879841 其中话题ID是爬虫需要关注的内容,每个话题的话题ID不同,我尝试了下,...
Hexo博客的安装部署及多电脑同步
Hexo安装教程很多,我这里尽可能的讲的细一些,把容易踩坑的地方以及后期多电脑同步所遇到的问题列出来,以便给自己及大家参考。本文主要讲解安装部署后源文件同步问题,当然,你可以采用网盘方式进行同步,但是这种方式不够程序员,也不能进行版本控制,如果你是一个多系统(windows、mac、linux)爱好者,那我建议你还是和我一样,采用git的方式进行源文件管理。使用github和Hexo,在几秒内,即可利用靓丽的主题生成静态网页。 安装什么是hexo首先,你能找到这篇文章,证明你已经知道什么是hexo了,官方对这块讲解非常详细,我不做过多赘述,但是关于优缺点这块,还是有几个点要给大家说下。 ...
《欢乐坦克大战》微信小游戏开发总结
《欢乐坦克大战》微信小游戏开发总结前言《欢乐坦克大战》是一款支持实时3V3对战的微信小游戏,可以认为是首批上线微信小游戏中最重度的游戏;游戏复杂度、开发难度、性能挑战也是最大的。项目开发周期非常短,基本是一个月时间完成了单机、网络对战玩法。客户端开发团队核心成员具有多年cocos2dx引擎的开发经验,所以我们选用的引擎是CocosCreatorV1.6.1,语言是javascript。对于js脚本、微信小游戏平台,开发团队基本是从0开始,边学边做,挑战很大。 架构网络通信使用了websocket,通讯协议格式是json。根据tdr的xml协议描述,我们自己开发了tdr->json的...
深入浅出了解OCR识别票据原理
本文翻译自dzone 中Ivan Ozhiganov 所发文章Deep Dive Into OCR for Receipt Recognition 文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。 ​ 光学字符识别技术(OCR)目前被广泛利用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别,大到广告、海报。因为OCR技术的发明,极大简化了我们处理数据的方式。 ​ 同时,机器学习(ML)和卷积神经网络(CNN)的快速发展也让文本识别出现了巨大的飞跃!我们在本文的研究中也将使用卷积神经网络CNN技术来识别零售店的纸质票据。为了方便演示,我们...
如何不用服务器爬取温哥华房产数据
​ 我最近从巴西的里约热内卢搬到了加拿大的温哥华。除了美丽的风景以外,当头一棒的就是当地的房租价格了。温哥华目前是全球五大最贵房租城市之一。物业的租金表明,拥有固定资产是多么的奢侈。 ​ 我决定启动一个可以挖掘当前房屋数量的爬虫项目,我希望对目前温哥华房地产市场有一个自己的结论。话说有一堆很好的数据就在网上,我为什么不能去收集这些数据呢? ​ 本文将从架构、成本、优点、缺点、及基于AWS(Amazon Web Services)无服务器架构的方向向您介绍爬虫项目。 等等,你说“没有服务器?”​ 众所周知,你在服务器上运行的所有数据都会在一天结束的时候由服务器进行自动备份。这里的无服务器...
快速入门深度学习
最近更新时间 2017年11月8日 14:58:51 本文翻译自freecodecamp 中Radu Raicea所发文章Want to know how Deep Learning works? Here’s a quick guide for everyone. 文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。 ​ 人工智能(AI)和机器学习(ML)是当今世界上最热门的话题之一。 ​ “AI”这个词现在在互联网中飞来飞去。你不仅能在开发人员口中听到这个词,甚至有时候也会在产品设计运营人员中听到这个词。但是,他们真的搞清楚AI是什么了吗?所以,为了让更多人了解...
创业企业应该把机器学习外包出去
最近更新时间 2017年11月2日 09:48:04 本文翻译自freecodecamp 中David Rajnoch所发文章Why most startups should outsource their Machine Learning work. 文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。 ​ 很多人说,机器学习会改变现在互联网的运作方式。因为机器学习不仅能让企业更加“聪明”,也能使企业获得更快更有效的获取有用信息,不仅让企业获得更高的曝光度,产品搜索推荐也更加人性。 ​ 但是机器学习在2017年的情况依然糟糕,依然缺少牛逼的程序员,缺少优质的工具。...
不花一分钱部署聊天机器人
最近更新时间 2017年11月3日 11:40:11 本文翻译自freecodecamp 中Rajat Saxena 所发文章How I designed, developed, and deployed a chatbot entirely in the cloud 文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。 为什么要我做这个? ​ 上面这个视频中演示的机器人就是我做的一个完全在服务器上的机器人,可能会有人问了,为什么我会有这样一个想法呢?几个月前我录制一段关于记忆相关视频,视频中谈到故意修改一些细节,能让你在很长时间内保持良好的记忆,并且这些记忆能为你...
avatar
Techeek
您好,我是大橙子,半吊子售前/美工/产品/程序员。