最新发布 第3页

码农小桥技术=好的算法+适合的架构

技术宅

使用python抓数据

使用python抓数据
最近需要用python抓一些数据,发现抓到的数据跟浏览器看的不一样,成功率也不一样。查了很久也不知道原因,后来通过chrome网络监控发现浏览器发送的请求包括一些headers。python模拟请求时,也发送这些网络头即可。程序代码如下: 1: MAX_RETRY_TIMES = 3 2: TIMEOUT = 3 3: ……继续阅读 »

rainforest 3年前 (2017-01-23) 248浏览 0评论0个赞

技术宅

word2vec模型训练经验总结

word2vec模型训练经验总结
如何优化训练速度?编译优化:使用较新的gcc,编译时加上-ofast选项,并链接上tcmalloc库,这样能极大的提升程序效率;事先选择好特征,通过-read-vocab加载,这样word2vec不用从预料中去学习特征,省掉这一步能省很多训练时间;选择cbow模型,根据经验cbow模型比skip-gram模型快很多,并且效果并不比skip-……继续阅读 »

rainforest 4年前 (2016-01-28) 174浏览 0评论0个赞

万人迷

word2vec训练心得

word2vec训练心得
最近研究了一下word2vec的训练,使用的是谷歌c语言版本,根据提示用-ofast编译,挂是tcmalloc,然后训练起来飞快,单机完全能hold住。训练数据:用户query log session数据,把同一用户在一段时间内连续的搜索,点击title放到一行,比如规定两次行为之间相隔不超过10分钟,就认为这两个行为可以连成一起。数据处理:先切词,再……继续阅读 »

rainforest 4年前 (2015-10-30) 373浏览 0评论0个赞

技术宅

警惕多线程环境string、vector、protobuf等自增长数据结构的隐性内存泄露

警惕多线程环境string、vector、protobuf等自增长数据结构的隐性内存泄露
最近工作上一个模块内存泄露,内存缓慢增涨,存在oom的风险,很多人搞了一个月,最后定位是protobuf格式的数据的增涨。首选说一下,我定位内存泄露采取的经验吧。我一般利用gperftools,在进程起来之后,在一个时刻,先dump一个内存占用的heap,然后压力一段时间,等内存有明显增涨后,在dump一个内存占用的heap,这样比较两个heap的占用,图……继续阅读 »

rainforest 5年前 (2014-11-21) 3344浏览 0评论0个赞

技术宅

word2vec c++接口

word2vec c++接口
word2vec最近挺火的,究其原因主要是效果好。我用某个商业搜索引擎的seach session数据训练了一个词query向量。注意,没有进行分词,进行分词的效果可能要稍微差一些吧,具体就不知道了。每个词的向量大小为200维,包括的query数量为210w。包含的query还相对不是很多,其实可以用更多的数据进行训练。用的工具就是官方的c版本。在用的时候……继续阅读 »

rainforest 6年前 (2014-08-24) 3154浏览 0评论0个赞

技术宅

支持持久化的hash_map

支持持久化的hash_map
stl ext中的unordered_map虽然用起来非常方便,但是不支持持久化,速度上也没有太多的优势。在我们的项目中,我们经常要加载key-value的词典,通常key是uint64_t,value可能是很多类型,也有可能不只一个字段。有人可能会问,为什么key会是uint64_t,其实我们通常的key是字符串,但是我们会先用md5或者cityhash等……继续阅读 »

rainforest 6年前 (2014-08-23) 1682浏览 0评论0个赞

技术宅

给定一个数,找其之后的最小的一个素数

给定一个数,找其之后的最小的一个素数
在工作中,我们有的时候需要在给定一个数,在其后找一个最小的素数。比如我们希望创建一个给定大小的hash map。但是一般来说,hash map桶的大小最好是素数。简单来讲,我们只要在给定的素数往后,一个一个地判断是否素数,知道找到一个素数就可以了。关键在判断一个数是否是素数的问题上。判断一个数是否为素数的算法很多。有确定性的,也有非确定性的。我这里用的是……继续阅读 »

rainforest 6年前 (2014-07-23) 1432浏览 0评论0个赞

技术宅

gmarks不好用了

gmarks不好用了
之前一直用火狐下的gmarks插件来管理我的网址书签,前段时间发现不能用了。开始以为是被墙了,后来挂上代理了,还是不好使用,最好没招了,只能该用本地的书签。用了一下本地的书签之后,感觉很郁闷,应该用这钱的习惯了吧,感觉用现在的不爽了。今天把那个安装包解压开来看了一下,里面一堆js文件,调试了一下,然后抓了一下谷歌书签的包,发现js里面用的一个参数是s,但……继续阅读 »

rainforest 6年前 (2014-06-28) 935浏览 0评论0个赞