最新发布 第5页

码农小桥技术=好的算法+适合的架构

技术宅

kenlm多线程测试

kenlm多线程测试
在之前的文章中,我介绍了如何利用kenlm训练语言模型和如何在自己的程序中使用kenlm训练得到的语言模型。在kenlm的官方介绍中,号称其是thread safe的,所以有必要测试一下其对多线程的支持程度。废话少说,直接上码: 1: #include <cstdio> 2: #include <string>……继续阅读 »

rainforest 6年前 (2014-01-22) 1619浏览 0评论0个赞

技术宅

如何使用kenlm训练出来的模型

如何使用kenlm训练出来的模型
上次介绍了一下,如何用kenlm来训练语言模型。这次来说说如何使用kenlm训练出来的语言模型。kenlm训练出来的语言模型为arpa格式,是一个一种比较通用的语言模型格式,是文本格式的,比较容易阅读。为了效率,kenlm还支持二进制的格式。在上一次的文章中,我已经讲过,利用build_binary可以把arpa格式的语言模型转化成二进制的格式。使用二进制……继续阅读 »

rainforest 6年前 (2014-01-18) 1366浏览 1评论0个赞

技术宅

使用kenlm训练语言模型

使用kenlm训练语言模型
最近在研究语言模型,想自己动手训练一个语言模型,并试下效果。在网上搜集的相关的资料,常用的训练语言模型的工具,大概有SRILM、KenLM、berkeleylm等几种。KenLm号称比SRILM要好一些,支持单机大数据的训练。berkeleylm是用java写的,号称跟KenLM差不多。KenLM是用c++写的,所以我尝试用它来训练一个语言模型。我的环境是……继续阅读 »

rainforest 6年前 (2014-01-12) 3183浏览 0评论0个赞

技术宅

利用ikanalyzer分词

利用ikanalyzer分词
最近想研究一下word2vec,第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进行研究的。但是我觉得可能单纯用新闻语料可能还不够吧。所以就开始在网上找一些别的语料,后来找到了一个百度百科2012年的全部词条信息,是网友制作成词典供mdict使用的。二进制格式有5个多G,搞成utf-8文本后有13.3g,数据量还是蛮大的,应该足……继续阅读 »

rainforest 6年前 (2014-01-04) 435浏览 0评论0个赞

技术宅

wordpress支持多域名

wordpress支持多域名
由于博客绑定的域名,sinaapp用的是日本的主机,经常不能访问。为了解决这个问题,我就在访问smallbridge.sinaapp.com自动跳转到http://www.xqiao.com.cn的逻辑中加了一个判断。首先用ajax去访问以下http://www.xqiao.com.cn,看看是否能访问,如果能访问就跳转到http://www.xqiao.c……继续阅读 »

rainforest 6年前 (2014-01-04) 1920浏览 0评论0个赞

技术宅

cygwin更改默认编码

cygwin更改默认编码
最近在windows下用cygwin模拟linux shell环境,发现默认编码是utf-8,但是想将编码改成utf-8。我开始以为只要在.bashrc中加入"export LANG=zh_CN.gbk”即可,但是发现显示的中文是乱码。上网找了很多资料都是说修改.bashrc和.inputrc,发现都不起作用。最后经过我的研究发现,修改.bas……继续阅读 »

rainforest 6年前 (2013-12-31) 2221浏览 0评论0个赞

技术宅

小桥说搜索:搜索反作弊之链接反作弊

小桥说搜索:搜索反作弊之链接反作弊
我是五道口程序员小桥,在说正事之前先闲扯一下。前段时间小桥被公司当成不良资产卖给了另外一个公司,所以小桥就想呀,反正是换工作,不如也看看别的机会,比较比较再说呀。某一天,一师弟给我让我看一招聘广告,说是某电子商务公司呀,35w抓码农,让我去看看。还是亲师弟好呀,有好事就想着师兄的。话说,小桥投了简历没几天,就让我去面试了。我屁颠屁颠去面了,第一次面了3面,完……继续阅读 »

rainforest 6年前 (2013-11-25) 1479浏览 0评论0个赞

技术宅

小桥说搜索:搜索反作弊之内容反作弊

小桥说搜索:搜索反作弊之内容反作弊
搜索反作弊其实不仅仅是“反作弊”,广义上还包括反垃圾和低质量识别。搜索引擎作弊指的是恶意利用搜索算法的漏洞,人为制造一些对用户无价值或价值不大的页面,站点,链接,流量,点击等,以达到提高搜索排名的目的的行为。搜索引擎作弊来源于搜索引擎优化领域(seo),也被称为黑帽seo。反作弊从针对的目标,可以分为内容反作弊,链接反作弊和点击反作弊等几个方面。今天小桥先……继续阅读 »

rainforest 6年前 (2013-11-24) 1455浏览 0评论0个赞

技术宅

小桥说搜索

小桥说搜索
很久没有写技术文章了,可能是工作了人变得忙了,也可能是变懒了吧。工作之后,包括实习,一直都是做一些策略性的事情。做策略久了,技术,算法,数学都荒废了,留下的只有经验,是该好好总结一下的时候了。接下来的一段时间,我将把我所了解的搜索中的技术做一个总结,出一个系列,此文就算是一个目录了吧。搜索是一个很有技术门槛的东西。也许在别的领域,比如你做一个手机app,或……继续阅读 »

rainforest 6年前 (2013-11-23) 1000浏览 0评论0个赞

搜集吧

水木土豆教主:买房尽可能的还是要选择码农聚集区

水木土豆教主:买房尽可能的还是要选择码农聚集区
今天在同事的推荐下,看了水木的一篇帖子《买房尽可能的还是要选择码农聚集区(二)》,作为一个普通的屌丝码农来说,感觉到处都是亮点呀,简直要亮瞎我的眼睛。既然有《2》,那肯定有《1》,所以我也把《1》给翻出来看了一下。虽然作为一个码农,但是没有买到码农聚集区,是因为实在买不起呀,是屌丝码农中的屌丝呀,不得不感叹房子涨得太他妈快了。不得不感叹码农的扛盘能力太他妈强……继续阅读 »

rainforest 6年前 (2013-11-22) 2594浏览 0评论0个赞