最新发布 第4页

码农小桥技术=好的算法+适合的架构

技术宅

libevent长连接初探

libevent长连接初探
一个用libevent搭建的http服务,之前客户端一直是以短连接来连接服务器的。也就是,客户端每发一次请求都要重建一下tcp连接,服务端在响应完客户端的请求后会主动断掉连接。短连接不但因为重建tcp连接要浪费时间,而且还会造成服务端因为处于TIME_WAIT状态下socket过多,可能导致服务端不稳定。Http长连接是指,对于一个tcp连接,发完一个h……继续阅读 »

rainforest 6年前 (2014-06-28) 2161浏览 0评论0个赞

技术宅

[python] 汉字转拼音(支持多音字)

[python] 汉字转拼音(支持多音字)
写了一个汉字转拼音的库,分享给大家,该库区别其他的库,是能正确处理多音字。解决的方法其实也很简单,基本上就是搞了个词典,对多音字组成的词,由词典给出注音。其中用到了分词,我使用的是jieba分词,注意我把里面的词典给替换了。目的是为了与注音词典一致,这样分好的词在注音词典中都能找到。第一次使用python写类,python的开发经验也不是太足,所以代码可……继续阅读 »

rainforest 6年前 (2014-05-16) 2887浏览 0评论0个赞

技术宅

[python] domain类

[python] domain类
有的时候,我们希望能在规定host的情况得到domain。比如在给定http://www.baidu.com的情况下得到baidu.com。也许有人会说,这很简单,直接把www去掉就可以了。但是对于http://www.com.cn、abc.co.cc等host呢?它们的domain是什么呢?所以给定host求domain不单单是去除www这么简单了。我们……继续阅读 »

rainforest 6年前 (2014-05-11) 1967浏览 0评论0个赞

技术宅

介绍一个开源项目dict4cn

介绍一个开源项目dict4cn
介绍一个有关词典的开源项目dict4cn,该项目应该是一个用java写的中文词典和翻译项目。介绍该项目的原因,是这个项目中有很多解析其他词典的java代码,可以供参考。其中包含灵格斯、搜狗输入法等多个词典格式的解析程序,应该会对我们制作和收集词典起到很大的作用。项目地址::https://dict4cn.googlecode.com/svn地址:http……继续阅读 »

rainforest 6年前 (2014-05-10) 1409浏览 0评论0个赞

技术宅

解析搜狗输入法用到的核心词库

解析搜狗输入法用到的核心词库
搜狗输入法除了使用细胞词库外,还有核心词库。在搜狗输入法的安装目录中,以.bin结尾的文件即为搜狗的核心词库文件。sgim_core.bin为汉字词库,sigm_eng.bin为常用的英文词库。网上找了一下相关资料,找到解析的java程序,具体代码如下: 1: /* Copyright (c) 2010 Xiaoyun Zhu 2: ……继续阅读 »

rainforest 6年前 (2014-05-10) 4035浏览 0评论0个赞

技术宅

svn同步brach的代码到trunk

svn同步brach的代码到trunk
非ci的方式开发代码,经常要从trunk拉分支,然后在上面开发。开发完之后,要同步trunk的代码到分支上,然后打tag上线。上线完后,要做的事情就是同步分支的代码到主干上。其实这个过程,还是挺繁琐的。同步trunk的代码到分支上,用svn merge命令,然后去解决冲突就好了。把分支上的代码再合回到主干这个,也可以用svn merge命令。但是在实践的过……继续阅读 »

rainforest 6年前 (2014-04-14) 1392浏览 0评论0个赞

技术宅

使用*(int *)&遇到的奇怪问题

使用*(int *)&遇到的奇怪问题
最近写了一个fast_log2函数,主要目的是在损失一定精度的情况,加速log2f的计算。从网上扒了一段代码,其中用到了一段如下代码: 1: float f = ...; 2: int i = *(int *)&f; 在debug模式(-g -o0)的情况下,运行正常,但在release模式(–o2)下,运行结果不……继续阅读 »

rainforest 6年前 (2014-03-16) 651浏览 0评论0个赞

技术宅

在你的项目中使用gtest做测试

在你的项目中使用gtest做测试
之前在腾讯工作的时候,项目构建系统blade默认支持gtest,所以自己只要使用就行了,不用管太多,写好相应的test文件就可以了。现在的公司没有类似的东东,但是想写点单测,就得自己搞了。尝试了一下,其实很简单,到googletest官网下载最新的gtest——gtest 1.7。下载下来后,解压,然后运行如下目录:./configuremake……继续阅读 »

rainforest 6年前 (2014-02-21) 1213浏览 0评论0个赞

技术宅

kenlm linux延迟加载模型的问题

kenlm linux延迟加载模型的问题
前几天介绍了kenlm训练语言模型,使用语言模型以及多线程等问题。今天我又遇到一个新的问题,就是发现一个很大的语言模型,代码立马就加载完了,然后对于少量的查询,一下子就返回了。但是我后来发现,用大量的查询的时候,程序会缓慢的增长。经过分析发现,原来kenlm默认是采用mmap加载内存,程序一起来的时候,可以看到占用一大块的虚拟存储,但是内存却占得不多,然后……继续阅读 »

rainforest 6年前 (2014-01-27) 1692浏览 0评论0个赞