标签:C#

word2vec c++接口

word2vec最近挺火的,究其原因主要是效果好。我用某个商业搜索引擎的seach session数据训练了一个词query向量。注意,没有进行分词,进行分词的效果可能要稍微差一些吧,具体就不知道了。每个词的向量大小为200维,包括的query数量为210w。包含的query还相对不是很多,其实可以用更多的数据进行训练。用的工具就是官方的c版本。在用的时候……

使用*(int *)&遇到的奇怪问题

最近写了一个fast_log2函数,主要目的是在损失一定精度的情况,加速log2f的计算。从网上扒了一段代码,其中用到了一段如下代码: 1: float f = ...; 2: int i = *(int *)&f; 在debug模式(-g -o0)的情况下,运行正常,但在release模式(–o2)下,运行结果不……

下载mxr.mozilla.org上的代码

mxr.mozilla.org是mozilla的代码查看网站,上面有丰富的代码资源,但是上边没有打包下载的功能,只能单个单个文件的下载,用起来会非常的麻烦。今天没啥事,想研究一下firefox的编码识别模块,需要到mxr.mozilla.org上去下载代码。去网上找了一圈也没有找到批量下载的方法或工具。本想一个一个文件下载,但是发现文件数量还是比较大的,……

小米笔试题 线段覆盖的长度

昨天去小米笔试了,其中一道大题是求一个字符串的所有排列,如“AAB”的所有排列为{“AAB”、“ABA”,“BAA”},这道题在我之前的博客中有研究过,所以不赘述,请查看这里。另外一道题是给定一些线段,线段有起点和终点,求这些线段覆盖的距离,重复的部分只计算一次。这道题其实应该也算比较easy了,昨天笔试的时候,写得有点复杂了。今天整理了一下思路:首先排序……

NReadability

昨天写了一篇关于提取网页主题内容的文章,其中用到了一个叫SgmlReader将html标准化成xhtml格式的东西。今天在查询其相关信息的时候,发现了NReadability这个东东,发现这个东西也是提取网页主题内容的,发现效果貌似比我写的那个简单的要好很多。获取代码请访问github。该工具中还带SgmlReader的源代码,可以说是很给力的,其中还为X……

启发式提取一个网页的主体内容

对于一个网页来说,一般都会有非常丰富的边框或导航条信息,但是用户往往比较专注于主题内容,边框内容可以说是没有太大价值的。尤其是对于手持设备来说,显示大量的边框信息将变得非常讨厌。在搜索引擎中,其实只要搜索引网页的主题内容,对于边框内容的索引意义不大。上面说了一下提取一个网页主体内容的作用,下面来讨论一下方法。如果真要准确地提取一个网页的主题将非常困难,因为……

详解人民搜索面试题-求包含所有query的最短距离

一篇文章,切完词之后放到一个vector<string>中,一个查询切完词也放到一个vector<string>中,写一个函数找出这篇文章中包含这个查询中所有词的最小区间的i和j。只要返回第一个即可。 当时很坑爹,直觉告诉我要建索引,而且建索引也对了,但是建完之后就不知道怎么搞了,后台他提示一句,有些是不需要比较的,才得到灵感,想……

C++中static的用法

在基础笔试或面试中,这个问题经常被问到。总结来说,有三种常用的用法:函数内:这是我最先接触到的一种用法,还记得大一的时候,王寻雨老师(本部的一个老师,名字可能写错)给我们讲的,至今还记忆犹新。该用法就是在函数内定义的static变量,在所有的函数调用中都是用是同一个变量,常用来记录函数调用的次数等统计信息。类成员变量和成员函数:这个无需多说,属于类的……

QQ微博登陆封装

最近想搞写一个基于QQ微博的桌面应用,按照官方的介绍,我使用C#的SDK进行开发,但是发现这个SDK关于登陆的地方很粗糙,另外发现通过OAuth的方式登陆的话,需要用户去填写获取到的verifer字符串。研究了一下,发现C#里面可以通过一个Webbrowser来解决这个问题。基于这个机制,我写了一个登陆的辅助类。using System;using S……

用C#实现Outlook高级的过滤器

Outlook的过滤规则不是很靠谱,加入一封邮件能被过滤规则A移动到文件夹A,也能被过滤规则B移动到B。如果按照常理,如果A先执行的话,这封邮件应该在目录A中,而目录B中就不应该有。但是Outlook的太郁闷了,A和B中都会这封邮件。公司的邮件非常多,而且经常会有一些机器发来的邮件,非常地郁闷,而且很多邮件是发给邮件组的,而不是发送给我的。所以我就想弄些过……