[geek]大修了metaFisher
注:我暂时不想开另一个blog专门讲技术或专业上的问题(虽然这里曾经充当这样的角色),所以加以区别,标题前面加[geek]表示这是一个某些技术性的贴子,虽然它们也许不是严格上的geek。
最近升级了两次metaFisher,记录一下。
* 使用了新的分词引擎,效果比以前提升很多,不过感觉上分得太细,而且我手头上没有比较好的stop words list,打算以后用统计的方法自我学习。
* 自己用c写了个新的多线程crawler,速度提升不是很多(线程调度的效率提高),但是消耗更少的系统资源,而且更flexible,可以智能选择不同的主机连接。我之前试着用python写一个,结果效率很不理想,我怀疑是urllib的问题,它似乎响应迟钝。
* 写了新的cache(我叫它holyCache),效率提高而且占用更少空间(cache命中的情况下,搜索只平均耗时0.02秒,是以前的1/60)。
* 写了新的模块,叫cooSimil,处理的问题是把地址不同,但是内容雷同的页面,放在一起,只显示其中一条的引文。本来我写的目的只是想更好的过滤内容重复的条目,但现在效果更加令人惊喜,它常常还可以把非常相似的页面放在一起,比如一本书的不同章节。
发现某些搜索引擎的crawler在狂抓metaFisher的结果,而且使用的是之间没有联系的关键字(往往是单个词语)。不知道是从什么地方refer过来的。
最近对metaFisher有些新的点子,看看这几天假期有没有时间实现。其实现在这几套算法提供了足够的power,就看怎样利用了。
P.S.: 昏,刚才搜了一下metaFisher,竟然有个蠕虫叫这个名字(以前没有的)。声明一点:我上述的是一个元搜索引擎。
No Comments »
No comments yet.
RSS feed for comments on this post. TrackBack URI
Leave a comment
Line and paragraph breaks automatic, e-mail address never displayed, HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>