为Elasticsearch添加中文分词,对比分词器效果

2014-12-12 · 1,648 chars · 9 min read

Elasticsearch 中,内置了很多分词器(analyzers),例如standard (标准分词器)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤 stopwords(例如“the”这个词)等;chinese 效果很差,后面会演示。这次主要玩这几个内容:安装中文分词 ik,对比不同分词器的效果,得出一个较佳的配置。关于 Elasticsearch,之前还写过两篇文章:Elasticsearch 的安装,运行和基本配置  和  备份和恢复,需要的可以看下。

安装中文分词 ik

Elasticsearch 的中文分词很烂,所以我们需要安装 ik。首先从 github 上下载项目,解压:

cd /tmp
wget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zip
unzip master.zip
cd elasticsearch-analysis-ik/

Elasticsearch的备份和恢复

2014-12-10 · 960 chars · 5 min read

距离上次讲Elasticsearch 的安装已经快一个半月了,作为一个半路出家的前端开发,简单的使用中也体验到了 Elasticsearch 的强大。目前在一个自己开发的小站点中,使用 Elasticsearch 索引了近 200W 简单数据,占用资源极小,搜索速度极快。下一步打算优化一下分词(目前使用的是标准分词器),所以想先备份一下,于是有了今天的文章。

备份

Elasticsearch 的一大特点就是使用简单,api 也比较强大,备份也不例外。简单来说,备份分两步:1、创建一个仓库。2、备份指定索引。下面一步一步来:

经常用的几个javascript代码片段

2014-12-03 · 801 chars · 5 min read

刚到公司的时候,做了几个通用 js 组件,原生 js 写的,所以积累下一些比较好的代码片段,经过几次反复使用,质量还是比较有保证的。太长时间没写博客,这里分享出来刷刷人气。文章中的代码都在gist上同步了。

简单的模板引擎

Handlebars等模板引擎非常好用,但是比较重量级,对于组件来说显然是不合适的,这里分享个简单的模板引擎,原生 js 实现:

Shadowsocks服务端&客户端的部署

2014-12-03 · 847 chars · 5 min read

太长时间没有写博客了,最近折腾一些七七八八的东西,自己本身也不太擅长总结,很多技术也还没有到“可以为师”的地步,写出来质量也不会太高,所以就不献丑了。昨天刚好因为公司机器上的 goagent 不能用了,就打算自己部署一个 Shadowsocks 来用,服务器是 128M 的 centos,足足折腾了一晚上,中间出了各种问题,这里稍微记录下,给遇到同样问题的朋友做个参考。另外说明下,我在公司的虚拟机上按照官方文档,很顺利的部署成功,所以下面的问题不是每个人都会遇到的,建议先按照官方文档部署 shadowsocks。

Elasticsearch的安装,运行和基本配置

2014-10-24 · 833 chars · 5 min read

距离上一篇文章已经快 2 个月了,这些天公司任务不多,自己折腾了点好玩的东西,用了下 pm2,mongodb,redis 和 elasticsearch。mongodb 和 redis 在两个月前就写过部署相关的文章了,今天扯一下 Elasticsearch。

Elasticsearch 是一个非常赞的实时分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析等。更重要的是入门简单,api 也比较清晰。根据官方的介绍,目前 Wikipedia,Github 和 StackOverflow 等都使用 Elasticsearch 进行搜索和分析。

Elasticsearch 是建立在全文搜索引擎 Apache Lucene 基础上的,可以说 Lucene 是当今最先进,最高效的全功能开源搜索引擎框架,但是 Lucene 只是一个框架,要充分利用它的功能,你需要很高学习成本,因为 Lucene 确实非常复杂。而 Elasticsearch 使用 Lucene 作为内部引擎,在其基础上封装了功能强大的 RESTful API,让你不需要了解背后复杂的逻辑,即可完成搜索……

在异步回调中操作redis的一个异常

2014-09-01 · 549 chars · 3 min read

昨天在使用node redis的时候报了这样一个错:

TypeError: Object [object Object] has no method 'send_command'
    at RedisClient.(anonymous function) (D:\index.js:991:25)
    at null._onTimeout (D:\index.js:17:22)
    at Timer.listOnTimeout [as ontimeout] (timers.js:110:15)

这个 bug 比较隐蔽,一步一步来看:

在CentOS下安装nodejs

2014-08-20 · 228 chars · 2 min read

以前写过一篇在windows 下部署 nodejs 的方案,当时就看到了一个很火的方案 pm2,可惜不支持 win32 系统。这两天闲下来就安装了一个 CentOS 的虚拟机,想要尝试一番,结果安装好后一直执行 pm2 的命令,一直提示 command not found(别的有些 module 可以),折腾了半天试了各种方法都无解,最后换了一个版本的 nodejs,居然可以了….

这里简单记录下安装过程,首先:

yum install gcc openssl-devel gcc-c++ compat-gcc-34 compat-gcc-34-c++

node-webkit开机自启动

2014-08-11 · 373 chars · 2 min read

node-webkit 没有提供开机自启动的接口,在 github 的issue里也没有找到靠谱的解决方法,不过经过一番寻觅,找到了 node 下操作注册表的方法,就是winreg(这么好的项目星星少的可怜),还有一个使用 winreg 修改注册表实现开机启动的 demo:node-start-on-windows-boot。demo 很简单,可以直接在项目里使用: