当前位置:首页 > 技术文章 > 系统架构 > 系统架构-coreseek安装与配置
系统架构-coreseek安装与配置
文章来源:本站原创  浏览次数:265  发布日期:2013-07-19

 //mmseg中文分词安装

#cd /tmp
#tar -zxvf coreseek-4.1-beta.tar.gz
#cd coreseek-4.1-beta/mmseg-3.2.14


//会报错,需要执行下面的命令

#yum -y install autoconf automake libtool
#aclocal
#libtoolize --force
#automake --add-missing
#autoconf
#autoheader
#make clean
#./configure --prefix=/usr/web/mmseg
#make && make install


//加入环境变量

#ln -s /usr/web/mmseg/bin/mmseg /bin/mmseg



 //coreseek安装

#cd /tmp/coreseek-4.1-beta/csft-4.1
#sh buildconf.sh
#./configure --prefix=/usr/web/coreseek --with-mysql=/usr/web/mysql --with-mmseg=/usr/web/mmseg --with-mmseg-includes=/usr/web/mmseg/include/mmseg/ --with-mmseg-libs=/usr/web/mmseg/lib/
#make && make install
#cd /usr/web/coreseek/etc/
#cp sphinx.conf.dist csft.conf


//配置文件,基本上大部分和sphinx的相同

#vi csft.conf   
  
charset_type        = zh_cn.utf-8
charset_dictpath     = /usr/web/mmseg/etc/
  
#/usr/web/coreseek/bin/indexer -c /usr/web/coreseek/etc/csft.conf --all
#/usr/web/coreseek/bin/indexer -c /usr/web/coreseek/etc/csft.conf test1stemmed --rotate  //增量索引
#/usr/web/coreseek/bin/search -c /usr/web/coreseek/etc/csft.conf '兄弟连'
#/usr/web/coreseek/bin/searchd -c /usr/web/coreseek/etc/csft.conf



启动进程命令: searchd
-c             #指定配置文件
--stop           #是停止服务
--pidfile         #用来显式指定一个 PID 文件
-p                #指定端口

//合并索引

indexer --merge DSTINDEX SRCINDEX [--rotate]


//合并索引过滤器

indexer --merge main delta --merge-dst-range deleted 0 0
  
#pstree |grep search
#netstat -tunpl |grep 9312



php使用sphinx的2种方式
1、安装扩展模块
2、使用sphinxapi.php文件

//增量索引  创建一个计数器表,把主索引查询到的最大ID记录到这个表里,修改查询语句,主数据源查询是小于这个ID的,
//增量数据源查询的是大于这个ID的数据。最少要重建一次主索引,增量索引才有效。

//实时索引 老的实现方式 定时更新增量索引和主索引,增量索引一般5分钟更新一次,主索引一般凌晨左右更新一次。
//查询的时候查询 主索引和增量索引就能查到最新的数据了。

//分布式索引
分布式是为了改善查询延迟问题和提高多服务器、多 CPU 或多核环境下的吞吐率,对于大量数据(即十亿级的记录数和 TB 级的文本量)上的搜索应用来说是很关键的
分布式思想:对数据进行水平分区(HP,Horizontally partition),然后并行处理,
当searchd收到一个对分布式索引的查询时,它做如下操作
1. 连接到远程代理.
2. 执行查询.
3. 对本地索引进行查询.
4. 接收来自远程代理的搜索结果.
5. 将所有结果合并,删除重复项.
6. 将合并后的结果返回给客户端.

index dist
{
    type = distributed
    local = chunk1
    agent = localhost:9312:chunk2        本地
    agent = 192.168.100.2:9312:chunk3     远程
    agent = 192.168.100.3:9312:chunk4     远程
}



//专业词库的建立  核心(一个漫长的过程)
//mmseg字典生成

#cd /usr/web/mmseg/etc/
#/usr/web/mmseg/bin/mmseg -u unigram.txt 
#cp unigram.txt.uni /usr/web/mmseg/etc/uni.lib


原文来自:系统架构-coreseek安装与配置 http://www.redyun.net/technology/115.html

红云案例Case