今天做了个中文分词技术,觉得好用,分享给大家试试好用吗,我用的是ThinkPHP3.2.3框架做的,不知道大家喜欢用这个框架不。
步骤如下:
1:下载scws官方提供的类,地址是讯搜官网的
2:下载XDB 词典文件:这个是词库 放到Public\admin\dict没有就添加
3:解压scws类Pscws.class.php,并加上命名空间(pscws4.class.php文件名换成了pscws.class.php;xdb_r.class.php文件名换成XDB_R.class.php)
4:修改Pscws.class.php 文件里的require 包含XDB_R.class.php:require_once (dirname(__FILE__) . ‘/XDB_R.class.php’);
5:入口文件添加常量
define("CONF_PATH", dirname(__FILE__)."/Public/admin/dict/");6:调用文件
注意构造函数改为:
function __construct() { $this->PSCWS4(‘utf-8’); }
调用代码示例
protect function get_tags($title,$num=null){ $pscws = new \Org\Util\Pscws('utf8'); $pscws->set_dict(CONF_PATH . 'dict.utf8.xdb'); $pscws->set_rule(CONF_PATH . 'rules.utf8.ini'); $pscws->set_ignore(true); $pscws->send_text($title); $words = $pscws->get_tops($num); $pscws->close(); $tags = array(); foreach ($words as $val) { $tags[] = $val['word']; } return implode(',', $tags); } /** * 商品搜索结果页 **/ public function search(){ $str=$this->get_tags("衣服裤子鞋子"); print_r($str); } 文档下载地址:点击打开链接