给一个作文本里面我比较喜欢的库呢
其实一直想做基于语义的分词 虽然这玩意在很多很多年前就有 但是也不是想做就那么容易出来的
下面这个是测试哈工大语言云 他们开放出来的库 其实原始库是 cpp 的 但是他们也出了 py 的
https://github.com/ghostwwl/machine_learning/blob/master/ltp.py其实分词并非简单的分词
- 实际用途
- 在用户的输入或者搜索的时候 基本都是用户的条件变成词条去匹配的
- 很多时候可以优化 比喻输入的包含类别名 或专业词条
- 基于语义有好处就是 更好的猜猜用户的搜索意图 或者需求
- 搜索引擎搜索过程中的 xx
- 数据库搜索会有注入
- 搜索引擎也有脆弱的地方
- 他会把输入初始语句分词去倒排索引查
- 如果没有限制输入最大长度 我一堆并发给你搜索口 post 大文章, 你会发现搜索服务器 cpu 很 happy
上面看到问跳过多少次 不好意思 没有跳过 哈哈
以前年轻 一直认为 最痛苦的时候 就是离成功最近的时候 好多时候咬牙过来了 就长进了