0
一直以来,坐井观天,以为 搜索引擎搜索的时候数据是从数据库中获取,一天看到michael回复的时候提到一点,真正的搜索并非直接从数据库中获取的,于是去看了一下相关资料,并了解了一下lucene,开始大概明白一点意义。我暂时将我的理解写上,不当的地方等我查到资料后来修改。
首先是原始数据的抓取,入库,由专门的系统生成分词库(其实是一些原子词的生成),据说lucene的中文分词系统支持的并不好,而对英文的支持比较好。分词系统将原子词对原始数据进行重新建立索引,并在索引中去对应真实的数据,这样的话,数据在搜索的过程中,将对索引库进行搜索,如果需要,再对原始数据进行读取,操作复杂度是O(1)。所以性能的关键地方在索引库的建立过程中。
以上是对搜索引擎的一点理解,等时间松下来,将查找相关资料,重新对想法进行整理。
另外通过搜索求证:该文证明了我的思路基本是没错的。由于文章格式不好控制,在这里直接上传了
下载文件 (已下载 88 次)
首先是原始数据的抓取,入库,由专门的系统生成分词库(其实是一些原子词的生成),据说lucene的中文分词系统支持的并不好,而对英文的支持比较好。分词系统将原子词对原始数据进行重新建立索引,并在索引中去对应真实的数据,这样的话,数据在搜索的过程中,将对索引库进行搜索,如果需要,再对原始数据进行读取,操作复杂度是O(1)。所以性能的关键地方在索引库的建立过程中。
以上是对搜索引擎的一点理解,等时间松下来,将查找相关资料,重新对想法进行整理。
另外通过搜索求证:该文证明了我的思路基本是没错的。由于文章格式不好控制,在这里直接上传了
下载文件 (已下载 88 次)
Using Memcache with MySQL and PHP
Memcache的核心性能分析以及APC缓存系统选择


2008/06/22
20:54
1684



