0
原本计划,对每个Spider采用单独配置文件方式启动,然后爬完后退出,经过晚上的思考,发现这个方案或许从长远的Project来说是更加适合的。而且这种设计的话,就可以有爬虫集群了,通过Socket同集群Server端交互,Server按照某个配置文件或者控制来分配任务,可以很好的解决抓重问题,DBAgent已经差不多了。
进度很快,设计思路大致如下
DB ----->DBAgent -- Spider1
-- Spider2
-----------> SpiderArrangeServer
----->DBAgent -- Spider...
-- SpiderN
SpiderN使用Socket同SpiderArrangeServer交互
DBAgent可以部署多个,
核心数据库采用Master/Slave架构
已经完成工作:
DBAgent开发
Spider1抓取端开发
Spider1分析端开发
剩下工作:
为Spider添加Socket同SpiderArrangeServer交互模块
开发SpiderArrangeServer端 可以考虑 Select模式,夸张的话就用IOCP(Win下)或者干脆跨平台开发,也应该不是问题
进度很快,设计思路大致如下
DB ----->DBAgent -- Spider1
-- Spider2
-----------> SpiderArrangeServer
----->DBAgent -- Spider...
-- SpiderN
SpiderN使用Socket同SpiderArrangeServer交互
DBAgent可以部署多个,
核心数据库采用Master/Slave架构
已经完成工作:
DBAgent开发
Spider1抓取端开发
Spider1分析端开发
剩下工作:
为Spider添加Socket同SpiderArrangeServer交互模块
开发SpiderArrangeServer端 可以考虑 Select模式,夸张的话就用IOCP(Win下)或者干脆跨平台开发,也应该不是问题
| 引用(0)
对明星以及企业捐款的一些看法
这个人性被歪曲的社会,真是极度无语了


2008/05/16
09:44
1360



