0
原本计划,对每个Spider采用单独配置文件方式启动,然后爬完后退出,经过晚上的思考,发现这个方案或许从长远的Project来说是更加适合的。而且这种设计的话,就可以有爬虫集群了,通过Socket同集群Server端交互,Server按照某个配置文件或者控制来分配任务,可以很好的解决抓重问题,DBAgent已经差不多了。

进度很快,设计思路大致如下

DB  ----->DBAgent  -- Spider1
                           -- Spider2
                                              -----------> SpiderArrangeServer
      ----->DBAgent  -- Spider...
                           -- SpiderN


SpiderN使用Socket同SpiderArrangeServer交互

DBAgent可以部署多个,
核心数据库采用Master/Slave架构

已经完成工作:

DBAgent开发
Spider1抓取端开发
Spider1分析端开发

剩下工作:
               为Spider添加Socket同SpiderArrangeServer交互模块
               开发SpiderArrangeServer端 可以考虑 Select模式,夸张的话就用IOCP(Win下)或者干脆跨平台开发,也应该不是问题
| 引用(0)
发表评论
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
记住我
昵称   密码   游客无需密码
网址   电邮   [注册]