推外网络专注营销型网站品牌策划与推广
FOCUS MARKETING WEBSITE BRAND PLANNING AND MARKETING PROMOTION
分享一款支持分布式部署的Java爬虫框架,希望可以最大程度上降低新手开发一个可用且性能高的爬虫门槛,并且可以提高新手的开发效率。对于Seimicrawler,绝大部分人只用关心怎么去抓取业务逻辑就够了,其余seimi帮你搞定。
首先介绍下它的第一个爬虫规则类(crawler),这是开发爬虫最核心的部分了。要想快速开发基本的爬虫,需要注意下面几点:
1、必须继承BaseSeimicCrawler
2、需要添加注解:@Crawler,另外注解的name是可有可无的,假如设置了的话,这个爬虫就按你定义的名字命名,不然就是默认使用创建的类名了。
3、要想被框架扫描到爬虫的话,就必须放到crawler包下面(如:cn.wi.xx.carwler)。
4、最后你需要实现两个最基本的方法:startUrls();start(Responseresponse)。
接下来给大家解释一些这俩个基本方法的意思。如你所想根据方法名就可以看出来,
1、StartUrls这个是爬虫的入口,它的返回值为一个String的数组,存放URL的数组。会被以get的方式默认请求处理,如果在特殊情况下,需要以Post的方式请求处理的话,那么你只需在你的url后面加上##post就可以了
2、Start这个就对于starturl的回调函数。用于返回数据的处理。
热门文章
联络方式:
电话:400-026-0708
邮箱:admin@whytui.com
-
震惊!商家被支付宝截图骗20余万,没想到竟让百度做了背锅侠!
骗子年年有,今年特别多。从P2P的庞氏骗局到互联网的各种诈骗,络绎不绝。可以说互联网改变了我们的生活方式,但是也给骗子创造了更多的骗人方式。有人薅羊毛专盯着一
-
SEO优化没有效果应该从哪几个方面分析
搭建自己或企业网站来进行seo推广,是快速通过网络获取精准客户的重要途径,随着SEO逐步向内容生态化方向发展,很多站长开始自己进行SEO优化,但是有些站长优化效果比较
-
如何做好外链
相信很多刚开始接触seo的朋友经常会听到这么一段话:内容为王,外链为后。耳熟吗?这句话很好理解,内容就是网站一个的灵魂,那么外链则是一个网站关键。今天中涛SEO优化师
-
H5响应式网站是什么?
随着搜索引擎技术的不断,同时也为了满足现代用户对体验的追求,H5网站逐步受到很多企业和站长的青睐。这是为什么呢?相比之前的简单企业展示站在seo优化推广中有哪些
-
网站TDK优化时要注意的问题
网站TDK就是在百度对网站进行抓取时告诉它这个页面是干什么的,会让百度对其了解。网站的质量好不好,都是可以通过网站的TDK看出来的,所以TDK的设置也是网站之中较为