网络爬虫 kamike.collect

LGPL
Java
跨平台
2015-03-30
Brin想写程序

Another Simple Crawler 又一个网络爬虫,可以支持代理服务器的翻墙爬取。

1.数据存在mysql当中。

2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和用户名和密码

3.然后访问http://127.0.0.1/fetch/install 链接,自动创建数据库表

4.修改src\java\cn\exinhua\fetch中的RestServlet.java文件:

   FetchInst.getInstance().running=true;

   Fetch fetch = new Fetch();

   fetch.setUrl("http://www.washingtonpost.com/");

    fetch.setDepth(3);

    RegexRule regexRule = new RegexRule();

    regexRule.addNegative(".*#.*");

    regexRule.addNegative(".*png.*");

    regexRule.addNegative(".*jpg.*");

    regexRule.addNegative(".*gif.*");

    regexRule.addNegative(".*js.*");

    regexRule.addNegative(".*css.*");

    regexRule.addPositive(".*php.*");

    regexRule.addPositive(".*html.*");

    regexRule.addPositive(".*htm.*");

    Fetcher fetcher = new Fetcher(fetch);

    fetcher.setProxyAuth(true);

    fetcher.setRegexRule(regexRule);

    List<Fetcher> fetchers = new ArrayList<>();

    fetchers.add(fetcher);
    FetchUtils.start(fetchers);


    将其配置为需要的参数,然后访问http://127.0.0.1/fetch/fetch启动爬取

    代理的配置在Fetch.java文件中:
    protected int status;

protected boolean resumable = false;

protected RegexRule regexRule = new RegexRule();
protected ArrayList<String> seeds = new ArrayList<String>();
protected Fetch fetch;

protected String proxyUrl="127.0.0.1";
protected int proxyPort=4444;
protected String proxyUsername="hkg";
protected String proxyPassword="dennis";
protected boolean proxyAuth=false;

5.访问http://127.0.0.1/fetch/suspend可以停止爬取

加载中

评论(0)

暂无评论

暂无资讯

暂无问答

盛大开始的公交卡李佳航

实得分上的

2015/04/03 03:30
4
0
分段求和

SELECT device_code, collect_Date AS DAY_OF_MONTH_KEY, sum(CASE WHEN COLLECT_HOUR BETWEEN 7 AND 21 THEN incremental ELSE 0 END ) AS PEAK_VALUE, sum(CASE WHEN COLLECT_HOUR <7 OR C...

2014/05/14 09:25
10
0
Openstack instance monitor

上一篇讲解的是compute监控,这一篇则是关于instance的监控,当然扩展一下munin的插件也是可以监控instance的,为什么选择collect,collect官网在说到collect的优势时提到collect采用C编写,...

2013/01/27 20:32
2.3K
2
JAVA8之collect总结

1,collect是一个终端操作,它接收的参数是将流中的元素累积到汇总结果的各种方式(称为收集器) 2,预定义收集器包括将流元素归约和汇总到一个值. 3,预定义收集器可以用groupby对流中元素进行分组...

2018/05/28 10:25
762
0
JDK8 有关集合部分常用的语法

集合中有关流的部分用法

2018/05/28 16:26
26
0
批量SQL之 BULK COLLECT 子句

BULK COLLECT 子句会批量检索结果,即一次性将结果集绑定到一个集合变量中,并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本...

2013/08/27 09:57
78
1
List 转map 总结

方法1: @Override public String toString() { return "User{" + "id=" + id + ", age='" + age + '\'' + '}'; } Map<Long, User> maps = new HashMap<>(); for (User user : userList) { ...

07/23 10:15
2
0
java8 list统计(Stream API )

list.stream().mapToDouble(User::getHeight).sum()//和 list.stream().mapToDouble(User::getHeight).max()//最大 list.stream().mapToDouble(User::getHeight).min()//最小 list.stream()....

05/31 11:37
664
0
java8-Collect method and Collector Interface

Collect method and Collector Interface ,predefined collectors IntSummaryStatistics count the elements in the menu and obtain the sum, average, maximum, and minimum of the calori...

2018/07/01 08:44
23
0
hive中使用NVL函数问题

hive nvl()

2016/11/15 14:45
207
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部