Common Crawl 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Common Crawl 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票

软件简介

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。

Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。

该库提供了支持代码,用于使用S3上存储的Common Crawl Corpus RAW爬行数据(ARC文件)。有关如何访问语料库的更多信息,参见https://commoncrawl.atlassian.net/wiki/display/CRWL/About+the+Data+Set

您可以采取两条主要途径来使用ARC File内容:

(1)您可以在EC2上运行Hadoop集群,也可以使用EMR运行Hadoop作业。在这种情况下,您可以使用ARCFileInputFormat将数据驱动到映射器/缩减器。InputFormat有两种版本:一种是为符合弃用的mapred包而编写的,位于org.commoncrawl.hadoop.io.mapred,另一种是为mapreduce包而编写的,其相应地位于org.commoncrawl.hadoop.io.mapreduce。

(2)您可以通过将InputStream输入到org.commoncrawl.util.shared包中的ARCFileReader类来直接解码数据。

两种路由(InputFormat或ARCFileReader直接路由)都生成一个元组,该元组由UTF-8编码的URL(文本)和原始内容(BytesWritable)(包括HTTP标头)组成,这些内容由搜寻器下载。HTTP标头是UTF-8编码的,标头和内容由一组连续的CRLF令牌定界。内容本身是文本mime类型时,将使用源文本编码进行编码。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
09/12 10:56

GPT自动证明数学题,结果被专业数据库收录,数学家点赞

  机器之心报道   参与:魔王、小舟、杜伟    继GPT-3之后,OpenAI 推出用于数学问题的 GPT-f,利用基于 Transformer 语言模型的生成能力进行自动定理证明。由 GPT-f 发现的 23 个简短证明已被 Metamath 主库接收。   大名鼎鼎的 Transformer 架构不仅在 NLP 领域呼风唤雨,还能用于计算机视觉,比如目标检测。但...

0
0
发表了博客
10/29 11:31

包含近 20 万本图书,OpenAI 级别的训练数据集上线

     大数据文摘授权转载自HyperAI超神经   近日,机器学习社区的一篇资源热贴「用于训练 GPT 等大型语言模型的 196640 本纯文本书籍数据集」引发了热烈的讨论。   该数据集涵盖了截至 2020 年 9 月所有大型文本语料库的下载链接。除此之外,它还包含了所有的 bibliotik(一个线上图书资源库)中书籍的纯文本,以...

0
0
发表了博客
11/06 12:33

包含近 20 万本图书,OpenAI 级别的训练数据集上线

来源:HyperAI超神经 本文约1000字,建议阅读8分钟 这些数据集中共包含 196640 册纯文本数据,可以用于训练 GPT 等大型语言模型。 近日,机器学习社区的一篇资源热贴「用于训练 GPT 等大型语言模型的 196640 本纯文本书籍数据集」引发了热烈的讨论。 该数据集涵盖了截至 2020 年 9 月所有大型文本语料库的下载链接。除此...

0
0
09/19 13:22

spaCy教程学习

spaCy教程学习 作者|PRATEEK JOSHI 编译|VK 来源|Analytics Vidhya 介绍 spaCy是我的自然语言处理(NLP)任务的必备库。我冒昧地说,大多数专家都是这样! 如今,在众多的NLP库中,spaCy确实独树一帜。如果你在N...

0
0
发表了博客
10/29 11:30

无需依赖英语中介,FB发布可翻译100种语言的AI模型

     大数据文摘出品   来源:engadget   编译:Fisher、Miggy   机器翻译器正成为现代人生活中必不可少的工具。   不管你在世界的哪个地方,美国、巴西、法国或者亚洲的婆罗洲岛,借助机器翻译,谷歌和Facebook这类软件都可以把平台上的几乎任何文字内容都翻译成当地语言。   不过你可能不知道的是,多数...

0
0
发表了博客
2018/08/28 15:44

开源漏洞扫描器合集

开源漏洞扫描器合集 2018年01月15日 14:56:30 阅读数:4118更多 个人分类: 网络安全 首先,谢谢原作者: (此文为转载的文章,现将原地址贴出如下:http://blog.csdn.net/mypc2010/article/details/77679760) https://github.com/Canbing007/wukong-agent python redis awvs api nessus api ========================...

0
0
发表于软件架构专区
2018/06/04 14:36

44款Java 网络爬虫开源软件

极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用...更多WebFetch信息 开源爬虫框架 ...

0
0
发表了博客
04/16 09:59

PaddlePaddle/DeepSpeech

语音识别: DeepSpeech2 English DeepSpeech2是一个采用PaddlePaddle平台的端到端自动语音识别(ASR)引擎的开源项目,具体原理参考这篇论文Baidu's Deep Speech 2 paper。 我们的愿景是为语音识别在工业应用和学术研究上,提供易于使用、高效和可扩展的工具,包括训练,推理,测试模块,以及 demo 部署。同时,我们还将发...

0
0
发表了博客
08/10 11:01

常见多语言模型详解 (M-Bert, LASER, MultiFiT, XLM)

文章目录 往期文章链接目录 Ways of tokenization Word-based tokenization Character-based tokenization Subword tokenization Existing approaches for cross-lingual NLP Out-of-vocabulary (OOV) problem in mono/multi-lingual settings M-BERT (Multi-lingual BERT) WHY MULTILINGUAL BERT WORKS A significant ...

0
0
08/09 19:07

广告行业中那些趣事系列18:RoBERTa-wwm-ext模型为啥能带来线上效果提升?

本篇一共5840个字 摘要:本篇主要分享能带来线上文本分类效果有效提升的RoBERTa-wwm-ext模型。首先介绍背景,RoBERTa-wwm-ext模型不管在公共数据集上还是在我们线上真实分布数据集上都能带来不错的效果提升,需要...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2013/11/16 22:29

奇怪的网站地址,百度谷歌了,没结果。

今天获取搜索引擎返回的网站链接的时候发现这样的链接,百度谷歌了,没结果。 http://web9875858.w018002.dns558.com/product_bkbk619750/ 此网站链接在windows环境下不能ping通,但该网站还有另一个网址: http://www.768.cn/product_bkbk619750/ 这个网址是可以ping通的。 寻找线索的过程中,发现与此相似的网站链接有...

5
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
4 收藏
分享
返回顶部
顶部