Sphere 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Sphere 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Sphere 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 CC BY-NC 4.0
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织 Facebook
地区 不详
投 递 者 Alias_Travis
适用人群 未知
收录时间 2022-07-19

软件简介

Sphere 是 Meta(Facebook)开源的 Web 语料库,作为一个通用的、非结构化的知识源,用于同时进行多个 KI-NLP 任务。

Meta 利用一个开放的网络语料库,加上强大的检索基线(而不是一个黑盒式的商业搜索引擎),这种方法有利于透明和可重复的研究,并为未来的研究开辟了一条道路,以比较为人类优化的搜索引擎和为神经网络设计的检索解决方案。作为 Web 语料库,Meta 使用 CCNet 的一个子集,涵盖 1.34 亿个文件,分成 9.06 亿个段落。

引用

如果你要在研究中使用此仓库的内容,请引用以下内容:

@article{DBLP:journals/corr/abs-2112-09924,
  author    = {Aleksandra Piktus and Fabio Petroni
               and Vladimir Karpukhin and Dmytro Okhonko
               and Samuel Broscheit and Gautier Izacard
               and Patrick Lewis and Barlas Oguz
               and Edouard Grave and Wen{-}tau Yih
               and Sebastian Riedel},
  title     = {The Web Is Your Oyster - Knowledge-Intensive {NLP} against a Very
               Large Web Corpus},
  journal   = {CoRR},
  volume    = {abs/2112.09924},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.09924},
  eprinttype = {arXiv},
  eprint    = {2112.09924},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-09924.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

安装

git clone git@github.com:facebookresearch/Sphere.git
cd Sphere
conda create -n sphere -y python=3.7 && conda activate sphere
pip install -e .

索引下载

Meta 开源预先构建的 Sphere 索引:

可以直接下载和解压相应的索引文件:

mkdir -p faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_sparse_index.tar.gz
tar -xzvf faiss_index/sphere_sparse_index.tar.gz -C faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_dense_index.tar.gz
tar -xzvf faiss_index/sphere_dense_index.tar.gz -C faiss_index
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣
发表了资讯
07/17 08:28

为打击错误信息,Meta 开源 Sphere

过去两年 Facebook 因平台上充斥的各种类型 "假新闻" 而被用户指责,之后他们就一直在致力于解决平台上所存在的这个问题。近日 Facebook 母公司 Meta 就宣布推出了一个名为 Sphere 的开源工具,这个工具可以利用开放网络上的巨大信息库,帮助验证各种基础知识的引用来源是否真实可靠。 Sphere 可用于维基百科,通过 Sphere 自动扫描词条,并识别其词条中的引用来源是否可靠,从而改善维基百科的准确性。 在维基百科上使用 Sphe...

1
11
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
12 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部