MKQA 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
MKQA 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
MKQA 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 未知
开发语言 Python
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 罗奇奇
适用人群 未知
收录时间 2023-06-12

软件简介

MKQA 全称 Multilingual Knowledge Questions & Answers ,是一个开放域问答评估集,包含 10k 个问答对,跨越 26 种不同类型的语言(总共 260k 个问答对)。该数据集的目标是为跨多种语言的问答质量提供具有挑战性的基准。

数据集

MKQA 包含从 Google 自然问题数据集中采样的 10,000 个查询。对于每个查询都收集新的与段落无关的答案。然后将这些查询和答案人工翻译成 25 种非英语语言。

MKQA 数据可以从这里下载

数据集中的每个示例都包含独特的自然问题 example_id ,原始英语 query ,然后是 26 种语言的 queries  answers 

{
 'example_id': 563260143484355911,
 'queries': {
  'en': "who sings i hear you knocking but you can't come in",
  'ru': "кто поет i hear you knocking but you can't come in",
  'ja': '「 I hear you knocking」は誰が歌っていますか',
  'zh_cn': "《i hear you knocking but you can't come in》是谁演唱的",
  ...
 },
 'query': "who sings i hear you knocking but you can't come in",
 'answers': {'en': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'Dave Edmunds',
    'aliases': []}],
  'ru': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'Эдмундс, Дэйв',
    'aliases': ['Эдмундс', 'Дэйв Эдмундс', 'Эдмундс Дэйв', 'Dave Edmunds']}],
  'ja': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'デイヴ・エドモンズ',
    'aliases': ['デーブ・エドモンズ', 'デイブ・エドモンズ']}],
  'zh_cn': [{'type': 'entity', 'text': '戴维·埃德蒙兹 ', 'entity': 'Q545186'}],
  ...
  },
}

 

每个答案都标有答案类型。细目是:

Answer Type 答案类型 Occurrence 发生
entity 4221
long_answer 1815
unanswerable 1427
date 1174
number 485
number_with_unit 394
short_phrase 346
binary 138

对于每一种语言,可以有多个可接受的文本答案,以捕获各种可能的有效答案。所有支持的语言是:

Language code 语言代码 Language name 语言名称
ar Arabic
da Danish
de German
en English
es Spanish
fi Finnish
fr French
he Hebrew
hu Hungarian
it Italian
ja Japanese
ko Korean
km Khmer
ms Malay
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ru Russian
sv Swedish
th Thai
tr Turkish
vi Vietnamese
zh_cn Chinese (Simplified)
zh_hk Chinese (Hong kong)
zh_tw Chinese (Traditional)

官方评估脚本提供了两种方法来评估 MKQA 数据集上的性能

评估脚本需要一个具有特定格式的 json 行 (jsonl) 预测文件:

{
  "example_id": -7449157003522518870,
  "prediction": "Hafþór Júlíus `` Thor '' Björnsson",
  "binary_answer": null,
  "no_answer_prob": 0.23618
}
...
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
3 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部