Classical-Modern 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Classical-Modern 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Classical-Modern 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 其他开源
开源组织
地区 国产
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-09-06

软件简介

这是一个非常全的文言文(古文)- 现代文平行语料,基本涵盖了大部分经典古籍著作。从文学角度出发,本项目将所有古文原文整理至文件夹 古文原文 中,并对每本古籍,按篇章/章节进行划分与展示,正文部分存于各章节下的 text.txt 中,例如 论语/学而篇/text.txt 孟子/梁惠王章句上/第一节/text.txt 。对于平行数据,本项目整理至文件夹 双语数据 中,这些双语数据是以句子级别为单位进行划分,本项目提供了原文、译文、双语三种数据格式,例如:论语/学而篇/source.txt  论语/学而篇/target.txt  论语/学而篇/bitext.txt 。注:所有数据均按行保留了古文原文的相对顺序,即数据非打乱。

本语料数据来源于互联网,所爬取到的原始数据是篇章级对齐的双语数据,经过脚本进行分句、对齐,处理成了句子级别对齐的双语(平行)数据,共计 972467 句。核心对齐思路采用归一化编辑距离算法与长度比指标。

需要注意 双语数据 文件夹中古文数据量少于 古文原文 文件夹中的古文数据,这是因为数据来源中部分古文没有译文,也有部分古文的译文残缺,故 双语数据 文件夹中仅收录了包含双语句对的数据。

复现过程

本项目提供了本语料的处理过程及相关脚本,具体过程详见复现

统计信息

古文原文共包含327本书籍。双语数据共包含97本书籍,其中包含句子级别对齐句子共计 972467 个句对。详细统计信息可查看统计信息

 

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
1 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部