首页
开源软件
问答
博客
翻译
资讯
Gitee
众包
活动
专区
源创会
高手问答
开源访谈
周刊
公司开源导航页
登录
注册
Gitee
资讯
专区
问答
活动
软件库
Tool
博客
培训
众包
登录
注册
开源问答
技术问答
正文
大数据文件的读取和操作
zhangzexdu
发布于 2013/04/23 08:52
阅读 403
收藏
1
答案
5
这是一个关于后缀数组的问题,就是在后缀数组的构造过程中,他需要将整个文件都读取到内存中,才能实现后缀数组的构造,现在的问题是如何在内存中分配这样一块空间(文件的大小在几百兆)。因为在后缀数组的构造过程中需要比所读取的文件的空间大至少3-5的空间,所以这个空间问题怎么解决。网友们指教,谢谢!
收藏 (
1
)
分享
微博
QQ
微信
举报
加载中
最多投票
最新
0
魔力猫
2013/04/23 09:07
有问题吗?现在的机器就是占用几个G的内存也没什么呀。
评论 (
0
)
引用此答案
举报
0
z
zhangzexdu
2013/04/23 09:37
在读取这样的文件(几百兆)时,这个内存如何分配。
评论 (
0
)
引用此答案
举报
0
z
zhangzexdu
2013/04/23 09:43
对于这个后缀数组它要同时将所有的数据都读入,才能构造后缀数组的。谢谢。
评论 (
0
)
引用此答案
举报
0
朱静程
2013/04/23 17:07
这种程序的一般处理方法是,用定长的形式存储字段内容。在需要的时候,用随机方式读取指定数据。
评论 (
2
)
引用此答案
举报
朱静程
2013/04/24 08:56
回复
@zhangzexdu
: 定长是指字段存储占有的空间长度固定,相当于char(50)之类的,这个有可能会浪费磁盘空间,但是效率上会大幅提升。还有读取数据的时候,不是把文件一下子读出来,而是用数据流的形式,跳到指定位置,然后读取。读取完之后再关闭数据流。
回复
举报
z
zhangzexdu
2013/04/24 08:36
我现在的问题是这个定长怎么设置,对于不同大小的文件,这个定长是不一定的,并且在构造后缀数组的时候,它需要将整个字符串都读入内存,因为在构造后缀数组的时候,对每一个字符的后缀排序,在排序中就需要所有的字符串的后缀。
回复
举报
0
感冒九十九
2013/04/23 19:07
Android
分块读取可以不,每次读取个几分之一
评论 (
1
)
引用此答案
举报
z
zhangzexdu
2013/04/24 08:32
因为这个要构造后缀数组,就是将一个文本看成是整个的一个字符串,从每个字符开始到字符窜结束这个子字符串,对所有的这些子字符窜排序的过程,因为在这个过程中需要前后子字符串之间的关系,所以不能一块一块的读取。
回复
举报
我要回答
热门内容
更多精彩内容
C++ 之父反驳白宫观点
CudaText 1.211.0 发布,跨平台的文本编辑器
大术专搜 3.6.x 发布,Chrome 用户体验提升与 Firefox 看齐,mv3 升级
推进“全球开源软件产品库”骨干库建设,“2024中国数据库产品调研”正式发布
MyData v0.7.3 更新日志
云原生周刊:Istio 加入 Phippy 家族
Zadig 版本管理与自动化发布最佳实践解析
谁说 java 没有能打的 ORM?国产 ORM 框架 sqltoy-orm 5.6.1 发版
Open一Sora1.0 全公开
wlnmp 一键安装包更新 240318
Teo 0.2.18 发布,修复代码生成 bug,巨好用的网络开发框架
开放签电子签章付费版这么便宜,我老板说有顾虑?
历时 20 年,GnuCOBOL 已达到工业成熟度
PHP 8.2.17 发布
中国信通院发布《绿色算力技术创新研究报告(2024年)》
博通 CEO 承认 VMware 社区存在“一些不安”
vfox 0.2.5 发布: 一个工具管理所有运行时版本!
Taro 3.6.25 发布,BAT 小程序、H5 与 RN 端统一框架
IoTOS v1.6.3 设备套餐、协议认证、套餐充值优化
Apache Doris 2.0.6 版本正式发布
开源免费的低代码平台—JeecgBoot v3.5.5 版本发布,性能大升级
新书发布 | 《分布式统一大数据虚拟文件系统》
融云荣登「2023 年度 PaaS 企业排行榜」
如何解析出令人惊艳的Psd设计稿?
What's new in Pika v3.5.0
开源免费的文件投喂与问答工具,构建你的第二大脑
私有网络的安全保障,WorkPlus Meet内网视频会议助力企业高效会议
两会专访丨全国政协委员、中国电信董事长柯瑞文:强化科技创新 加快新质生产力形成
一种Mysql和Mongodb数据同步到Elasticsearch的实现办法和系统
云行|乘云而上,“赣”劲十足,天翼云4.0暨赣州算力集群落成!
【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件
用一杯星巴克的钱,训练自己私有化的ChatGPT
天翼云云电脑:IAAS基础设施带来的计算革新
云数据库与Web网站:构建高效、可扩展的网络应用
干货分享,现代列式数据库系统如何设计与实现? | StoneData 论文选读
实力强劲!天翼云斩获多项权威大奖与认证!
数字化转型时代,审计该何去何从?
详解很多公司都在用的国产分布式任务调度框架:XXL-JOB
MatrixOne Logtail 设计解析
WorkPlus AI助理,基于ChatGPT的企业级知识问答机器人
CnosDB如何确保多步操作的最终一致性?
审计和风控做什么——企业审计和风控工作的相同和不同
天翼云加入云原生安全实验室,推进行业标准制定和生态建设!
五大免费的BI报表工具推荐
安全可信|这朵政务云通过中央网信办云计算服务安全评估增强级认证!
2023年度10月份GitHubJava项目排行榜Top 10
数字先锋 | 让群众健康更有“医靠”,天翼云为喀什中医院开出“上云妙方”!
海睿思分享 | 浅谈企业数据资产管理
活动回顾 | 云边异构新型数据库在智慧城市的应用实践
What's new in Pika v3.5.1
数字先锋 | 柳州政务云上行,服务办事更省心!
【腾讯技术答人挑战赛】答题赢iPad、Switch与海量鹅厂公仔~
迁移篇 | MatrixOne与MySQL全面对比
2023 年度国内低代码平台排名榜 (这5款低平台备受欢迎!)
用户首选!满意度第一!
深入浅出JVM(九)之字节码指令(上篇)
从研发域到量产域的自动驾驶工具链探索与实践
鹅厂架构师谈:如何做好架构设计?
【精彩回顾】恒拓高科亮相第十一届深圳军博会
版本动态 | Apache Linkis 1.5.0 版本发布
安居客研发效能度量体系介绍及设计方案
OurBMC运营委员会2023年下半年度例会顺利召开
Apache Doris 在小鹅通的应用实践
深入浅出JVM(十八)之并发垃圾收集器G1
企业研发提效抓手,揭秘云原生的效能“奇点”
SaaS 出海,如何搭建国际化服务体系?(二)
划词搜索IP插件
Java排序实战:如何高效实现电商产品排序
GitHub Copilot的最佳免费平替:通义灵码
智能感知编码优化与落地实践
什么是虚拟线程?一次启1000万个会OOM吗?
MatrixOne Layout 设计解读
OceanMind海睿思荣获DCMM3级乙方证书,数据管理能力获权威认证!
百度知道上云与架构演进
敲敲云 - 人人可用的在线表单工具,关键在于免费
Apache Doris 助力中国联通万亿日志数据分析提速 10 倍
扫光动效在移动端应用实践
WorkPlus即时通讯办公软件,助力企业实现移动化办公
天翼云网络创新与实践,加速云网融合纵深发展!
当我们一起走过 2023|Apache Doris 年度时刻盘点
数据本地性如何助力企业在云上实现高效机器学习
Java新特性中的Preview功能如何运行和调试
StoneDB受邀参加2023可信数据库发展大会,同业界大咖共话云原生与开源数据库
揭秘百度数仓融合计算引擎
我为什么放弃Go语言?
AI巨浪下,数据技术如何驱动智能未来?
一文解读2023年天翼云全民上云节玩法攻略
速来!体验阿里通义灵码,抽AI盲盒赢大奖,100%中奖,永不落空~
10秒搞定!隔壁奶奶都能搞定的幻兽帕鲁、雾锁王国开服指南
智能销售拓客系统:破解企业营销困局的新钥匙
OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023
Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险
矩阵起源荣获"深圳企业创新(国际)纪录"殊荣
禅道软件14年原创研发荣膺SAFe平台合作伙伴,国际权威机构认可专业实力
数据迁移原理(从 MySQL 5.7/8.0 迁移到 StoneDB 2.0)及技术答疑 | StoneDB 使用教程 #3
向“新”而行,以科技创新培育新质生产力!
详解Zookeeper(铲屎官)在众多中间件的应用和在Spring Boot业务系统中实现分布式锁和注册中心的解决方案
Java 配置 HTTP/Socks 代理竟能如此简单
全站热门评论
酒肉朋友
2024-03-19 10:20
不支持引用,不支持第三方工具截图发,还是有不少问题的。等后续更新吧😁,不过有了第一步,就有希望了
风沐流萤
2024-03-19 10:35
绩效追溯了解一下
z
zs5460
2024-03-19 08:21
期待exdoll联名版
iman123
2024-03-19 09:58
此外,他们还准备了一个特殊版本的 CodePush,可集成到用户的应用程序中并独立于 App Center 运行。
小而美软件开发
2024-03-19 01:09
又不开源随时给你收费
VersionFox
2024-03-19 09:28
v0.2.5有大BUG, 请升级最新v0.2.6🙏
c
cassan
2024-03-01 22:19
开源了,我们国内的公司又可以申请知识产权了
天朝八阿哥
2024-02-29 10:32
虽然不懂,但表示很赞,比随便就冠以“国产”“自主研发”之类的让人舒心太多了
roomsss
2024-03-05 09:48
小心我们僧哥自创个redis 中国. 然后自封为redis mvp. mpp,
无
无库
2024-03-07 13:13
早该如此的,国家应该要求处于垄断地位的超级软件必须支持Linux,否则重罚
t
tedx53
2024-02-27 09:42
高考状元的试卷给我抄,我也能轻松上清华
luwenhua
2024-03-05 18:18
其实用用惯了,比windows省心多了
不羁的醒与醉
2024-03-14 10:00
碰瓷营销差不多得了
dantezhu
2024-02-28 11:20
那,这就叫专业。
luwenhua
2024-03-11 14:10
怎么感觉这人怎么一直在投机停不下来啊
c
crystalsis
2024-03-19 09:34
可以看得出来,osc 的水平也就那样了. "需要注意的是,由于 Java 早在 2012 年就被苹果公司标记为 “过时技术”,因此该问题对于大多数普通 Mac 用户不会产生影响" 这个指的是苹果自己的 jdk. 因为 SUN 搞的 Java,他自己的是参考实现,哪家平台都要自己实现,苹果当年实现了三个不同的 JDK 呢. 但是后来出了那场著名的 SUN 诉微软案,所有公司认清了 SUN 的真面目,都放弃了自家的实现,不干了. 在那之后,所有人都只能用 SUN 的参考实现当正式项目来用,实际上已经让 Java 脱离了一次编译到处运行的设计初衷,因为需要手动安装 Java 了.
朋克
2024-02-28 11:36
这才是正常的盈利模式
shatian
2024-03-19 07:58
已经用上了,感觉还不错,虽然只用了个简单的功能,但是终于摆脱web版微信了
铂金小猎
2024-03-19 09:06
一切不用该框架的java web应用都是歪门邪道💪
120011676
2024-03-19 09:56
听说部署,运行起来要120W+
Yoona520
2024-02-24 17:44
国外那个P站的技术水准可不低,毕竟服务全世界除CN之外的人
Ai东
2024-03-19 10:06
这么好用的 基于mybatis的ORM 框架,大家居然不知道?
李英辉
2024-03-19 07:40
好主意,winnt早就该抛弃了
p
ppp5p
2024-03-19 10:13
一次系统升级引发了语言大战
2
2cong
2024-02-26 11:21
如果让我抄,我就会!🥵
Devlive开源社区
2024-03-10 14:32
只有缺心眼的人才能说出这种话来,ai的研发者不是程序员吗?说话不动脑子
小xu中年
2024-03-19 10:23
hao
o
osc_77072600
2024-03-18 22:57
最大的问题,你给别人用了。
i
iVista
2024-03-07 13:04
张小龙没()
monkey_cici
2024-02-26 11:39
开源系统还是要看民企的深度统信和华为欧拉...
VersionFox
2024-03-19 09:29
应该会等到v0.3.0插件系统改版之后, 跟进这个PR.
陈钇蒙
2024-03-19 10:09
用linux做内核整个windows都得开源, 然后各种第三方编译版windows到处都是
我的ID是jmjoy
2024-03-07 17:45
让市场说了算明显不行,某些企业利用资本先发优势大搞垄断,霸占生态位不干人事,店大欺客,早就应该治治了。
Freeandeasy
2024-03-19 02:13
哈哈哈哈
大后锋
2024-03-19 10:14
哦,你的意思AI发展完全没有瓶颈嘛。按照你是活法,博尔特估计早就该超光速了
大后锋
2024-03-18 13:27
苹果是仇视一切可以跨平台运行的东西吧
Monibuca
2024-03-19 09:39
和 java 有关的东西都是又臭又长
Yoona520
2024-03-18 22:06
没他linux早就成破铜烂铁了
漫步海边小路
2024-03-08 08:43
我猜你只知道这两个系统,多读正经书, 少看聊斋
CheckStyle
2024-02-21 18:45
关键是什么业务?10个人,2023年,一年,赚2000多万,泼天的富贵啊
小xu中年
2024-03-19 10:18
you xiu
t
troika
2024-03-08 14:54
外企:你继续说,我在走。
osc_94406955
2024-03-01 09:29
预计该问题会在 24 小时内彻底解决............. 今天3月1日了,bug神奇的消失
一介农夫
2024-03-19 08:56
日本银行经常宕机的系统所使用的语言的编译器?
gmg
2024-02-26 22:23
有点好奇为什么发布这种表面看起来吸引眼球的标题。
高排量低炭烧
2024-02-26 21:29
鸿蒙只是人家现学的,人家本来薪水就这么高,而不是新手培训完就值这个数
风
风一样的Man
2024-03-06 10:50
我还没开始用, 你就砍掉了
善良超哥哥
2024-03-19 10:14
不用遗憾,grok-1 和只需要一块 3090 的 qwen 效果差不多
dadait
2024-03-19 10:01
赞👍👍🏻👍🏼👍🏽👍🏾👍🏿
o
osc_vncde6lj
2024-03-18 22:28
666
太空中的小星星
2024-03-08 09:28
tx公司是霸权和垄断、资本等作怪。tx公司以前还专门试过阻止wine登录qq,不支持就算了。还阻止,这些公司毫无职业道德,早就该管了。
VersionFox
2024-03-19 09:29
PHP还在PR中, https://github.com/version-fox/version-fox-plugins/pull/23
k
kylexy
2024-02-26 10:38
大实话。。。。
砂锅居士
2024-03-19 09:01
没个100W估计都运行不起来
angelshaka
2024-03-05 18:25
百乙己涨红了脸:怎么能这么卖了呢,一点文人风骨都没有,我的想卖都没人要啊
CCCZZCCC
2024-03-07 08:46
每次看到你,就想着进来看看笑话,结果咱是首评...
dadait
2024-03-19 08:56
好像没有PHP
Ai东
2024-03-19 10:42
mybatis-mp 来祝贺:哈哈 https://gitee.com/mybatis-mp
记得小蘋初见123
2024-02-29 16:53
百小僧,出列
l
liaoxuewei
2024-03-02 12:58
你小心被咬😄
z
zhangzexdu
最近登录:2021/04/25 15:48
热门资讯
1
Linus Torvalds 不满 Linux 6.9 中的一些 Bcachefs 代码
2
离职后可以删除自己所编写的软件吗?
3
中央国家机关政府采购中心:应当将 CPU、操作系统符合安全可靠测评要求纳入采购需求
4
马斯克开源 Grok
5
Spring AI 0.8.1 发布
6
🔥 Spring 被打暴了! vs Javalin vs Solon
7
微软推出 Sudo for Windows 并开源
8
IntelliJ IDEA 2023.3.5 发布
9
金山办公推出鸿蒙星河版 WPS
10
全球首位 AI 软件工程师 Devin:能自学新语言、开发迭代 App、自动 Debug
热门软件
Scalar
- C# 实现的巨型 Git 仓库管理工具
baligo
- 极简 Golang 构建打包工具
HugeGraph
- 图数据库系统
Astro
- 静态站点生成器
umi
- 可插拔的企业级 React 应用框架
GlueSQL
- Rust 编写的 SQL 数据库引擎
n8n
- 可扩展的工作流自动化工具
LanceDB
- Serverless 向量数据库
ProseMirror
- 所见即所得 HTML 编辑器
UIS-RNN
- 谷歌强大声音识别系统核心算法
Zinc
- 轻量级全文搜索引擎
TurboPilot
- AI 代码补全引擎
OpenSumi
- 本地和云端 IDE 底层框架
Elk
- 用于嵌入式系统的微型 JS 引擎
Ambie
- 白噪音助眠软件
go-fastdfs
- 高性能、高可靠分布式文件系统
EnPHP
- 加密混淆 PHP 代码
JSNetworkX
- JavaScript 图形库
Scheme langserver
- Scheme 语言 LSP 实现
Prisma
- 构建数据库的 GraphQL 服务框架
登录后可查看更多优质内容
使用微信快捷登录
©OSCHINA(OSChina.NET)
工信部
开源软件推进联盟
指定官方社区
社区规范
深圳市奥思网络科技有限公司版权所有
粤ICP备12009483号
顶部