python有没有高效的求差集的方法,两个分别三百万数据的csv文件求差集?

胖虎天下第一 发布于 06/30 19:50
阅读 199
收藏 0

鲲鹏开发者成长训练营,学练结合,技能一站式进阶,赢华为手机等好礼!>>>

两个分别三百万数据的csv文件求差集?有没有什么快点的方法

加载中
0
自由PHP
自由PHP

redis->Sdiffstore

0
bnysky
bnysky

python的pandas,使用dataframe根据指定key求交集,不过数据量较大的时候内存占用较高。

df_a,df_b    df_a.append(df_b)   df_a.append(df_b)   df_a.drop_duplicates(subset=['key'], keep=False)

返回顶部
顶部