比如有个 txt 文本,一共有 33W 行文字,以行作为单位,去重,我应该怎么写效率会比较高呢?
我目前用的普通的方法,发现耗时比较长
我列出我目前的方法
with open('/Users/lizhao/Downloads/aboutchinese.dict.yaml') as f:
for i in f.readlines():
if i == '\n':
continue
if i not in oldList:
oldList.append(i)
with open('tmp.txt','w') as g:
g.writelines(oldList)
代码渣,请轻喷
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.