快试试这个Kaggle大数据集高效访问教程数据太多而无法使用 (快试试这个家常烧饼做法)

文章编号：36889 资讯动态 2024-11-30 数据处理 kaggle

译者：AI研习社（季一帆）

双语原文链接： Tutorial on reading large>大规模数据集

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

我敢肯定，你在解决某些问题时，一定报怨过没有足够的数据，但偶尔也会抱怨数据量太多难以处理。本文探讨的问题就是对超大规模数据集的处理。

在数据过多的情况下，最常见的解决方案是根据RAM采样适量数据，但这却浪费了未使用的数据，甚至可能导致信息缺失问题。针对这些问题，研究人员提出多种不同的非子采样方法。需要注意的时，某一方法是无法解决所有问题的，因此在不同情况下要根据具体需求选择恰当的解决方案。

本文将对一些相关技术进行描述和总结。由于 Riiid! Answer Correctness Prediction 数据集由10列，超1亿行的数据组成，在Kaggle Notebook中使用pd.read_csv方法读取会导致内存不足，因此本文将该数据集做为典型示例。

不同安装包读取数据的方式有所不同，Notebook中可用方法包括（默认为Pandas，按字母表排序）：

除了从csv文件读取数据外，还可以将数据集转换为占有更少磁盘空间、更少内存、读取速度快的其他格式。Notebook可处理的文件类型包括（默认csv，按字母表排序）：

请注意，在实际操作中不单单是读取数据这么简单，还要同时考虑数据的下游任务和应用流程，综合衡量以确定读取方法。本文对此不做过多介绍，读者可自行查阅相关资料。

同时，你还会发现，对于不同数据集或不同环境，最有效的方法往往是不同的，也就是所，没有哪一种方法就是万能的。

后续会陆续添加新的数据读取方法。

方法

我们首先使用Notebook默认的pandas方法，如前文所述，这样的读取因内存不足失败。

import pandas as pdimport dask.dataframe as dd# confirming the default pandas doesn't work (running thebelow code should result in a memory error)#> 数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

是最常用的数据集读取方法，也是Kaggle的默认方法。Pandas功能丰富、使用灵活，可以很好的读取和处理数据。

使用pandas读取大型数据集的挑战之一是其保守性，同时推断数据集列的数据类型会导致pandas>

帮助文档:

%%Timedtypes = {"row_id": "int64","timestamp": "int64","user_id": "int32","content_id": "int16","content_type_id": "boolean","task_container_id": "int16","user_answer": "int8","answered_correctly": "int8","prior_question_ELApsed_time": "float32","prior_question_had_explanation": "boolean"}data = pd.read_csv("../input/riiid-test-answer-prediction/train.csv", dtype=dtypes)print("Train size:",>

Train size: (101230332, 10)CPU times: user 8min 11s, sys: 10.8 s, total: 8min 22sWall time: 8min 22s

data.head()

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

Dask介绍

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

Dask提供并行处理框架对pandas工作流进行扩展，其与Spark具有诸多相似之处。

帮助文档：

%%timedtypes = {"row_id": "int64","timestamp": "int64","user_id": "int32","content_id": "int16","content_type_id": "boolean","task_container_id": "int16","user_answer": "int8","answered_correctly": "int8","prior_question_elapsed_time": "float32","prior_question_had_explanation": "boolean"}data = dd.read_csv("../input/riiid-test-answer-prediction/train.csv", dtype=dtypes).compute()print("Train size:",>

Train size: (101230332, 10)CPU times: user 9min 24s, sys: 28.8 s, total: 9min 52s

Wall time: 7min 41s

data.head()

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

Datatable介绍

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

受R语言data.table的启发，python中提出，该包可快速读取大型数据集，一般要比pandas快得多。值得注意的是，该包专门用于处理表格数据集，能够快速读取大规模的表格数据集。

帮助文档：

%%timedata = dt.fread("../input/riiid-test-answer-prediction/train.csv")print("Train size:",> 数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

Rapids介绍

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

提供了在GPU上处理数据的方法。通过将机器学习模型转移到GPU，Rapids可以在一个或多个GPU上构建端到端的数据解决方案。

帮助文档：

# rapids installation (make sure to turn on GPU)import sys!cp ../input/rapids/rapids.0.15.0 /opt/conda/envs/rapids.tar.gz!cd /opt/conda/envs/ && tar -xzvf rapids.tar.gz > /dev/nullsys.path = ["/opt/conda/envs/rapids/lib/python3.7/site-packages"] + sys.pathsys.path = ["/opt/conda/envs/rapids/lib/python3.7"] + sys.pathsys.path = ["/opt/conda/envs/rapids/lib"] + sys.pathimport cudf

%%timedata = cudf.read_csv("../input/riiid-test-answer-prediction/train.csv")print("Train size:",>

Train size: (101230332, 10)CPU times: user 4.58 s, sys: 3.31 s, total: 7.89 s

Wall time: 30.7 s

data.head()

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

文件格式

通常，我们会将数据集存储为容易读取、读取速度快或存储容量较小的格式。数据集存储有各种不同的格式，但不是每一种都可以被处理，因此接下来，我们将介绍如何将这些数据集转换为不同的格式。

# target="_blank">此处获取，不包括竞赛组提供的原始csv数据。

csv格式

大多数Kaggle数据集都提供了csv格式文件。该格式几乎成为数据集的标准格式，而且所有方法都支持从csv读取数据。

更多相关信息见:

%%timedtypes = {"row_id": "int64","timestamp": "int64","user_id": "int32","content_id": "int16","content_type_id": "boolean","task_container_id": "int16","user_answer": "int8","answered_correctly": "int8","prior_question_elapsed_time": "float32","prior_question_had_explanation": "boolean"}data = pd.read_csv("../input/riiid-test-answer-prediction/train.csv", dtype=dtypes)print("Train size:",>

Train size: (101230332, 10)CPU times: user 8min 36s, sys: 11.3 s, total: 8min 48sWall time: 8min 49s

feather格式

以feature（二进制）格式存储数据对于pandas极其友好，该格式提供了更快的读取速度。

了解更多信息：

%%timedata = pd.read_feather("../input/riiid-train-data-multiple-formats/riiid_train.feather")print("Train size:",>

Train size: (101230332, 10)CPU times: user 2.59 s, sys: 8.91 s, total: 11.5 sWall time: 5.19 s

hdf5格式

HDF5是用于存储、管理和处理大规模数据和复杂数据的高性能数据管理组件。

了解更多信息：

%%timedata = pd.read_hdf("../input/riiid-train-data-multiple-formats/riiid_train.h5", "riiid_train")print("Train size:",>

Train size: (101230332, 10)CPU times: user 8.16 s, sys: 10.7 s, total: 18.9 sWall time: 19.8 s

jay格式

Datatable支持.jay（二进制）格式，其在读取jay格式数据时速度快得超乎想象。从下面的示例可以看到，该方法读取整个riiid数据集用时甚至不到1秒！

了解更多信息：

%%timedata = dt.fread("../input/riiid-train-data-multiple-formats/riiid_train.jay")print("Train size:",>

Train size: (101230332, 10)CPU times: user 4.88 ms, sys: 7.35 ms, total: 12.2 msWall time: 38 ms

parquet格式

在Hadoop生态系统中，parquet是tabular的主要文件格式，同时还支持Spark。经过近年的发展，该数据格式更加成熟，高效易用，pandas目前也支持了该数据格式。

%%timedata = pd.read_parquet("../input/riiid-train-data-multiple-formats/riiid_train.parquet")print("Train size:",>

Train size: (101230332, 10)CPU times: user 29.9 s, sys: 20.5 s, total: 50.4 sWall time: 27.3 s

pickle格式

对象可以以pickle格式存储，pandas内置支持pickle对象的读取和写入。

了解更多信息：

%%timedata = pd.read_pickle("../input/riiid-train-data-multiple-formats/riiid_train.pkl.gzip")print("Train size:",>

Train size: (101230332, 10)CPU times: user 5.65 s, sys: 7.08 s, total: 12.7 sWall time: 15 s

不同方法各有千秋

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

每种方法都有自己的优缺点，例如：

因此，希望读者掌握不同的方法，并根据实际需求选择最恰当的方法。我始终相信，研究不是技术驱动的，技术方法只是手段，要有好主意、新想法、改进技术才能推动数据科学的研究与发展。

在经过大量研究后，我确信不同数据集具有不同的适用方法，因此要多尝试，千万不要试图一招半式闯江湖。

在不断更新的开源软件包和活跃的社区支持下，数据科学必将持续蓬勃发展。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

版权文章，未经授权禁止转载。详情见转载须知。

数据太多而无法使用？快试试这个Kaggle大数据集高效访问教程

本文地址： https://www.gpxz.com/article/9cb2757b3934de4a061a.html

上一篇：TensorFlow10正式发布你需要知道的都在这里

下一篇：AI领域ai的应用领域有哪些

理想汽车

理想汽车致力于为家庭打造更安全、更便捷、更舒适的智能电动车，产品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程电动系统、魔毯空悬、智能驾驶、智能空间。

安全杀毒 2026-01-21 12:33:21

丁力软件

手机软件 2026-01-21 14:23:05

凯氏定氮仪

山东恒美电子科技有限公司致力于凯氏定氮仪的研发生产,生产的全自动闪点仪稳定性好,电位滴定仪价格优惠,开口闪点测定仪厂家直销,全自动凯氏定氮仪操作简单快速,深受客户信赖，咨询电话19153685881

管理咨询 2026-01-25 17:55:51

品控

品控描述

电影视频 2026-01-28 21:11:23

合肥瑶海同缮皮肤病专科门诊部

合肥同缮皮肤病专科门诊部是由卫生部门批准的安徽省较早从事皮肤病专科的诊疗机构，主要以中医中药为特色开展白癜风、银屑病(牛皮癣)、鱼鳞病、皮炎、湿疹、荨麻疹、痤疮、黄褐斑、疣、甲癣（灰指甲）、手足癣、体股癣、手足皲裂、脱发等各类皮肤病

科研机构 2026-01-29 13:34:26

北京

安居搜房为您提供全国各地最新最全面的新房、二手房楼盘信息以及各地区2018年房价走势图，及时了解各地楼市实时新闻快讯、房地产资讯、政策法规、购房百科、旅游攻略等最新消息，无论是选房还是看房，所有问题答案均在安居搜房房地产信息网！

新闻资讯 2026-01-29 13:35:00

蚂蚁下载网

蚂蚁下载网专注于手游App及应用软件下载和攻略分享，覆盖各类热门应用，提供便捷的下载渠道。我们还汇聚了最实用的游戏攻略，助您轻松突破游戏各种难关，享受游戏的乐趣发现更多精彩！

游戏网游 2026-01-29 14:16:53

全球静脉识别及可信身份认证解决方案服务商

上海芯灵科技有限公司成立于2019年，总部位于上海临港松江科技城，是全球静脉识别及可信身份认证解决方案优秀提供商。主要提供指静脉识别模块、指静脉识别仪、指静脉智能柜等指静脉识别全栈式产品及服务。

商业服务 2026-01-29 14:42:41

安徽鑫登峰机电设备科技有限公司

安徽鑫登峰机电设备科技有限公司以优良的品质和优良的服务赢得广大客户的信赖和大力支持，业绩节节上升，不断壮大发展，资金实力雄厚，设备齐全。本公司拥有先进的三轴数控电脑植毛机、四轴数控电脑植毛机和五轴数控电脑植毛机及钻孔机、马钉机，专业生产、加工各类钢丝轮、毛刷轮、毛刷辊、条刷、板刷、海绵辊、针辊、皮带刷、管道刷、圆盘刷、弹簧刷（内绕.边绕.侧绕）等，产品品质配备高品质的检验设备，经验丰富的技师，鑫登峰同时还具有开模、注塑，植毛，包装等系列服务，所生产的产品获得众厂商的认可信赖。

商业服务 2026-01-29 15:05:36

智能道闸

浙江兆磊电子设备有限公司是一家专业研发、生产和销售智能门禁系统及LED显示屏的企业，主要产品包括指纹门禁、可视门禁、消费系统、道闸系统、金属安检门及巡更系统等系列产品，我们始终致力于为客户提供经济实用的全套设备解决方案，深受用户的一致好评。

网络应用 2026-01-29 18:54:53

淄博天凯耐火保温材料有限公司,保温抹面料,浇注料,耐火砖,耐火材料,硅酸铝纤维毯,保温隔热涂料

淄博天凯耐火保温材料有限公司主要生产保温抹面料,浇注料,耐火砖,耐火材料,硅酸铝纤维毯,保温隔热涂料等产品，在浇注料等各种异型耐火保温砖生产方面拥有多年的经验和技术。

电影视频 2026-01-29 19:31:04

折幕终结者

懒图（深圳）数字动漫技术研发中心

卡通动漫 2026-01-20 18:19:23

拼多多跨境平台Temu开放入驻 (拼多多跨境平台)

拼多多的跨境电商平台Temu已经在9月1日上线了，而且可以申请入驻了，一般来说，新出的平台都有一定新机会，但对你是不是个机会呢?请看本文，Temu的网站和APP的功能设计几乎没有差别，和SheIn相似的是，Temu网站首页，20%，的折扣标识非常明显，入驻要求，优先招募有北美市场供应商经验、有跨境电商平台和独立站运营经验的卖家，能够保...。

2025-02-02 01:17:55

腾讯必须要打赢的信息流广告之战 (腾讯必须要打游戏吗)

2018年11月9日，腾讯滨海大厦总部内正在举行20周年司庆活动，在腾讯总裁办成员与员工的Linktime交流环节中，腾讯公司董事会主席兼CEO马化腾、总裁刘炽平、前CTO张志东等人接受了一场特别的提问，由于2018年腾讯突然面临，没有梦想，的质疑，因此现场有人问到，如何评价过去一年的行业发展和公司的表现?在马化腾提到腾讯面向产业互联...。

2025-01-30 21:40:30

电竞版卖掉黑鲨后 Redmi 小米进军游戏手机的第一枪 K50 (电竞买卖)

作者，方志广肖漫编辑，李帅飞2月16日，RedmiK50系列终于亮相，第一款是主打游戏的电竞版，这多少让人有些意外——因为在去年2月发布的K40系列中，首先亮相的是K40和K40Pro，；专注于游戏的K40游戏增强版，则是在将近两个月之后才发布，难道，Redmi要帮助小米扛起游戏手机的大旗了，K50电竞版产品一览先来看RedmiK5...。

2024-12-09 23:15:56

派件不上门必赔付；华为Mate 雷峰早报没网也能发信息知乎起诉苏宁拖欠百万广告费；顺丰官宣服务升级 50发布 (派件不上门必须付钱吗)

华为，截胡，苹果发布卫星通信功能，Mate50手机首发采用卫星技术，没网也能发信息，9月6日消息，在苹果发布会前夕，华为在线上发布了其首款支持北斗卫星通信消息的大众智能手机华为Mate50系列，这也是时隔两年，Mate系列手机重回市场，此前有消息，苹果iPhone14系列也将支持卫星通信功能，并赶在发布会之前完成该功能的硬件测试，此外...。

2024-12-03 16:35:32

8月28日上午，滴滴出行与小鹏汽车共同宣布，双方将达成战略合作，将利用各自优势资源，携手推广智能电动车及相关技术在全球的应用与普及，共同推动交通和汽车产业的变革，滴滴自成立以来，一直在探索如何向用户提供更具性价比、更智能的出行方式，在获得用户认可后，滴滴逐步加大对智能化出行场景的软硬件探索和投入，始终致力成为产业变革的引擎，做好技术及...。

2024-11-30 18:40:37

全新护眼模式投影仪护眼新标配坚果J7pro测评 (全新护眼模式怎么设置)

发表在坚果投影仪2020，6，1713，02在显示设备上要说护眼那肯定是投影仪对眼睛的伤害是最小的，最近，坚果智能影院发布了新款投影仪—坚果J7pro，这款坚果投影的新品搭载了全新护眼模式，同类南德低蓝光认证，被称为投影仪产品护眼新标配，下面我们就来看看这款坚果J7pro到底怎么样吧，一、外观首先外观方面，坚果J7pro采用了北欧风格...。

2024-11-28 18:11:21

马斯克要求SpaceX供应商把消费业务搬出台湾地域国台办回应 (马斯克要求SpaceX的台湾供应商搬出台湾,惊起蛙声一片)

11月13日上午，国台办举办例行资讯发布会，记者，据媒体披露，马斯克日前要求美国太空探求技术公司，SpaceX，的台湾地域供应商把消费业务搬出台湾地域，对此有何评论，国台办发言人朱凤莲，民进党当局固执保持，台独，决裂立场，勾连外部权利始终启动谋，独，寻衅，把台湾一步步推向兵凶战危的险境，无关意向标明民进党当局一味谋，独，寻衅，只会害台...。

2024-11-13 15:55:08

北京x3是三菱发起机吗 (北京x3属于哪个系列)

不是，北京智达X3的发起机是由北汽、三菱和飞驰联结开发的，不齐全属于三菱发起机，这款车的发起机是在协作同伴的独特致力下开发的，结合了各自的技术和专长，三菱介入了发起机的开发，详细的技术细节和结构与三菱品牌的车型有所不同，有三菱的介入，北京智达X3的发起机不能被便捷地称为三菱发起机，是一种通过协作开发的国产发起机，结合了多个厂商的技术和...。

2024-07-16 07:31:10

2023年不用登录的游戏有哪些 (2023年不锈钢价格走势)

介绍一，我的迷你杂货店无广告不用登录我的迷你杂货店无广告不用登录玩家在游戏中运营了一家杂货店，售卖各种各样的粗劣东西，每个期间段都会有很多的客户来购置，极速的预备客户所须要的东西，在规则的期待期间之内，玩家须要整顿自己的杂货店，每一个东西摆放位置自在摆放，来一同运营杂货店吧，介绍二，Everskies免登录版Everskies免登录版...。

2024-07-09 01:02:50

帝豪rs怎样样 (帝豪rs怎样自动升降车窗玻璃)

帝豪RS是一款装备了初级奢侈外观的轿车，它联合了杰出的性能，为生产者提供了愈加温馨的驾驶体验，帝豪RS驳回了降级的外观设计，让汽车看起来愈加时兴，外观繁复慷慨，搭配上粗劣的内饰，令人蔚为大观，1、外观设计帝豪RS驳回了家族式设计，领有奢侈外观，让汽车看起来愈加时兴，它驳回了降级的外观设计，搭配上粗劣的内饰，令人蔚为大观，外部的噪音更低...。

2024-07-01 20:57:51

PassFabforOffice破解版-PassFabforOffice(Office密码恢复软件)v8.4.4.1中文免费版

PassFabforOffice是一款用于Office密码恢复工具，可以立即恢复或重置Word（*.doc，*.docx）文档，Excel（*.xls，*.xlsx）文档和PowerPoint（*.ppt）的密码，*.pptx）文件等

2023-11-11 03:07:30

南宁直飞文莱斯里巴加湾定期国际航线正式复航|南宁市|航季航班计划

南宁直飞文莱斯里巴加湾定期国际航线正式复航,直飞,复航,南宁市,国际航线,航季航班计划,文莱斯里巴加湾

2023-09-02 16:46:53

文章推荐

行走的超级大平板！4K闺蜜机当贝PadGO重磅亮相 (行走的davies)

10月23日，当贝正式发布新产品，当贝PadGO，，这是继智能投影、智能盒子后，当贝再次涉足新领域，推出移动智慧屏产品，同时，当贝PadGO也是当贝十周年之际发布的重磅新品，当贝PadGO定位，行走的超级大平板，，相较同级产品，它在硬件配置、核心性能、智能应用等全方位都进行了大幅升级，拥有4K超高清显示，搭载旗舰级MTKGenio12...。

2025-02-02 18:12:40

资讯动态

如何从0到1搭建付费知识类社群经验分享 (如何从0到1搭建团队)

我们做什么事情都要有计划、有步骤，同样，想要搭建一个社群也是有步骤的，社群搭建步骤分为筹备期、社群1.0，社群2.0，筹备期筹备期首先要清楚以下几点，1.我为什么要做社群?2.社群的定位是什么?3.我要把社群做出什么样的结果?5.我要怎么做这个社群?6.社群成员是一群怎样的人?7.清楚社群的目标人群是谁，需求是什么，痛点是什么?8.社...。

2025-01-31 03:39:13

网络百科

液体化工怎么运输啊不是危险品 (液体化工怎么出口到国外)

有相关的标准的，你去查查吧，不是你说不危险就不危险了，按照你的化工品种类、名称去查运输标准，如果没有，参考一下下面的管理条例一、从事危险化学品运输的基本要求1、根据，危险化学品安全管理条例，以下简称条例，规定，国家对危险化学品的运输实行资质认定制度，没有经过资质认定的单位不得运输危险化学品，通过公路运输危险化学品的托运人，只能委托具...。

2024-12-06 15:51:14

资讯动态

面包品牌排行 (面包品牌排行榜前十)

可颂坊面包依托着自己强大的经营管理队伍和技术研发力量，坚持不懈地追求产品和服务的高品质，坚持产品的新鲜、美味、健康；巴黎贝甜追求服务的体贴、周到、温馨，面包新语面包一直以来依托着自己强大的经营管理队伍和技术研发力量，浮力森林坚持不懈地追求产品和服务的高品质，多乐之日坚持产品的，新鲜、美味、健康；好嘉利追求服务的，体贴、周到、温馨；味多...。

2024-12-04 22:16:19

创业加盟

VR技术又一突破！可帮助瘫痪病人重获行走能力 (vr技术是)

在人们的传统观念里，因为脊髓受伤而被诊断为瘫痪的患者等于被判了，永不能再继续行走，的，死刑，不过，随着科技进步，尤其是VR等新兴技术的出现和普及，瘫痪病人不能再步行的命运也许将被打破，据theverge报道，一种增强式可穿戴辅助装置和虚拟现实技术的结合或许可以帮助瘫痪的人重新获得触觉，以及部分对腿部肌肉的控制，近日，，科学报告，杂志...。

2024-12-03 23:47:00

资讯动态

快试试这个Kaggle大数据集高效访问教程 数据太多而无法使用 (快试试这个家常烧饼做法)

方法

Dask介绍

Datatable介绍

Rapids介绍

文件格式

csv格式

feather格式

hdf5格式

jay格式

parquet格式

pickle格式

不同方法各有千秋

相关文章

文章推荐

快试试这个Kaggle大数据集高效访问教程数据太多而无法使用 (快试试这个家常烧饼做法)