快试试这个Kaggle大数据集高效访问教程

发布时间：2021-05-22 21:09:32 所属栏目：大数据来源：互联网

导读：我敢肯定，你在解决某些问题时，一定报怨过没有足够的数据，但偶尔也会抱怨数据量太多难以处理。本文探讨的问题就是对超大规模数据集的处理。在数据过多的情况下，最常见的解决方案是根据RAM采样适量数据，但这却浪费了未使用的数据，甚至可能导致信息缺失

我敢肯定，你在解决某些问题时，一定报怨过没有足够的数据，但偶尔也会抱怨数据量太多难以处理。本文探讨的问题就是对超大规模数据集的处理。

在数据过多的情况下，最常见的解决方案是根据RAM采样适量数据，但这却浪费了未使用的数据，甚至可能导致信息缺失问题。针对这些问题，研究人员提出多种不同的非子采样方法。需要注意的时，某一方法是无法解决所有问题的，因此在不同情况下要根据具体需求选择恰当的解决方案。

本文将对一些相关技术进行描述和总结。由于Riiid! Answer Correctness Prediction数据集由10列，超1亿行的数据组成，在Kaggle Notebook中使用pd.read_csv方法读取会导致内存不足，因此本文将该数据集做为典型示例。

不同安装包读取数据的方式有所不同，Notebook中可用方法包括（默认为Pandas，按字母表排序）：

Pandas

Dask

Datatable

Rapids

除了从csv文件读取数据外，还可以将数据集转换为占有更少磁盘空间、更少内存、读取速度快的其他格式。Notebook可处理的文件类型包括（默认csv，按字母表排序）：

csv

feather

hdf5

jay

parquet

pickle

请注意，在实际操作中不单单是读取数据这么简单，还要同时考虑数据的下游任务和应用流程，综合衡量以确定读取方法。本文对此不做过多介绍，读者可自行查阅相关资料。

同时，你还会发现，对于不同数据集或不同环境，最有效的方法往往是不同的，也就是所，没有哪一种方法就是万能的。

后续会陆续添加新的数据读取方法。

（编辑：菏泽站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

架构迭代无法一蹴而就	云数据仓库中的数据安
区块链为大数据分析提	如何使用Google Cloud