使用 csv 文件格式导入和导出数据的 Python 和 R 函数。本杰明·欧·塔约的图片
T 逗号分隔值(CSV)文件格式是数据科学中最流行的文件格式。作为初学者,您在数据科学之旅中学到的基本技能之一是如何导入存储在 CSV 文件中的数据。数据是数据科学和机器学习的关键,因此学习导入和导出 CSV 文件中包含的数据的基础知识非常重要。导入的数据可以多种方式使用,例如生成可视化、描述性统计、预测性建模,或者只是用于清理和预处理,然后导出回 CSV 文件以备后用。本教程将涵盖使用 Python 和 R 代码实现处理 CSV 文件的基础知识。我们将使用号游轮数据集来说明我们的例子。
a)使用 Python 的熊猫
创建一个包含您的 CSV 文件的目录。然后在同一个目录下创建一个 Jupyter 笔记本。现在,使用以下命令将 CSV 文件作为数据框导入 Jupyter 笔记本:
import pandas as pddf = pd.read_csv("cruise_ship_info.csv")df.head(n=5)
表 1 。使用 pd.read_csv()方法输出。
可以使用 type() 函数验证新对象的类型:
type(df)
这将返回以下输出:
pandas.core.frame.DataFrame
***PD . read _ CSV()***方法有几个不同的属性。要了解更多信息,您可以使用以下内容访问帮助页面:
?pd.read_csv
b)使用基数 R
在当前工作目录下创建一个 R 脚本文件。现在使用以下命令将 CSV 文件作为数据帧导入 R 脚本:
data <- read.csv("cruise_ship_info.csv")head(data, n = 5)
表二。使用 read.csv()函数输出。
可以使用 class()函数来验证新对象的类型:
class(data)
这将返回以下输出:
"data.frame"
read.csv() 函数有几个不同的属性。要了解更多信息,您可以使用以下内容访问帮助页面:
?read.csv
c)使用 R 的 Readr 包
readr 包中的 read_csv() 函数也可用于导入 csv 文件:
library(readr)data <-read_csv("cruise_ship_info.csv")head(data, n = 5)
表 3 。使用 read_csv()函数输出。
请注意,在这种情况下,输出是一个 tibble。tibble 是一种特殊类型的数据帧。你可以从 tidyverse 网站找到更多关于 tibble 的信息。
read.csv() 函数有几个不同的属性。要了解更多信息,您可以使用以下内容访问帮助页面:
?read_csv
a)使用 Python 熊猫
如果 CSV 文件位于具有已知 URL 的网站上,则可以按如下方式导入该文件:
url = "[https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv](https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv)"df = pd.read_csv(url)df.head(n = 5)
这将产生与表 1 中的输出相同的输出。
b)使用基数 R
url = "[https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv](https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv)"data <-read.csv(url)head(data, n = 5)
这将产生与表 2 中的输出相同的输出。
使用 R 的 Readr 包
url = "[https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv](https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv)"data <-read_csv(url)head(data, n = 5)
这将产生与表 3 中的输出相同的输出。
d)使用 R 中的 download.file()函数
该功能允许您首先将文件下载到当前工作目录,然后您可以使用上面第 1 小节中讨论过的任何方法导入文件:
url = "[https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv](https://raw.githubusercontent.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size/master/cruise_ship_info.csv)"download.file(url,"cruise_ship_info.csv")
要了解有关 download.file()函数的更多信息,您可以使用以下内容访问帮助页面:
?download.file
假设您已经从 CSV 文件中导入了原始的不干净数据。然后,您编写了代码来争论和清理数据。现在,您希望导出干净的数据集,并将其保存为 CSV 文件以供将来使用。在本节中,我们将解释如何将数据导出到 CSV 文件。
最终数据帧(df)可通过以下方式导出为 CSV 文件:
df.to_csv("final.csv", index = False)
默认情况下,pd.DataFrame.to_csv
方法在包含观察数字的文件中创建一个额外的列。为了防止这种情况,将index
参数设置为False
。
pd。数据帧 ***。*to _ CSV()**函数有几个不同的属性。要了解更多信息,您可以使用以下内容访问帮助页面:
?pd**.**DataFrame**.**to_csv
write.csv(df, "final.csv", row.names = F)
默认情况下,write.csv
函数会在包含观察值的文件中创建一个额外的列。为了防止这种情况,将row.names
参数设置为F (False).
write.csv() 函数有几个不同的属性。要了解更多信息,您可以使用以下内容访问帮助页面:
?write.csv
总之,我们已经讨论了从 CSV 文件导入数据或将其导出到 CSV 文件的几种方法。CSV 文件格式是存储数据最常用的文件格式。任何对学习数据科学基础感兴趣的人都必须学习如何使用 CSV 文件格式。
数据科学 101 —包含 R 和 Python 代码的中型平台短期课程
如有疑问,请发邮件给我:benjaminobi@gmail.com