Skip to content

一、概述

leisux edited this page Apr 30, 2021 · 1 revision

ipybd 是一款由 Python 开发的中文生物多样性数据清洗、统计与分析框架。当前的 ipybd 版本实现了一个通用的生物多样性数据提取、转换、装载框架,它可以显著提升数据平台、数据管理机构、数据使用者对不同来源、不同格式、不同品质、不同规范的数据集进行统一的批量化清洗转换与整合利用的能力,从而大幅降低数据处理的门槛和成本,提高数据分析前的数据处理品质和效率。目前 ipybd 已经具备了以下一些能力:

1.1 数据处理的能力 数据装载:目前支持从Excel/CSV/TEXT/JSON/Pandas.DataFrame 以及各类关系型数据库(比如Mysql)导入数据;

物种学名:能够将各种手写的拉丁名转化为规范的学名格式,并可以在线批量获取 POWO, IPNI, 中国生物物种名录上相应物种的最新分类阶元、分类处理、物种图片、发表文献、相关异名等信息;

日期与时间:可以对各类手工转录的日期和时间,进行严格的校验、清洗和转换,并可根据需要输出不同样式;

经纬度:可以对各类手工转录的经纬度,进行严格的清洗、校验和转换;

中文行政区划:可以对各种自然语言表达的中文县级及其以上的行政区划进行高品质的匹配、校正和转换;

选值:能够自定义各种字段的选值和转换关系,并根据转换关系,自动完成现有值的规范化;

数值和数值区间:可以对各类数值或数值区间,进行自动化的清洗、校正和转换;

拆分与合并:ipybd 不仅可以对数据列进行各种合并和拆分,还可以将单列、多列或整个表格的数据列映射为各类 Python dict list 对象或者 JSON Object 和 Array,从而为各种数据分析和互联网平台的数据交换工作提供灵活的格式转换支持。

标签打印:能够生成带有条形码样式的标签文档以供打印。

数据输出:经过处理的数据,可以输出为Excel/CSV文件或者直接更新至相应的数据库之中。

1.2 生成工具的能力 框架是生成工具的工具 ,ipybd 定义了一套简洁的语义,可以帮助用户快速的定制出个性化的数据转换模型。这些模型能够根据相应任务的需要,将以上各种数据处理能力自由拼接和组合,以实现数据集的自动化清洗和转换。

同时 ipybd 数据模型还具有良好的泛化能力,定义的模型不仅可以处理特定的数据集,还可以应用到同种类型不同数据源的处理任务之中。此外ipybd 数据模型同样支持数据处理能力的个性化扩展,用户自定义的数据处理方法也能够应用到数据模型的定义之中。

1.3 数据统计分析的能力 ipybd 基础数据结构完全基于 Pandas.DataFrame 构建,因此其原生支持 Pandas 完备的数据统计和分析功能。同时,pandas 作为 Python 数据分析生态中的核心库,其丰富的应用生态体系也为 ipybd 拓展生物多样性相关的分析能力提供了坚实的开发基础。

sddd

Clone this wiki locally