diff --git a/docs/about_model/convert_model/index.html b/docs/about_model/convert_model/index.html index 9fd43f87..3be080e7 100644 --- a/docs/about_model/convert_model/index.html +++ b/docs/about_model/convert_model/index.html @@ -1632,8 +1632,8 @@

3. 使用该模型 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/about_model/model_summary/index.html b/docs/about_model/model_summary/index.html index 13b6e9d1..e85af918 100644 --- a/docs/about_model/model_summary/index.html +++ b/docs/about_model/model_summary/index.html @@ -2019,8 +2019,8 @@

文本识别模型 情 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/blog/02_config_parameter/index.html b/docs/blog/02_config_parameter/index.html index 890bb4eb..90d33afb 100644 --- a/docs/blog/02_config_parameter/index.html +++ b/docs/blog/02_config_parameter/index.html @@ -1913,8 +1913,8 @@

Rec部分 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/blog/04_inference_summary/index.html b/docs/blog/04_inference_summary/index.html index df8ac433..ebedd7ba 100644 --- a/docs/blog/04_inference_summary/index.html +++ b/docs/blog/04_inference_summary/index.html @@ -1683,8 +1683,8 @@

获取字典内容 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/business_support/index.html b/docs/business_support/index.html index badd2ad7..27996a58 100644 --- a/docs/business_support/index.html +++ b/docs/business_support/index.html @@ -1622,8 +1622,8 @@

服务三:国产操作系 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/changelog/index.html b/docs/changelog/index.html index 5a69dd40..3ba1c886 100644 --- a/docs/changelog/index.html +++ b/docs/changelog/index.html @@ -1552,8 +1552,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/changelog/rapidocr/index.html b/docs/changelog/rapidocr/index.html index e3098b3c..a31a8665 100644 --- a/docs/changelog/rapidocr/index.html +++ b/docs/changelog/rapidocr/index.html @@ -1938,8 +1938,8 @@

2021-03-24 udpate: 🍜2023-05-22 api update: 2023-10-23 v1.3.9 update: 🏸2023-04-16 ocrweb v0.1.1 update: (推荐) 加入QQ频道 Q: 边缘总有一行 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/index.html b/docs/index.html index 39ad0e82..bcc11e4e 100644 --- a/docs/index.html +++ b/docs/index.html @@ -1714,8 +1714,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/inference_engine/index.html b/docs/inference_engine/index.html index e49ed21a..b3b0153b 100644 --- a/docs/inference_engine/index.html +++ b/docs/inference_engine/index.html @@ -1518,8 +1518,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/inference_engine/onnxruntime/index.html b/docs/inference_engine/onnxruntime/index.html index ef099b69..bfa205ff 100644 --- a/docs/inference_engine/onnxruntime/index.html +++ b/docs/inference_engine/onnxruntime/index.html @@ -1526,8 +1526,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/inference_engine/onnxruntime/infer_optim/index.html b/docs/inference_engine/onnxruntime/infer_optim/index.html index ae1ce00b..3a60895b 100644 --- a/docs/inference_engine/onnxruntime/infer_optim/index.html +++ b/docs/inference_engine/onnxruntime/infer_optim/index.html @@ -1958,8 +1958,8 @@

参考资料 相关对比表格 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/inference_engine/openvino/infer-gpu/index.html b/docs/inference_engine/openvino/infer-gpu/index.html index b564502c..87d7f6ad 100644 --- a/docs/inference_engine/openvino/infer-gpu/index.html +++ b/docs/inference_engine/openvino/infer-gpu/index.html @@ -1593,8 +1593,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/inference_engine/openvino/infer/index.html b/docs/inference_engine/openvino/infer/index.html index 3831ac79..95dec2e2 100644 --- a/docs/inference_engine/openvino/infer/index.html +++ b/docs/inference_engine/openvino/infer/index.html @@ -1845,8 +1845,8 @@

OpenVINO与ONNXRuntime id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/install_usage/index.html b/docs/install_usage/index.html index a5ffe6a8..7db88485 100644 --- a/docs/install_usage/index.html +++ b/docs/install_usage/index.html @@ -1552,8 +1552,8 @@

id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/install_usage/rapidocr/cli/index.html b/docs/install_usage/rapidocr/cli/index.html index 9a9fb0f9..2232da6f 100644 --- a/docs/install_usage/rapidocr/cli/index.html +++ b/docs/install_usage/rapidocr/cli/index.html @@ -818,26 +818,26 @@

使用示例 图像预测 + id="acbdfeTab" data-bs-toggle="tab" data-bs-target="#acbdfe" + type="button" role="tab" aria-controls="acbdfe" aria-selected="true">图像预测 只使用检测 + id="efcbdaTab" data-bs-toggle="tab" data-bs-target="#efcbda" + type="button" role="tab" aria-controls="efcbda" aria-selected="true">只使用检测 只使用识别 + id="ceafdbTab" data-bs-toggle="tab" data-bs-target="#ceafdb" + type="button" role="tab" aria-controls="ceafdb" aria-selected="true">只使用识别 可视化查看 + id="adefbcTab" data-bs-toggle="tab" data-bs-target="#adefbc" + type="button" role="tab" aria-controls="adefbc" aria-selected="true">可视化查看 @@ -853,7 +853,7 @@

使用示例 +
@@ -886,7 +886,7 @@

使用示例 +
@@ -919,7 +919,7 @@

使用示例 +
@@ -952,7 +952,7 @@

使用示例 +
@@ -1894,8 +1894,8 @@

使用示例 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/install_usage/rapidocr/install/index.html b/docs/install_usage/rapidocr/install/index.html index 027776e6..0978ea65 100644 --- a/docs/install_usage/rapidocr/install/index.html +++ b/docs/install_usage/rapidocr/install/index.html @@ -1794,8 +1794,8 @@

安装 输入 str + id="dbfeacTab" data-bs-toggle="tab" data-bs-target="#dbfeac" + type="button" role="tab" aria-controls="dbfeac" aria-selected="true">str np.ndarray + id="dbefcaTab" data-bs-toggle="tab" data-bs-target="#dbefca" + type="button" role="tab" aria-controls="dbefca" aria-selected="true">np.ndarray PIL.Image.Image + id="aebcdfTab" data-bs-toggle="tab" data-bs-target="#aebcdf" + type="button" role="tab" aria-controls="aebcdf" aria-selected="true">PIL.Image.Image Bytes + id="badefcTab" data-bs-toggle="tab" data-bs-target="#badefc" + type="button" role="tab" aria-controls="badefc" aria-selected="true">Bytes Path + id="cfebdaTab" data-bs-toggle="tab" data-bs-target="#cfebda" + type="button" role="tab" aria-controls="cfebda" aria-selected="true">Path @@ -906,7 +906,7 @@

输入 +
@@ -946,7 +946,7 @@

输入 +
@@ -986,7 +986,7 @@

输入 +
@@ -1026,7 +1026,7 @@

输入 +
@@ -1068,7 +1068,7 @@

输入 +
@@ -1120,38 +1120,38 @@

输出 只有检测 + id="fcbadeTab" data-bs-toggle="tab" data-bs-target="#fcbade" + type="button" role="tab" aria-controls="fcbade" aria-selected="true">只有检测 只有分类 + id="dbcafeTab" data-bs-toggle="tab" data-bs-target="#dbcafe" + type="button" role="tab" aria-controls="dbcafe" aria-selected="true">只有分类 只有识别 + id="dfbecaTab" data-bs-toggle="tab" data-bs-target="#dfbeca" + type="button" role="tab" aria-controls="dfbeca" aria-selected="true">只有识别 检测 + 识别 + id="ecbadfTab" data-bs-toggle="tab" data-bs-target="#ecbadf" + type="button" role="tab" aria-controls="ecbadf" aria-selected="true">检测 + 识别 分类 + 识别 + id="dacfebTab" data-bs-toggle="tab" data-bs-target="#dacfeb" + type="button" role="tab" aria-controls="dacfeb" aria-selected="true">分类 + 识别 检测 + 分类 + 识别 + id="ebcfdaTab" data-bs-toggle="tab" data-bs-target="#ebcfda" + type="button" role="tab" aria-controls="ebcfda" aria-selected="true">检测 + 分类 + 识别 @@ -1167,7 +1167,7 @@

输出 +
@@ -1231,7 +1231,7 @@

输出 +
@@ -1294,7 +1294,7 @@

输出 +
@@ -1360,7 +1360,7 @@

输出 +
@@ -1427,7 +1427,7 @@

输出 +
@@ -1493,7 +1493,7 @@

输出 +
@@ -1583,14 +1583,14 @@

可视化查看结果 只可视化检测 + id="edbafcTab" data-bs-toggle="tab" data-bs-target="#edbafc" + type="button" role="tab" aria-controls="edbafc" aria-selected="true">只可视化检测 可视化检测和识别 + id="dcaefbTab" data-bs-toggle="tab" data-bs-target="#dcaefb" + type="button" role="tab" aria-controls="dcaefb" aria-selected="true">可视化检测和识别 @@ -1606,7 +1606,7 @@

可视化查看结果 +
@@ -1652,7 +1652,7 @@

可视化查看结果 +
@@ -2609,8 +2609,8 @@

可视化查看结果 Python调用 以文件方式发送POST请求 + id="ecbfadTab" data-bs-toggle="tab" data-bs-target="#ecbfad" + type="button" role="tab" aria-controls="ecbfad" aria-selected="true">以文件方式发送POST请求 以base64方式发送POST请求 + id="cedfbaTab" data-bs-toggle="tab" data-bs-target="#cedfba" + type="button" role="tab" aria-controls="cedfba" aria-selected="true">以base64方式发送POST请求 @@ -866,7 +866,7 @@

Python调用 +
@@ -908,7 +908,7 @@

Python调用 +
@@ -1979,8 +1979,8 @@

API输出 使用 CPU端推理 + id="fedbacTab" data-bs-toggle="tab" data-bs-target="#fedbac" + type="button" role="tab" aria-controls="fedbac" aria-selected="true">CPU端推理 GPU端推理 + id="fbcdaeTab" data-bs-toggle="tab" data-bs-target="#fbcdae" + type="button" role="tab" aria-controls="fbcdae" aria-selected="true">GPU端推理 @@ -816,7 +816,7 @@

使用 +

前提是安装了CPU版的PaddlePaddle

@@ -859,7 +859,7 @@

使用 +

前提是安装了GPU版的PaddlePaddle,注意在实例化RapidOCR类时,需要通过参数显式指定使用GPU。

@@ -1844,8 +1844,8 @@

推理速度比较 使用步骤 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/install_usage/rapidocr_web/nuitka_package/index.html b/docs/install_usage/rapidocr_web/nuitka_package/index.html index 432b53fd..17e8cea0 100644 --- a/docs/install_usage/rapidocr_web/nuitka_package/index.html +++ b/docs/install_usage/rapidocr_web/nuitka_package/index.html @@ -1832,8 +1832,8 @@

补充 运行步骤 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/install_usage/rapidocr_web/rapidocr_web/index.html b/docs/install_usage/rapidocr_web/rapidocr_web/index.html index 6df5d65c..902b1f7d 100644 --- a/docs/install_usage/rapidocr_web/rapidocr_web/index.html +++ b/docs/install_usage/rapidocr_web/rapidocr_web/index.html @@ -1733,8 +1733,8 @@

使用 在线Demo 相关产品概览图 2. 使用 终端使用 + id="daefbcTab" data-bs-toggle="tab" data-bs-target="#daefbc" + type="button" role="tab" aria-controls="daefbc" aria-selected="true">终端使用 Python使用 + id="cfabedTab" data-bs-toggle="tab" data-bs-target="#cfabed" + type="button" role="tab" aria-controls="cfabed" aria-selected="true">Python使用 @@ -747,7 +747,7 @@

2. 使用 +
@@ -780,7 +780,7 @@

2. 使用 +
@@ -1768,8 +1768,8 @@

3. 查看效果 id: 34 , href: "\/RapidOCRDocs\/docs\/related_projects\/related_projects\/", title: "垂直项目(偏学术)", - description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", - content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " + description: "以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:", + content: " 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。 欢迎各位小伙伴提供PR。 阅读序列抽取 link数据集:\nReadingBank 手写体识别 linkTODO\n手写体公式识别 linkTODO\n公式识别 linkTODO\n公式检测 link图像中公式检测需求一般出现于文档分析和还原需求中。\n单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。\n这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。\n有关数据集:IBEM 和中文 CnMFD_Dataset\n发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集:\nPubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:\nCDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。 表格结构识别 link 相关论文和帖子: OCR之表格结构识别综述 合合信息:表格识别与内容提炼技术理解及研发趋势 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读 相关工程: 海康官方LGPMA源码 LGPMA Inference PaddleOCR Table 数据集汇总: 英文表格识别数据集: PubTabNet: IBM构建,568k+文档图像数据,包括表格图像和对应的HTML标注。 视频OCR link 相关论文和帖子: 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读 【ACM MM 2019】You only recognize once: Towards fast video text spotting 相关工程: video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件 RapidVideOCR: 提取视频中硬字幕 数据集汇总: BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出,大规模双语开放场景下的视频文本基准数据集,该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。 卡证OCR link 相关论文和帖子: 相关工程: fake_certificate_generator: 假的证件合成器,包括身份证、驾驶证、营业执照。 数据集汇总: 暂无,一般这类数据较为敏感,通常都合成假数据来使用。 印章OCR link 相关论文和帖子: 来也智能文档处理系统中的印章识别实践 【技术新趋势】合合信息:复杂环境下ocr与印章识别技术理解及研发趋势 基于文字分割的印章识别技术 相关工程: JS生成印章 Python绘制透明背景印章 在线印章合成大全网站 TrOCR-Seal-Recognition 数据集汇总: DocDiff " } ); index.add( diff --git a/docs/related_projects/index.xml b/docs/related_projects/index.xml index 1a8e513d..eddcc59d 100644 --- a/docs/related_projects/index.xml +++ b/docs/related_projects/index.xml @@ -30,7 +30,7 @@ ReadingBank 手写体识别 linkTODO 单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。 这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。 有关数据集:IBEM 和中文 CnMFD_Dataset -发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集: +发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集: PubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集: diff --git a/docs/related_projects/related_projects/index.html b/docs/related_projects/related_projects/index.html index 9d243191..3772388c 100644 --- a/docs/related_projects/related_projects/index.html +++ b/docs/related_projects/related_projects/index.html @@ -41,12 +41,12 @@ 单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。 这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型。 有关数据集:IBEM 和中文 CnMFD_Dataset -发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集: +发票识别 link CSIG 2022 Competition on Invoice Recognition and Analysis 图像文字擦除 link CTRNet:图像文字擦除 | Demo 文档增强 link DocDiff(Github): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。 文档图像矫正 link PaperEdge:文档图像矫正 | Demo DocTr++ | Demo | Code DocRes: 统一文档图像恢复任务的广义模型 版面分析 link 相关论文和帖子: 版面分析方法汇总 相关工程: PaddleOCR Layout 海康DAVAR VSR 数据集汇总: 英文版面分析数据集: PubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。 DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。 D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis 中文版面分析数据集:" /> - + @@ -765,6 +765,7 @@

文档增强 文档图像矫正

版面分析

@@ -1788,8 +1789,8 @@

印章OCR Buy me a Coffee diff --git a/sitemap.xml b/sitemap.xml index 959a601d..d91020cc 100644 --- a/sitemap.xml +++ b/sitemap.xml @@ -105,7 +105,7 @@ 2024-04-24T09:27:46+08:00 https://rapidai.github.io/RapidOCRDocs/docs/related_projects/related_projects/ - 2024-04-28T11:13:30+08:00 + 2024-05-14T18:34:39+08:00 https://rapidai.github.io/RapidOCRDocs/docs/faq/ 2024-04-24T09:27:46+08:00 @@ -150,7 +150,7 @@ 2024-05-12T15:24:22+08:00 https://rapidai.github.io/RapidOCRDocs/ - 2024-05-12T15:24:22+08:00 + 2024-05-14T18:34:39+08:00 https://rapidai.github.io/RapidOCRDocs/categories/