在 C# .NET 中使用开源 Tabula 库从 PDF 中提取表数据

当前位置：点晴教程→知识管理交流 →『技术文档交流』

admin

2024年4月17日 13:59 本文热度 2970

PDF 文档是一种无处不在的文件格式，用于以固定布局表示结构化文档。但是，该格式本身不支持提取语义信息，如表格、图像、文本等。这给以编程方式分析 PDF 文档或将其转换为其他格式（如 Excel）等任务带来了挑战。

在这篇博文中，我们将探讨如何使用 C# 构建将 PDF 文档中的表格数据直接提取为 .NET DataTable 等格式的能力。从 PDF 中提取表格数据使我们能够有效地理解、分析和处理 PDF 表格中包含的结构化信息。

了解 PDF 表格结构

在我们深入研究代码之前，了解 PDF 格式表格的底层结构非常重要。PDF 文档使用一系列绘图命令来表示可视内容，这些命令将文本、线条和形状呈现到虚拟“页面”上。

PDF 中的表格呈现为这些绘图基元的集合，没有固有的逻辑分组或语义含义。它们只是在表格布局中呈现的矩形形状、线条和文本。

为了以编程方式提取表数据，我们需要分析可视化布局并识别指示表结构的常见模式，例如：

由线条形成的矩形“细胞”
重复行/列模式
在单元格内从左到右或从上到下排列的文本
对齐方式和间距表明采用表格结构

大多数 PDF 提取库都提供了分析这些视觉提示的工具，并通过检测绘图命令中的常见表格模式来识别基础表。

使用 Tabula 提取表

在这篇博文中，我们将使用开源 Tabula 库从 C# 中的 PDF 中提取表格数据。Tabula 是一个流行的 Java 库，适用于基本的表提取任务。

要从 C# 使用它，我们可以添加对它所依赖的 Tabula 和 Apache PDFBox 的引用。PDFBox 提供低级 PDF 解析和渲染功能。

// Add NuGet references
PM> Install-Package Tabula
PM> Install-Package PDFBox

通过引用的库，我们现在可以编写代码从示例 PDF 文件中提取表数据：

// Load PDF document
PDFDocument pdf = new PDFDocument("sample.pdf");
// Extract all tables
IList<Table> tables = TableExtractor.Extract(pdf);
// Print extracted table data
foreach (Table table in tables)
{
  Console.WriteLine(table.Extract().ToString());
}

TableExtractor 类处理 PDF 可视化效果的分析并识别表结构。它返回提取的表，其中包含组织成行和列的单元格文本值。

我们可以遍历提取的表格并打印或进一步处理表格数据。这提供了一种在 .NET 中以编程方式解析 PDF 中的表的简单方法。

处理复杂的 PDF 表格

虽然在许多情况下很简单，但 Tabula 可能会遇到更复杂的 PDF 表格布局，其中包含合并单元格、跨行/列、嵌套标题等。为了处理这些问题，我们需要一个更强大的 PDF 提取库。

一种选择是使用 PDFClown，这是一个用于高级 PDF 解析和呈现的开源 .NET 库。它提供了非常低级的访问来解析整个 PDF 内容结构并构造 DOM 表示。

我们可以在 PDFClown 之上编写自定义逻辑来识别复杂的表格模式，并从可视化内容绘制命令中重建表格结构。

下面是一个示例方法：

// Parse PDF and get page content   
PdfDocument pdf = PdfReader.Open("sample.pdf");  
PdfPage page = pdf.Pages[0];  
// Iterate content objects  
foreach(var obj in page.Content.Elements)  
{  
   if(obj is PdfText)  
   {  
      // Analyze text object positions  
      // Detect table cell texts  
   }  
   if(obj is PdfLine)    
   {  
      // Analyze line positions   
      // Detect cell borders  
   }  
   // Reconstruct table structure  
   // Handle complex patterns  
}  
// Return extracted complex table  
Table table = BuildTable();

我们遍历每个内容元素，分析位置和大小邻居等属性，以了解视觉布局。然后，复杂表逻辑根据可视化渲染中检测到的模式重建底层数据结构。

这允许通过分析原始 PDF 内容基元来处理任何类型的复杂表格结构。

最后的话

在这篇博客文章中，我们介绍了 .NET 开发人员如何使用 C# 以编程方式从 PDF 文档中提取表格数据。我们研究了 PDF 格式表格的底层结构以及用于直观识别表格的一些常见模式。

我们演示了一种使用 Tabula 库的简单提取方法，以及使用 PDFClown 的低级 PDF 解析功能的更高级技术。能够从 PDF 中理解和提取表格等结构化数据，为进一步处理和分析 PDF 文档提供了许多可能性。

所示技术对于 ASP.NET 开发人员在其 .NET 应用程序中处理 PDF 文件非常有用。通过利用 Tabula 和 PDFClown 等 C# 库，开发人员可以更轻松地从 PDF 中提取表格和其他结构化数据，以便进行额外处理并集成到他们的应用程序中。

该文章在 2024/4/17 17:21:51 编辑过

关键字查询

net

开源

数据

正在查询...

点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。

点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理，结合码头的业务特点，围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体，是物流码头及其他港口类企业的高效ERP管理信息系统。

点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。

点晴免费OA是一款软件和通用服务都免费，不限功能、不限时间、不限用户的免费OA协同办公管理系统。