c#解析pdf文件转为文本的多种方式_Asp.Net编程

c#解析pdf文件转为文本的多种方式: 发布时间：2020-08-15编辑：脚本学堂

有关c#将pdf文件转为文本的几种方式，在.net中从pdf文件里提取文本的几种方式，借助itextsharp与pdfbox等工具，可以轻松将pdf文件内容转为文本。

c#将pdf文件内容转文本的方法

一、解析PDF文件

在.NET中从PDF文件里提取文本的几种主要方法有:
1、Microsoft 的 IFilter 接口和 Adobe 的 IFilter 实现；
2、iTextSharp；
3、PDFBox。
不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。
Adobe PDF IFilter
为了使用 IFilter 接口来解析 PDF 文件，你需要：
Windows 2000 或者后续版本
Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])
IFilter COM 封装类 [dotlucene.net]

例子：

复制代码代码示例:

using IFilter;

public static string ExtractTextFromPdf(string path) {

  return DefaultParser.Extract(path); 

}

缺点：
使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
需要在目标系统上单独安装 Adobe IFilter。如果需要对其它人发布可索引的解决方案，会很不方便。

二、iTextSharp
iTextSharp（http://sourceforge.net/projects/itextsharp/）是一个 Java 的PDF 操作库iText（http://itextpdf.com/）的.NET输出。它主要着眼于编辑PDF而不是阅读，但它当然也支持从PDF中提取文本（尽管有点大材小用）。

例子：

复制代码代码示例:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
public static string ExtractTextFromPdf(string path)
{
using (PdfReader reader = new PdfReader(path))
{
StringBuilder text = new StringBuilder();

    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }

return text.ToString();
}
}

信用证: 成员号 10364982

缺点：
需要许可证

三、PDFBox实现pdf转文本

PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用（参见LucenePDFDocument）。
幸运的是，PDFBox有一个使用IKVM.NET开发的.NET版本（只需访问PDFBox下载页）。
在.NET中使用PDFBox需要引用：

IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll

并将下列文件复制到bin文件夹下：

commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll

使用PDFBox解析PDF：

复制代码代码示例:

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
private static string ExtractTextFromPdf(string path)
{
PDDocument doc = null;
try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
}
finally {
    if (doc != null) {
      doc.close();
    }
}
}

编译后文件大小，约有18MB：
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)

速度还可以：
解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

缺点：
IKVM.NET依赖 (18 MB)
速度（尤其是IKVM.NET的启动时间）

上一篇：c#实现word文档批量转换为pdf的方法
下一篇：c#如何将网页转换为pdf文件(textsharp转换pdf)

与 c#解析pdf文件转为文本的多种方式有关的文章

本文标题：c#解析pdf文件转为文本的多种方式
本页链接：http://www.jb200.com/article/31815.html

浏览排行

栏目分类

热点文章

c#解析pdf文件转为文本的多种方式