コピーペースト時にPDFが文字化けしてしまう

Question

2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000

26

コピーペースト時にPDFが文字化けしてしまう

PDFファイルからテキストをコピーして貼り付けようとしています。

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

ところが、元のテキストを貼り付けるたびに文字化けで大混乱です。テキストは以下のようになっています（これはほんの一部の抜粋です）:

0x1&

私はAdobeとFoxitの両方のPDFリーダーで試してみました。Adobe Readerで「テキストとして保存」をしてみましたが、結果のテキストファイルは同じ文字化けしたテキストになってしまいました。

このテキストを文字化けしないようにする方法はありますか？(手動で入力する以外に…抽出するテキストがたくさんあります)

ソース

ngm http://superuser.stackexchange.com/users/17281

回答 (11)

関連する質問

10

Adobe Readerでサイドバーをデフォルトで開かないようにする 280

19

Windowsで2つのPDFファイルの違いを比較する方法を教えてください 209

12

どのように私はPDFにGithub風味のMarkdownを変換することができます 159

9

WindowsでPDFファイルを結合/マージ？ 137

1

同じ品質を維持するMP4（H.264）にAVI（Xvid）を変換する 48

acatalept http://superuser.stackexchange.com/users/17281 · Answer 1 · 2011-04-08 14:40:29 +0000

これを回避する最も簡単な方法は、PDF読み込みプラグインを内蔵した***最新バージョンのGoogle Chromeでファイルを開くことです。そうすれば、Chromeの検索機能を使ってテキストを見つけることができ、コピーペーストは正常に動作します。

shikiさんの回答に対するpipitasさんのコメントに投票したいのですが、クレドを持っていません :( 暗号化ではなく、**カスタムフォントのエンコードが問題なのかもしれません。Acrobatで、File -> Propertiesをクリックして、Fontsタブをクリックしてエンコーディングを見て、Securityタブをクリックして暗号化されているかどうかを見てみてください。

Nick Olszanski http://superuser.stackexchange.com/users/17281 · Answer 2 · 2012-03-18 14:36:54 +0000

4

2012-03-18 14:36:54 +0000

もう一つ簡単な回避方法があります :)

CutePdfやAdobe 2 Pdfプリンタなどを使って文書を印刷するだけです。要するにpdf形式に印刷する必要があるということです。

多くの場合、それは簡単に問題を取り除くことができます。

ソース

Nick Olszanski http://superuser.stackexchange.com/users/17281

Daniel http://superuser.stackexchange.com/users/17281 · Answer 3 · 2010-05-18 22:18:44 +0000

私が作成したPDFでこの問題を発見し、問題の原因を突き止めたと思います：Mac OS Xのプレビューを使用してPDFのファイルサイズを縮小していました。

私は、画像付きPDFの全体的なファイルサイズを縮小するために、PDF内の画像を圧縮するために、Colorsyncユーティリティを使用していくつかのQuartzフィルタを作成していました。ここに記載されているような。 http://www.macosxhints.com/article.php?story=20031106133852693

元の(圧縮されていない)PDFファイルからテキストを簡単にコピーして貼り付けることができることがわかりましたが、そのPDFを私が作成したファイルサイズ削減フィルタを通して実行した後、結果として圧縮されたPDFははっきりとコピーペーストされません(あなたが投稿した文字列のように出てきます)。

しかし、その同じ元のPDFをAdobe Acrobat ProのDocument > Reduce File Size機能を通して実行すると、結果として圧縮されたPDFはテキストを正常にコピーして貼り付けることができます。

つまり、これはあなたのケースでは全く役に立たないということになります。しかし、これが説明になるかもしれません - ファイルサイズを小さくするために、ファイルが何らかの方法で改ざんされたということです。

これは、PDFからテキストをコピーしたり貼り付けたりする際に同じような問題に直面しているコンテンツ制作者に役立つかもしれません - OS X Quartzフィルタを使ってPDFを縮小する場合は注意してください!

–edit– PDFをプレビューで結合するときにも、この問題が発生していることに気付きました。2つのソースPDFは正常にコピー＆ペーストできますが、一方のファイルからもう一方のファイルにページをドラッグして、結合されたPDFを保存すると、結合されたドキュメント内のテキストがコピー＆ペーストできません。これらは、Mac上のFilemaker Pro 11で同時に生成された2つのドキュメントです - 私は彼らが異なるエンコーディングまたはそのようなものを持っているだろうと想像することはできません。

Gavin Miller http://superuser.stackexchange.com/users/17281 · Answer 4 · 2013-01-03 20:36:58 +0000

3

2013-01-03 20:36:58 +0000

私の場合はうまくいきました。

Google Drive/Documents に文書をアップロードする
Google はそれを（2013年現在）PDFとしてインポートする
PDFビューを開いて File ¶> Open With ¶> Google Docs
文書をエクスポートするのに約1分かかる

結果は完璧ではありませんでしたが、途中で80%を達成し、すべてを書き換える必要がないほどの十分なテキストを提供してくれました！これで、私はすべての文書を書き換える必要がなくなりました。

ソース

Gavin Miller http://superuser.stackexchange.com/users/17281

user210118 http://superuser.stackexchange.com/users/17281 · Answer 5 · 2013-03-24 23:59:49 +0000

解決済み：（Windows 8, Acrobat XI, Office 2010 で動作しました）

オプション 1:

「Microsoft XPS Document Writer」を使って Acrobat から印刷する出力は “your file name.oxps”
“出力は「あなたのファイル名.oxps」
XPS Viewerで”…xps “を開く。*(下記コメントのダウンロードリンクを参照)
最高解像度(600DPI)でPDF(Acrobat PDF, または CutePDF)に印刷する。
Acrobatで開き、OCR（検索可能な画像（正確））オプションを使用。

BINGO!

コメント。

コメント：

最高解像度と検索可能画像（正確）を使用すると、きれいな外観を損なうことなくテキストを保存することができます。解像度が低いと、テキストは読みやすくなりますが、見栄えが悪くなります。
Microsoft XPS (ファイル)をダウンロードしてください。 http://www.microsoft.com/en-us/download/details.aspx?id=11816
OCRとは何か、検索可能な画像（正確なもの）はどこにあるのか、「Microsoft XPS Document Writer」を使って印刷するにはどうすればいいのか、わからない場合は、ご自身でググってみてください。

☆XPSがインストールされていない場合のみダウンロードしてください。

オプション2:

似たようなことをしますが、画像(png, tiff, …)として保存した後、すべてのページを1つの「PDF」ファイルにまとめる必要があります。

Reuti http://superuser.stackexchange.com/users/17281 · Answer 6 · 2011-10-26 18:58:50 +0000

私のユーザーの一人が同じ問題を報告してきました(PDFはWindows用のDistillerで作成したものです)。私はMacで試してみましたが、問題は見つかりませんでした。それは、私がAppleのプレビューアプリケーションを使用しているのに対して、彼はWindowsのマシンでAdobe Readerを使用していることが判明しました。その後、私は私のMacでAdobe Readerを試してみましたが、同じ効果に直面しました。私には次のように見えます。

Adobe Readerが保存されたテキストを検索しています。
Appleのプレビューでは、エンコードベクトルを適用した後にコピーして検索しています。

これは確かなことは言えませんが、私の観察結果を説明してくれるでしょう。また、ここの別の投稿で説明したように、結合/縮小されたファイルを保存する際に、あらゆる種類のエンコーディングを行うことが可能になります。

最初に思ったのは、埋め込まれたフォントサブセットを内部に穴を残して元の文字位置を使うのではなく、連続したエントリとしてエンコードする方がより論理的だということでした。しかし、元のエントリを持つフォントサブセットにエンコードベクトルを使用することで、頻繁に使用される文字は、そのバイトに1に設定されるビット数が少なくなり、より良い方法で圧縮することができることに気づきました(この方法は、テキスト全体のエントロフィーを低下させる可能性があります)。

Emil http://superuser.stackexchange.com/users/17281 · Answer 7 · 2010-06-21 20:51:02 +0000

情報が全く取得できなくなるリスクがあります。PDF文書は、基本的には、1つの文書が別の文書の上に重なっていて、1つは単純なテキスト、もう1つは画像です。文書からコピー＆ペーストするときは、画像を見ながらテキストにマークをつけますが、クリップボードにコピーされるのは、テキスト部分の対応する部分です。

文書の作成方法によって、テキスト部分の品質や利用可能性が大きく異なることがあります。ワープロ文書をAcrobatやWord、PDFプリンタドライバなどを使ってPDF形式で保存した場合、元の文書のテキストからテキストファイルを作成できるので、通常は品質が優れています。一部の特殊文字が歪んでしまうことがありますが、プレーンテキストであれば通常は問題ありません。

スキャンした画像からドキュメントが作成された場合、テキスト部分は通常、画像の OCR 処理によって作成されます。

PDFの作成に使用したプログラムが悪かったり、設定が間違っていたりすると、テキスト部分が完全に文字化けしてしまう可能性があります。

要するに、文書のテキスト部分が本当に悪い場合、それを改善する方法はありません。最善の策は、テキスト部分を完全に削除して、プログラムにOCR処理をやり直すことでしょう。それはAcrobatの中からでも可能かもしれませんが、完全にはわかりません。

Kurt Pfeifle http://superuser.stackexchange.com/users/17281 · Answer 8 · 2010-06-24 14:23:21 +0000

考えられる原因としては、PDFからテキストをコピーする際に、PDFに埋め込まれたフォントがカスタムエンコーディングを使用していて、正しく適用されていなかったことが考えられます。

内容をすべて手作業で入力する手間を省くために、さまざまな方法を適用することができます。

1.ネット上にダウンロードできる'pdftotext.exe'ツールを使ってテキストを抽出してみましたか? (私は ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip に含まれているものをお勧めします)。 2. Acrobat Readerの最新バージョンには、「テキストとして保存…」というオプションがあります。これは「コピー＆ペースト」(文字化けしたテキストを与えた)を使用していませんが、おそらく画面上のテキストを_レンダリングするために使用されているのと同じソフトウェアルーチンを使用していますので、より有用な結果が得られるかもしれません。 3. 2.がうまくいかない場合、Acrobat Professional へのアクセスがあれば：フォント埋め込み Distiller プロファイルのいずれかを使って PDF を再ディスチルしてみてください。 4. Acrobat Professional へのアクセス権があるにもかかわらず「3. 600dpiを使用することを確認してください（巨大なファイルが生成される可能性がありますが）。出来上がった PDF を Acrobat Pro で再度開きます。今すぐAcrobatの ‘OCR'アルゴリズムを適用し、埋め込まれたテキスト（リーダーで画面上にレンダリングするために使用されませんが、文字列を検索して強調表示するために使用されます）になりますファイルに。今、あなたは上記のいずれかの方法を使用して、このPDFからテキストを抽出するために再び試すことができます。

Jhonrie http://superuser.stackexchange.com/users/17281 · Answer 9 · 2013-03-15 21:19:30 +0000

-->

Google Docsのオプションは、私のオフィスではまだサポートされていないので試していません。しかし、「Acrobat 9」から「ScanSoft PDF Create！」にファイルを印刷し（ファイル全体を画像に印刷）、印刷したファイルを「Nuance PDF Converter」で開くと（画像ファイルを検索・編集可能な状態にするかどうかのプロンプトが表示されたので、それを選択）、簡単にコピー＆ペーストできるWord文書を作成することができました。それは唯一の約80〜90％の精度の周りにあるが、完璧ではありません。しかし、ちょっと、あなたはまだと比較して、ちょうど修正することはできませんそれらの部分をオフセットするために、元のPDFファイルを持っています。全体を入力することから時間を節約します。私の2c。

Ankit http://superuser.stackexchange.com/users/17281 · Answer 10 · 2012-10-02 19:05:44 +0000

1

2012-10-02 19:05:44 +0000

Google docsにアップロードして、View > Plain HTMLというオプションを使うと、テキストは80%程度の精度でコピー可能ですが、スペースが少し欠けています。このスレッドでは、same issueに対するaccepted answer**があります。

ソース

Ankit http://superuser.stackexchange.com/users/17281

Jimbo http://superuser.stackexchange.com/users/17281 · Answer 11 · 2011-10-16 21:34:19 +0000

Windows XP用のScansoft PDF Converterの古いバージョンを使って、いくつかの編集可能なテキストPDFを作成し、Macのプレビュープログラムでページを結合しました。別々のページのそれぞれについて、MacのAdobe Readerから正しくテキストを検索、コピー、エクスポートすることができました。プレビューで結合し、1つのファイルとして保存すると、すべてが画面上でよく見えましたが、唯一のいくつかの通路が正しく検索/エクスポート可能であった。その問題でここにたどり着きました。

ここの書き込みは、私にいくつかの良いヒントを与えてくれました（ありがとうございます！）。フォントのファイルプロパティを見てみました。Win XPからのシングルページのファイル(全てが順調なところ)では、エンコーディングはANSIとなっていました。プレビューで結合したファイル(コピーしたテキストが文字化けしている)では、ほとんどのフォントのエンコーディングは “ビルトイン "で、いくつかのフォントは "ローマン "となっていました。

問題の解決策はいつも私の目の前にありました - Scansoftのプログラム自体がファイルを結合することができます。Scansoftのコンバイナを使ってMacでファイルを開くと、すべてのフォントがANSIエンコードされて表示され、すべてのテキストが完璧に書き出され、コピーされました。そもそもなぜPDF Converterでファイルを結合しなかったのか、私にはわかりません。投稿者の皆さん、ありがとうございました。

Linuxシステムでファイルを開いても同じです。

これがWindowsのみの問題を説明していないことは分かっています。