書式を失わずにPDFからテキストをコピーするには?
PDFファイルからテキストをコピーしてテキストエディタに入力すると、様々な方法でこじれてしまいます。太字や斜体のような書式設定は失われます。テキストの段落内のソフト改行はハード改行に変換され、2行以上の単語を区切るためのダッシュは、彼らがすべきではない場合でも保存されます。これを行う方法はありますか?
PDFファイルからテキストをコピーしてテキストエディタに入力すると、様々な方法でこじれてしまいます。太字や斜体のような書式設定は失われます。テキストの段落内のソフト改行はハード改行に変換され、2行以上の単語を区切るためのダッシュは、彼らがすべきではない場合でも保存されます。これを行う方法はありますか?
まず、PDFとは何かを理解する必要があります。PDFは基本的に、文字(個々の文字や句読点など)や画像の正確な位置を含むマップです。ほとんどの場合では、PDFでも、1つのwordが終了し、別のword_が開始された場所についての情報を格納していませんが、ソフトブレーク対段落の終わりのためのハードブレークのようなはるかに少ないもの。あなたがした場合でも、あなたのPDFビューアはそれについて知っていないかもしれません。)
とにかく、それはあなたのソフトウェアにいくつかの種類の “人工知能 "を実装するためにアップしています単に個々の文字の位置から単語は何であるか、段落は何であるか、などを抽出する。異なるソフトウェアは、他のものよりも優れたこれを行うために起こっている、とそれはまた、PDFがどのように作成されたかに依存することになるだろう。いずれにしても、あなたは完璧な結果を期待するべきではありません。出力されたPDFを持つことは、ソース文書を持つことと同じではありません。あなたができる場合は、それを取得しようとするとはるかに良い。
あなたの種類の問題への標準的なソリューションは、Adobe Acrobat Professional(高価なものではなく、無料のリーダー)を使用してHTMLにPDFを変換することです。でも、それは完璧な結果を得るために起こっていません。
PDFからテキストを抽出するために使用することができますフリーソフトウェアがありますが、再び、完璧な結果を期待しないでください。参照してください、例えば、 calibre (これは、RTF形式に変換することができます), pdftohtml/pdfreflowまたは AbiWordワードプロセッサ (すべてのインポート/エクスポートプラグインが有効になっている)。また、OpenOffice用のPDFインポートプラグインもあります。
しかし、これらの結果のいずれかで完璧を期待しないでください。あなたはここで穀物に逆らっている。PDFはちょうど編集可能な入力形式として意味されていません。
Sej-da_と呼ばれる非常に良いオンラインツールがあります。高度なPDF操作を扱っています。ダウンロードするソフトウェアはありません。それは新しいオンラインツールであるため、現在はまだベータ版です。それはあなたがPDFからテキストを抽出することができますだけでなく、他のPDF機能の無数の提供と同様に http://www.sejda.com/
sejda機能の簡単なビデオレビューは、それがここで見つけることができます改訂3によって2012年11月14日に行われました: http://revision3.com/tzdaily/sejda-online-pdf
これには Adobe Acrobat Pro を使うことができます。Acrobat 9/10では、表の選択機能がありました。Acrobat Xでは、「名前を付けて保存」→「スプレッドシート」→「Excel」をクリックするだけです。それも1つの長いスプレッドシートにページを連結します。
テキストのために。MS Wordへの書き出しにも同様の機能があります。として保存してください。
私はこれが非常に便利なのを見つけました ( 改行を削除 ):
ここですぐに手動ですべての改行を削除することなく、これを解決するための便利なトリックです。基本的に、すべてのそれは自動的にすべてのテキストが単一の段落に一緒に実行すること、単一のスペースですべての不要な改行を置き換えることです:
1-あなたがPDFから必要なテキストをコピーします。
3- “編集 "をクリックして "置換”
4-あなたが “何を見つける "フィールドにいることを確認してください
5- "詳細 "をクリックして "特別”
6- “段落マーク "を選択してください(リストの上部)
7- "と置き換える "フィールドにクリックしてください
8-一度スペースバーを押してください
9- "すべてを置き換える”
10- “OK "をクリックしてから、 "検索&置換 "ボックスを閉じます。
私は、表にまとめられたpdfのテキストとフォーマットを保存しようとしていました。Acrobat Professionalで、私は「名前を付けて保存」オプションがあることに気づきました。これは私のニーズに合っていました。私はまた、同様にWord文書として保存オプションがあることに気づきました。しかし、私はそれを試していません。
アドビリーダーからMSエクセルにコピーして、好きなようにフォーマット(表)して、エクセルからコピー&ペーストすることができました。この解決策は非常にうまくいきます。高価なアドビプロのコピーを買う必要はありません。