auの日記

プログラミング初心者の日記。(auはハンドルネームです)

日本語のPDFをコピペすると改行が半角スペースになる問題

auです。

日本語のPDFをコピペすると、改行の部分が半角スペースになっていることが判明しました。

自分で解決するためのアプリか何かを作ろうと思った矢先に、解決できるサイトを見つけたので共有してみようと思います。

black-flag.net

単純に半角スペースを削除するだけだと、英語の場合壊れてしまうのですが、そんなことはありませんでした。

実際にどのように処理をしているのか覗いてみたら以下のような感じでした。

setText = selfVal.replace(/([^\w.]) +([^\w.])/g, '$1$2');

セットされた値に対して、a-z, A-z, 0-9以外が1回以上とa-z, A-z, 0-9以外が含まれている文字全てを、マッチした文字で置き換えることで半角スペースを削除していることがわかりました。

手打ちでやると良くない挙動をするようなので、コピペでやるとすんなり行けそうですね。