rubyのmechanizeを使うとwebページの文字コードを強制的にasciiにされる。それを正しい文字コードに変換する方法メモ。
文字コードをasciiからutf8(またはeuc)に変換する
一番簡単な方法はこれ。
s = "mechanizeのパースにより %20%30 みたいになった文字列" # euc s_euc = NKF.nkf('-exm0', s) # shift-jis s_sjis = NKF.nkf('-sxm0', s) # utf8 s_utf8 = NKF.nkf('-wxm0', s)
上記の一行スクリプトだけで、文字コードを正しいものへ変換できます。