#このスクリプトは、語釈や暦日の関連ファイルへのリンクを全て削除し、別名で出力する。 #1.文字コードなどの定義 use strict; use warnings; use utf8; use Encode qw/encode decode/; #2.読み込みと書出し用のファイルを開く my $file1 = 'Liya-shakumon.html'; open my $fh1, '<', $file1 or die "Can't open $file1:$!"; my $file2 = 'Liya-shakumon(linknuki).html'; open my $fh2, '>>', $file2 or die "Can't open $file2:$!"; my $logfile = 'log.txt'; open my $lh, '>', $logfile or die "Can't open $logfile:$!"; #3.変数の定義 my @shakumon; my $line = ""; #4.ファイルの読み込み while ($line = <$fh1>) { #4.1.ユニコード関係の設定 $line =decode('utf8', $line); $line =~ s/[\?\r\n\f]//g; $line =~ s/^\x{FEFF}//; #4.2.ファイル本体(body)の識別 $line =~ s/]+>([^a]+)a/$1/g; #$line =~ s/]+>([^a]+)a/$1/g; $line =~ s/<\/>//g; push(@shakumon,$line); } #5.ファイルの出力 foreach $line (@shakumon){ print $fh2 (encode('utf8', "$line\n")); } #6.ファイルを閉じる close $fh1; close $fh2; close $lh;