#このスクリプトは、語釈や暦日の関連ファイルへのリンクを全て削除し、別名で出力する。
#1.文字コードなどの定義
use strict;
use warnings;
use utf8;
use Encode qw/encode decode/;
#2.読み込みと書出し用のファイルを開く
my $file1 = 'Liya-shakumon.html';
open my $fh1, '<', $file1
or die "Can't open $file1:$!";
my $file2 = 'Liya-shakumon(linknuki).html';
open my $fh2, '>>', $file2
or die "Can't open $file2:$!";
my $logfile = 'log.txt';
open my $lh, '>', $logfile
or die "Can't open $logfile:$!";
#3.変数の定義
my @shakumon;
my $line = "";
#4.ファイルの読み込み
while ($line = <$fh1>) {
#4.1.ユニコード関係の設定
$line =decode('utf8', $line);
$line =~ s/[\?\r\n\f]//g;
$line =~ s/^\x{FEFF}//;
#4.2.ファイル本体(body)の識別
$line =~ s/]+>([^a]+)a/$1/g;
#$line =~ s/]+>([^a]+)a/$1/g;
$line =~ s/<\/>//g;
push(@shakumon,$line);
}
#5.ファイルの出力
foreach $line (@shakumon){
print $fh2 (encode('utf8', "$line\n"));
}
#6.ファイルを閉じる
close $fh1;
close $fh2;
close $lh;