[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現

HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、

<title.*>(.+)</title>
<body.*>(.+)</body>

くらいでいいだろうと思っていたら甘かった。

サイトによっては、

<title>
たいとる
</title>

とかになっているページもあるので、

$content =~ s/[\r\n]//g;

とかで改行コードを取り除いてから、
my $title = '';
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
こんな感じでやらないとダメらしい。
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル 正規表現

掲示板と検索のホームページ


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク

URLを元にページのタイトルを取得するPerlサンプルスクリプト
URLから元ページのタイトルを取得するためのPerlサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ...
正規表現(regular expression)とは
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S...

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック

トラックバックURL :


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (8 PV)
  2. 掲示板リンク集 (4 PV)
  3. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (4 PV)
  4. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (3 PV)
  5. [掲示板]59bbs のダウンロード(Perl/CGI)[フリーソフト] (1 PV)
  6. 全米が大興奮、米人気女優ジェニファーローレンスさんやモデルのケイトアプトンさんヌード写真が流出 (1 PV)
  7. PHP、MySQLで動くオープンソース掲示板ソフト (1 PV)
  8. 5ちゃんねる(5ch.net)掲示板の検索について (1 PV)
  9. 行方不明、家出、人探し掲示板 (1 PV)
  10. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (1 PV)

今月のアクセスランキング(上位10件)

  1. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (309 PV)
  2. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (273 PV)
  3. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (251 PV)
  4. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (224 PV)
  5. PHP、MySQLで動くオープンソース掲示板ソフト (130 PV)
  6. 行方不明、家出、人探し掲示板 (125 PV)
  7. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (124 PV)
  8. 5ちゃんねる(5ch.net)掲示板の検索について (110 PV)
  9. 2chみたいな掲示板「PHP 2chBBS」 (81 PV)
  10. 人気モデルのケイトアプトンさんがGuess(ゲス)創業者ポールマルシアーノ氏のセクハラを告発 (68 PV)

アクセス統計

ディレクトリ

関連サイト