[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現

HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、

<title.*>(.+)</title>
<body.*>(.+)</body>

くらいでいいだろうと思っていたら甘かった。

サイトによっては、

<title>
たいとる
</title>

とかになっているページもあるので、

$content =~ s/[\r\n]//g;

とかで改行コードを取り除いてから、
my $title = '';
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
こんな感じでやらないとダメらしい。
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル 正規表現

掲示板と検索のホームページ


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク

URLを元にページのタイトルを取得するPerlサンプルスクリプト
URLから元ページのタイトルを取得するためのPerlサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ...
正規表現(regular expression)とは
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S...

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック

トラックバックURL :


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. PHP、MySQLで動くオープンソース掲示板ソフト (29 PV)
  2. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (13 PV)
  3. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (8 PV)
  4. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (6 PV)
  5. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (5 PV)
  6. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (4 PV)
  7. 5ちゃんねる(5ch.net)掲示板の検索について (4 PV)
  8. 行方不明、家出、人探し掲示板 (3 PV)
  9. 掲示板検索 (2 PV)
  10. 横綱・日馬富士引退、貴ノ岩暴行事件の責任をとって (2 PV)

今月のアクセスランキング(上位10件)

  1. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (368 PV)
  2. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (362 PV)
  3. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (297 PV)
  4. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (275 PV)
  5. PHP、MySQLで動くオープンソース掲示板ソフト (192 PV)
  6. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (181 PV)
  7. 行方不明、家出、人探し掲示板 (147 PV)
  8. 5ちゃんねる(5ch.net)掲示板の検索について (125 PV)
  9. 2chみたいな掲示板「PHP 2chBBS」 (85 PV)
  10. 掲示板リンク集 (76 PV)

アクセス統計

ディレクトリ

関連サイト