[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現

HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、

<title.*>(.+)</title>
<body.*>(.+)</body>

くらいでいいだろうと思っていたら甘かった。

サイトによっては、

<title>
たいとる
</title>

とかになっているページもあるので、

$content =~ s/[\r\n]//g;

とかで改行コードを取り除いてから、
my $title = '';
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
こんな感じでやらないとダメらしい。
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル 正規表現

掲示板と検索のホームページ


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク

URLを元にページのタイトルを取得するPerlサンプルスクリプト
URLから元ページのタイトルを取得するためのPerlサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ...
正規表現(regular expression)とは
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S...

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック

トラックバックURL :


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (2 PV)
  2. [B-CAS]平成の龍馬(多田光宏)逮捕 (2 PV)
  3. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (1 PV)
  4. ホッシュジエンの国内ニュース解説 (1 PV)
  5. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (1 PV)
  6. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (1 PV)
  7. [書籍]MySQL関連 (1 PV)
  8. 自称「紀州のドンファン」和歌山の資産家「野崎幸助」氏が覚せい剤で不審死、警察は殺人容疑で捜査 (1 PV)
  9. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (1 PV)
  10. PHP、MySQLで動くオープンソース掲示板ソフト (1 PV)

今月のアクセスランキング(上位10件)

  1. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (81 PV)
  2. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (57 PV)
  3. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (30 PV)
  4. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (27 PV)
  5. [Twitter]ツイッター検索のまとめ (21 PV)
  6. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (20 PV)
  7. ホッシュジエンの国内ニュース解説 (19 PV)
  8. 佐野研二郎氏の妻「実際にデザインを担当しているのは数人の部下。佐野は監修しただけ」パクリ疑惑を完全否定 (19 PV)
  9. 2chまとめサイト(ブログ)検索 (18 PV)
  10. [B-CAS]平成の龍馬(多田光宏)逮捕 (16 PV)

アクセス統計

ディレクトリ

関連サイト