[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現

HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、

<title.*>(.+)</title>
<body.*>(.+)</body>

くらいでいいだろうと思っていたら甘かった。

サイトによっては、

<title>
たいとる
</title>

とかになっているページもあるので、

$content =~ s/[\r\n]//g;

とかで改行コードを取り除いてから、
my $title = '';
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
こんな感じでやらないとダメらしい。
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル 正規表現

掲示板と検索のホームページ


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク

URLを元にページのタイトルを取得するPerlサンプルスクリプト
URLから元ページのタイトルを取得するためのPerlサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ...
正規表現(regular expression)とは
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S...

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック

トラックバックURL :


[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. 伝説の男、瓜田純士さんが新宿駅構内で2週間前に割腹自殺を図る (8 PV)
  2. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (3 PV)
  3. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (1 PV)
  4. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (1 PV)
  5. 掲示板フリーソフト - 無料で利用できる掲示板CGI (1 PV)
  6. 岡沢高宏の相棒でヤクザの金村剛弘(金剛弘)が西新宿の路上で襲撃され死亡 (1 PV)
  7. 元TBSのフリーアナウンサー「川田亜子」さん他殺の疑い (1 PV)
  8. GPL(GNU General Public License) (1 PV)
  9. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (1 PV)
  10. 押尾学事件 (1 PV)

今月のアクセスランキング(上位10件)

  1. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (178 PV)
  2. 伝説の男、瓜田純士さんが新宿駅構内で2週間前に割腹自殺を図る (125 PV)
  3. 掲示板フリーソフト - 無料で利用できる掲示板CGI (111 PV)
  4. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (90 PV)
  5. 2NN (2ch News Navigator) (74 PV)
  6. [Twitter]ツイッター検索のまとめ (65 PV)
  7. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (56 PV)
  8. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (53 PV)
  9. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (49 PV)
  10. [掲示板]2ちゃんねる(2ch.net) (38 PV)

アクセス統計

ディレクトリ

関連サイト