[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、
<title.*>(.+)</title>
<body.*>(.+)</body>
くらいでいいだろうと思っていたら甘かった。
サイトによっては、
<title>
たいとる
</title>
とかになっているページもあるので、
$content =~ s/[\r\n]//g;
とかで改行コードを取り除いてから、
<title.*>(.+)</title>
<body.*>(.+)</body>
くらいでいいだろうと思っていたら甘かった。
サイトによっては、
<title>
たいとる
</title>
とかになっているページもあるので、
$content =~ s/[\r\n]//g;
とかで改行コードを取り除いてから、
my $title = '';こんな感じでやらないとダメらしい。
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)
キーワード
プログラミング Perl サンプル 正規表現
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク
URLを元にページのタイトルを取得するPerlサンプルスクリプト | |
URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ... |
正規表現(regular expression)とは | |
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S... |
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック
トラックバックURL :
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント
アクセスランキング
今日のアクセスランキング(上位10件)
今月のアクセスランキング(上位10件)
- 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (91 PV)
- 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (47 PV)
- プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (44 PV)
- 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (34 PV)
- 佐野研二郎氏の妻「実際にデザインを担当しているのは数人の部下。佐野は監修しただけ」パクリ疑惑を完全否定 (33 PV)
- 自称「紀州のドンファン」和歌山の資産家「野崎幸助」氏が覚せい剤で不審死、警察は殺人容疑で捜査 (28 PV)
- [B-CAS]平成の龍馬(多田光宏)逮捕 (27 PV)
- ホッシュジエンの国内ニュース解説 (26 PV)
- [Twitter]ツイッター検索のまとめ (26 PV)
- 2chまとめサイト(ブログ)検索 (26 PV)
アクセス統計
ディレクトリ
- 59bbs.org - 掲示板
- Amalink - 画像付きamazon商品リンク作成ツール
- Mailform Std - オープンソースライセンス(GPLv2)のメールフォームCGI(Perl)
- ThreadPlus - オープンソースライセンスの(GPLv2)掲示板CGI(Perl)
- 2ちゃんねる掲示板検索
関連サイト
- 語句ログ - オープンソースブログソフト59Trackerを利用した情報共有ブログ
- 株価と為替レート(FX)の掲示板
- CommentPP - オープンソース掲示板システム(PHP/MySQL)のダウンロード
- BBS10 - CommentPP を利用したインターネット掲示板