URLを元にページのタイトルを取得するPerlサンプルスクリプト

URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。
処理手順は以下の通りです。

1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。

対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。

use LWP::Simple;
use Jcode;

#my $pageurl = "http://www.01club.org/59log/";
my $pageurl = "http://59bbs.org/";
my $content = get($pageurl);
my $title = '';
my $pattern = "<title>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}

# 文字コードをSJISに変換
my ($code, $nmatch) = Jcode::getcode(\$title);
$title = Jcode->new($title, $code)->sjis;
print "$title\n";


サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
[231] Posted by buzei at 2008/03/02 22:35:06
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル

掲示板と検索のホームページ


URLを元にページのタイトルを取得するPerlサンプルスクリプト 関連リンク

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、<title.*>(.+)</title><body...

URLを元にページのタイトルを取得するPerlサンプルスクリプト トラックバック

トラックバックURL :


URLを元にページのタイトルを取得するPerlサンプルスクリプトへのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (14 PV)
  2. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (12 PV)
  3. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (10 PV)
  4. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (6 PV)
  5. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (4 PV)
  6. PHP、MySQLで動くオープンソース掲示板ソフト (4 PV)
  7. 小泉元首相の認証済みTwitterアカウントは「なりすまし」 (2 PV)
  8. 「坑うつ剤」のヤバさは異常 (2 PV)
  9. [尖閣諸島衝突事件]中国の「日本を言いなりにさせる3つの方法」 (2 PV)
  10. 若槻千夏のヌードで集めた1,200万円が宙に浮く (2 PV)

今月のアクセスランキング(上位10件)

  1. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (309 PV)
  2. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (299 PV)
  3. 「暴力と麻薬に汚染された芸能界」を告発する梨元勝の「遺言状」 (241 PV)
  4. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (236 PV)
  5. PHP、MySQLで動くオープンソース掲示板ソフト (103 PV)
  6. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (82 PV)
  7. 2chみたいな掲示板「PHP 2chBBS」 (64 PV)
  8. 5ちゃんねる(5ch.net)の検索(旧2ちゃんねるの検索) (50 PV)
  9. 「坑うつ剤」のヤバさは異常 (44 PV)
  10. 行方不明、家出、人探し掲示板 (43 PV)

アクセス統計

ディレクトリ

関連サイト