URLを元にページのタイトルを取得するPerlサンプルスクリプト

URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。
処理手順は以下の通りです。

1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。

対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。

use LWP::Simple;
use Jcode;

#my $pageurl = "http://www.01club.org/59log/";
my $pageurl = "http://59bbs.org/";
my $content = get($pageurl);
my $title = '';
my $pattern = "<title>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}

# 文字コードをSJISに変換
my ($code, $nmatch) = Jcode::getcode(\$title);
$title = Jcode->new($title, $code)->sjis;
print "$title\n";


サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
[231] Posted by buzei at 2008/03/02 22:35:06
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル

掲示板と検索のホームページ


URLを元にページのタイトルを取得するPerlサンプルスクリプト 関連リンク

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、<title.*>(.+)</title><body...

URLを元にページのタイトルを取得するPerlサンプルスクリプト トラックバック

トラックバックURL :


URLを元にページのタイトルを取得するPerlサンプルスクリプトへのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. PHP、MySQLで動くオープンソース掲示板ソフト (6 PV)
  2. 2chみたいな掲示板「PHP 2chBBS」 (4 PV)
  3. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (3 PV)
  4. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (3 PV)
  5. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (3 PV)
  6. 警視庁がチャゲアスのASKA(宮崎重明)を覚せい剤取締法違反で逮捕、本人は容疑を否認 (3 PV)
  7. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (3 PV)
  8. Google の理念 Google が発見した 10 の事実 (1 PV)
  9. ピーアーク三田は許せない 東京都港区 (1 PV)
  10. 小林興起元衆議院議員がタレントの杉本彩さんにキスを迫る (1 PV)

今月のアクセスランキング(上位10件)

  1. PHP、MySQLで動くオープンソース掲示板ソフト (100 PV)
  2. 岡沢高宏の相棒でヤクザの金村剛弘(金剛弘)が西新宿の路上で襲撃され死亡 (76 PV)
  3. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (68 PV)
  4. 2chまとめサイト(ブログ)検索 (66 PV)
  5. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (66 PV)
  6. 警視庁がチャゲアスのASKA(宮崎重明)を覚せい剤取締法違反で逮捕、本人は容疑を否認 (57 PV)
  7. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (51 PV)
  8. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (48 PV)
  9. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (37 PV)
  10. [B-CAS]平成の龍馬(多田光宏)逮捕 (35 PV)

アクセス統計

ディレクトリ

関連サイト