URLを元にページのタイトルを取得するPerlサンプルスクリプト

URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。
処理手順は以下の通りです。

1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。

対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。

use LWP::Simple;
use Jcode;

#my $pageurl = "http://www.01club.org/59log/";
my $pageurl = "http://59bbs.org/";
my $content = get($pageurl);
my $title = '';
my $pattern = "<title>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}

# 文字コードをSJISに変換
my ($code, $nmatch) = Jcode::getcode(\$title);
$title = Jcode->new($title, $code)->sjis;
print "$title\n";


サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
[231] Posted by buzei at 2008/03/02 22:35:06
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル

掲示板と検索のホームページ


URLを元にページのタイトルを取得するPerlサンプルスクリプト 関連リンク

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、<title.*>(.+)</title><body...

URLを元にページのタイトルを取得するPerlサンプルスクリプト トラックバック

トラックバックURL :


URLを元にページのタイトルを取得するPerlサンプルスクリプトへのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. [事件]また覚醒剤で逮捕のASKA元被告は盗撮されていた! (5 PV)
  2. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (5 PV)
  3. 自称「紀州のドンファン」和歌山の資産家「野崎幸助」氏が覚せい剤で不審死、警察は殺人容疑で捜査 (5 PV)
  4. ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (4 PV)
  5. [Twitter]ツイッター検索のまとめ (4 PV)
  6. 「アメブロ」芸能人アカウント流出事件でホリプロ元契約社員逮捕 (3 PV)
  7. 掲示板フリーソフト - 無料で利用できる掲示板CGI (3 PV)
  8. [動画]リチャード・コシミズが工作員業界の実態に迫る (3 PV)
  9. 勝間和代女史の未公開株疑惑、切込隊長がお墨付き (3 PV)
  10. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (3 PV)

今月のアクセスランキング(上位10件)

  1. 2NN (2ch News Navigator) (121 PV)
  2. 掲示板フリーソフト - 無料で利用できる掲示板CGI (111 PV)
  3. [Twitter]ツイッター検索のまとめ (109 PV)
  4. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (97 PV)
  5. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (91 PV)
  6. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (90 PV)
  7. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (89 PV)
  8. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (86 PV)
  9. 伝説の男、瓜田純士さんが新宿駅構内で2週間前に割腹自殺を図る (46 PV)
  10. 元TBSのフリーアナウンサー「川田亜子」さん他殺の疑い (38 PV)

アクセス統計

ディレクトリ

関連サイト