[プログラミング]の検索結果
URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。
処理手順は以下の通りです。
1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。
対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。
サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
処理手順は以下の通りです。
1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。
対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。
use LWP::Simple;
use Jcode;
#my $pageurl = "http://www.01club.org/59log/";
my $pageurl = "http://59bbs.org/";
my $content = get($pageurl);
my $title = '';
my $pattern = "<title>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
# 文字コードをSJISに変換
my ($code, $nmatch) = Jcode::getcode(\$title);
$title = Jcode->new($title, $code)->sjis;
print "$title\n";
サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
任意のキーワードリストに含まれるテキスト中のキーワードに、特定のページ(URL)にリンクするPerlのサンプルスクリプトを作ってみました。ブログソフトとか掲示板ソフトを開発する際に役に立つと思います。文字エンコードがUTF-8、EUCではOKでしたが、SJISではうまく動きませんでした。
以下、サンプルスクリプトの一部です。
リンクの処理のところが微妙ですが、適当に修正して使っていただければ幸いです。
はてなダイアリーのキーワードにリンクするためのサンプルもあるようです。動かしてみたわけでないのでハッキリとはいえませんが、ソースを見る限りテキスト内でアンカータグでリンクを行っている場合は、まずいような気もします。
はてなダイアリーキーワード自動リンクAPI - はてなダイアリー日記
以下、サンプルスクリプトの一部です。
my @wordlist = ('はてな', 'ブログ', 'アルファブロガー');
foreach my $word (@wordlist) {
my $encword = $word;
$encword =~ s/(\W)/'%'.unpack('H2', $1)/eg; # uri encode
my $link = "<a href=\"serach.cgi?querystr=$encword\">$word</a>";
$text =~ s/$word/$link/g;
# アンカーテキストのキーワードは元に戻す
my $pattern = "(<a href.+)<a href.+$word</a>(.+/a>)";
$text =~ s/$pattern/$1$word$2/g;
}
print $text;
リンクの処理のところが微妙ですが、適当に修正して使っていただければ幸いです。
はてなダイアリーのキーワードにリンクするためのサンプルもあるようです。動かしてみたわけでないのでハッキリとはいえませんが、ソースを見る限りテキスト内でアンカータグでリンクを行っている場合は、まずいような気もします。
はてなダイアリーキーワード自動リンクAPI - はてなダイアリー日記
なお、上記ファイルは現状で300KBほどありますので、アプリケーション側で一定時間キャッシュして頂くなどの措置をお願いできればと思います。テキスト一つ処理するだけで300KBですか、はてな側も大変かも知れませんが呼び出す方も大変ですね。
ソフトウェア開発に関する多くの名著を持つジェラルド・M・ワインバーグ氏がコンサルタントとして生きていくため必要な16の道具を紹介している。「コンサルタントの秘密」の続編。
「コンサルタントの道具箱」という題名ですが、プログラマはもちろんですが、ソフトウェア開発に携わっている人すべてにとって役立つ本だと思います。特に以下の質問は今の私にとってとてもタイムリーな質問でした。
まあ、答えはすでに出していたのですが、正しい結論だったと確信できました。
コンサルタントの道具箱 著者:ジェラルド・M・ワインバーグ,伊豆原 弓 日経BP社 by Amalink |
「コンサルタントの道具箱」という題名ですが、プログラマはもちろんですが、ソフトウェア開発に携わっている人すべてにとって役立つ本だと思います。特に以下の質問は今の私にとってとてもタイムリーな質問でした。
サティアの三つの普遍的な質問
- 私はどうしてここにいるのだろう?(過去)
- 私はここにいることをどう思っているのだろう?(現在)
- 私は何を実現したいのだろう?(未来)
まあ、答えはすでに出していたのですが、正しい結論だったと確信できました。
日本では2008年2月13日からIEの7自動更新が開始されることが、マイクロソフト日本法人から正式に発表されました。2008年2月13日より自動更新機能による Windows Internet Explorer 7 の配布開始Windows Internet Exp...
出来上がったプログラムがちゃんと動くと嬉しいものですが、ソフトウェア開発の作業自体はとても地味なものです。残念ながらソフトウェアが魔法のように出来上がるなんてことはありません。プログラミングは一つ一つ...
当サイト(掲示板 59bbs.org)で開発・配布している「59bbs」は、Perl/CGI環境で動作するオープンソースの掲示板ソフトですが、競合調査のためPHP、MySQLで動く他のオープンソース掲示板ソフトにどんなものがあるのか...
ブラック会社に勤めてるんだが、もう俺は限界かもしれない職業はプログラマ。この職業、マジでやばすぎる。入社日での出来事。パソコンを渡される→指示された通り、色々なものをインストール→設計書を渡される。「...
Perlで日本語を扱うWebアプリを開発する際に必要になるのが、文字コード(エンコード)を変換するためのモジュールです。Webアプリのターゲットとなる運用環境でPerl 5.8が使えるのであればEncodeモジュールを利用す...
Perl(パール)とは、Larry Wall氏によって開発された、テキストの検索や抽出やレポート作成に適した、C言語に似た表記法のスクリプトプログラミング言語で、テキスト処理に優れていることから、CGIとしてWebアプリケ...
アマゾン(Amazon)商品リンク作成ツール「Amalink」を、キーワードでリンクを作成したい商品の検索ができるように機能アップしました。アマゾン(Amazon)商品リンク作成ツール - Amalinkソースファイルのダウンロード再...
アクセスランキング
今日のアクセスランキング(上位10件)
今月のアクセスランキング(上位10件)
- 2NN (2ch News Navigator) (314 PV)
- プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (93 PV)
- 小林興起元衆議院議員がタレントの杉本彩さんにキスを迫る (61 PV)
- 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (42 PV)
- 読売新聞「石井誠」記者変死事件 (20 PV)
- ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (20 PV)
- 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (17 PV)
- PHP、MySQLで動くオープンソース掲示板ソフト (12 PV)
- 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (11 PV)
- 掲示板フリーソフト - 無料で利用できる掲示板CGI (11 PV)
アクセス統計
ディレクトリ
- 59bbs.org - 掲示板
- Amalink - 画像付きamazon商品リンク作成ツール
- Mailform Std - オープンソースライセンス(GPLv2)のメールフォームCGI(Perl)
- ThreadPlus - オープンソースライセンスの(GPLv2)掲示板CGI(Perl)
- 2ちゃんねる掲示板検索
関連サイト
- 語句ログ - オープンソースブログソフト59Trackerを利用した情報共有ブログ
- 株価と為替レート(FX)の掲示板
- CommentPP - オープンソース掲示板システム(PHP/MySQL)のダウンロード
- BBS10 - CommentPP を利用したインターネット掲示板