目次
検証環境
- はてなブックマーク (2020/10/7取得)
- Internet Archive: Wayback Machine (2020/10/7取得)
事の発端
Yahoo!ブログ(blogs.yahoo.co.jp)は2019/12/15にサービス終了しています
ふと、はてなブックマークで「blogs.yahoo.co.jp」ドメインを検索してみると…
うわあああああ!!!ほとんどのタイトルが「Yahoo!ブログ サービス終了」に化けちゃってるやん!!
何のブックマークなのかさっぱり分らん…これは…ヤバいですね!🍙
「もうサービス終了で使えないURLなんだから、そのブックマーク自体が不要でしょ」という声が聞こえてきそうですが、いやいやいや
サービス終了であっても、Webページをアーカイブ(保管)している
のサイトでURLを入力すると、見れる可能性はあるんです
…とここでアイデアがひらめきました
「タイトルもここで取得すればええやん!!」
かくして、その方法を模索するのであった…
結果
以下のフォーマットで作ったURLにアクセスすると、ちょーどいいタイトルが取得できました
https://web.archive.org/web/2000/[サイトのURL]
例えば「https://www.google.com/」の場合は
https://web.archive.org/web/2000/https://www.google.com/
という感じになります
URLの中にある「/2000」は、2000年以降から取るという意味です
この部分を無くして
https://web.archive.org/web/https://www.google.com/
とすると保管された中で最新の物が見れるのですが、そちらを取得してしまうと「このページは削除されています」や「このページは存在しません」的なページになってしまう事が多く、上手くタイトルが取れませんでした
指定する年はもっと前の年でも良いのですが、はてなブックマークがサービス開始(β)したのが2005/2/10なので、それ以上前のブックマークは存在しないので2000年で十分と判断しました
取得できるタイトルで以下の物は「保管されていない」ので除外します
- 404 Not found
取得できるタイトルで以下の物は「削除後・終了後の物を保管している」ので除外します(以下のタイトルは一例で、取得するサイトにより色々あると思います)
- Yahoo!ブログ - エラー
- Yahoo!ブログ サービス終了
- サービス終了のお知らせ
- サービス終了のお知らせ - NAVER まとめ
あと何故かブックマークのURL自体が、以下の様な「終了のお知らせ」的なURLになっている物がありました、これは探しようが無いので諦めます
https://thanks.yahoo.co.jp/
https://blogs.yahoo.co.jp/close/index.html
https://matome.naver.jp/close
正直、ブックマークが勝手にURL変わっちゃダメだろ💢って思いました
何故このURLに差し変わっている物があるのか謎です
おまけ①
の1~50ページ分に載ってるURL&タイトルで、タイトルが「Yahoo!ブログ サービス終了」に化けてる物を、出来る限りWayback Machine(web.archive.org)で取得して修復したものをCSVファイルにして置いときました
おまけ②
Chrome拡張機能のScraperで、URL&タイトルのリストを取得してみたり
URLからタイトルをゲットしてくれる便利サイトを使ってみたり
ありがたや…ありがたや…
トラックバック URL
https://moondoldo.com/wordpress/wp-trackback.php?p=5641