2015年3月11日

SKK-JISYO.stationを更新した話 (2)

前回は本題からちょっと脇道に逸れてしまったので、今回は更新作業そのものについて書きたいと思います。
まあ、あまり大した話ではないですが。

資料探し


まず、手元に情報がないため資料を探すことから始めます。
SKK-JISYO.stationは廃線、廃駅については削除をしない方針で、最後の更新が2005年なので、
  1. 期間は2006年〜2014年の範囲 (一応2005年もチェックしておく)
  2. 駅、路線、鉄道会社で新規もしくは名称が変更されたもの
という条件で探します。良さげな以下の2つを見付けたのでこれらを元ネタとすることにします。

更新用辞書作成


あとはひたすら単純作業です。
  1. Category:開業年別鉄道駅に記載されている駅をWikipediaで検索し、日付の項目をチェック
  2. 更新用の辞書ファイルにエントリを追加
  3. 1〜2を繰り返す
さらに、駅データベースで改称とされている駅についても同様にエントリを追加していきます。
Wikipediaのほうは中国、台湾、韓国の駅も多数含まれていて紛らわしいので逆にしておけば良かったと、このあたりで少し後悔。

同音異字のチェック


次に、更新用の辞書ファイルのなかで同音で異なる字の駅がSKK-JISYO.stationにないかどうかをチェックします。

今回は「なかのしまえき /中之島駅/」と「ぞうしがやえき /雑司が谷駅/」が該当したので、注釈を付けて「なかのしまえき /中之島駅;中之島線/」、「ぞうしがやえき /雑司が谷駅;副都心線/」とします。
さらに「ぞうしがやえき」には元々1つしか候補がなかったので既存の候補に注釈を付加した「ぞうしがやえき /雑司ヶ谷駅;荒川線/」も追加します。
ちなみに、「なかのしまえき」のエントリには南武線「中野島駅」、札幌市営地下鉄南北線「中の島駅」が既に登録されていました。

「〜えき」「〜駅」無しの更新用辞書作成


SKK-JISYO.stationには見出し語の「〜えき」と候補の「〜駅」が無いエントリも登録されているので、更新用の辞書ファイルをベースとして「えき」および「駅」を取り除いたバージョンの更新用辞書を作成します。

マージ


既存のSKK-JISYO.stationと更新用の2つの辞書ファイルを拙作のmeskkdicを使ってマージし、ファイル先頭のコメント行を追加します。
Unix系であれば、skkdic-exprskkdic-sort、またはskkdic-expr2を使うと良いと思います。
念のため、既存の辞書と新しい辞書のdiffをとって問題がないかどうか確認します。

コミット


そして最後に、openlab.jpのCVSにコミットして完了です。



と、ここまで書いて、大阪市営地下鉄今里筋線、東京メトロ副都心線などの路線名が漏れていたことに気が付きました。
あとで追加しておきます。

0 件のコメント:

コメントを投稿