杉浦研究室 Perl / CGI スクリプト集
Perl
-
二つのファイルを比べて、片方にだけある単語を見つける。
-
指定した文字列がファイル内に何回出てくるか数える。
-
指定した文字列がファイル内に何回出てくるか数える。(大文字小文字区別なし)
-
サブディレクトリー内の複数ファイルについて、それぞれの単語頻度一覧表を
作成しファイルに保存する。
-
JBIBの文献データをkakasiでローマ字化したものの一部(項目の先頭等)を
大文字にする
-
二行を一行にまとめる。(英文と日本語文が交互にあるものを、英文の後ろに
日本語文をもってくるようにする)
-
検索文字列を含む行とその前後の行を出力する (grep -1 と同じ)
- SSTコーパスのタグを削除する。
- 擬音語・擬態語を抽出する
- カレントディレクトリー内で、ある単語を含む
ファイルを探す
- ファイル中のe-mailアドレスを抜き出す
- 学習者コーパスの誤用タグを取りさる
- 重複する表現をまとめてリストにする
母語話者だけが使う表現、学習者だけが使う表現、共通に使う表現を分類する
のに使う。
- タブ区切りの住所録ファイルを変換しハガキに印
刷する
- テキストファイル中の文字列を逆順にする
- テキストファイル中のWebページのURLに、リン
クタグをつける
- 単語頻度の計算
- 相互情報量の計算
- CHATフォーマットなどの行頭の話者記号を削除す
る
- Brill's Taggerを使いやすくするためのインター
フェース
- コマンドラインで出力するカラムを指定、
ファイルはタブ区切り
- 対話式にファイル中の特定のカラムだけを出力
- ディレクトリー内のファイル一覧のHTMLファイ
ルをつくる
-
特定の語を含み、かつ、また別の特定の語を含まない行の検索、重複行を除く、
大文字小文字の区別も選択可
(grep [-i] "kensaku" file | grep -v "exclude" | sort | uniq )
- タブ区切りデータをhtmlのテーブルに
変換
- CHATフォーマットデータの単語数と発話
数(文の数)を数える
- タブ区切りデータをTeXの表に変換
- Cloze Test 作成
- 日本語ベタ打ちテキストの一文一行変換
CGI
-
テストの得点換算iBT対応版 (TOEFL iBT, TOEFL PBT, TOEIC)
-
語彙の多様性を調べてみる
-
英語の形態素解析をする
-
単語の数を数える
-
テストの得点換算 (TOEFL CBT, TOEFL PBT, TOEIC)
-
日本語テキストの形態素解析
-
日本語テキストの単語頻度一覧作成
-
MLU
-
MLU and Word Frequency
-
日記 (最新10件表示機能を追加)
-
共起関係のスコア計算 (MI score, t score, G score)
-
Dictation Quiz Creator
(source code)
-
電子シラバスシステム(岩崎良美)
-
単語の頻度一覧
- 文献
レビューの中から、特定のキーワードを含む文献を検索
(
現物はこれ)
- 文
献レビューの最新のものから件数を選んで表示 (
現物はこれ)
- 文献レビュー (
現物はこれ)
- タブ区切りデータベース中の特定のレコー
ドを削除する (そのときに使うhtmlファイル)
- タブ区切りテキストデータベース
-
WebGrep for EDICT(携帯版)
- CHATフォーマットデータの単語数、発話数、MLU
を計算 (source code)
- 日本語文章を一文一行に(source code)
- 日本語文章をJCHATフォーマットに
(source code)
- 日本語文章
を分かち書きしてJCHATフォーマットに停止中
- Table 作成 CGI (source code)
- Cloze Test Creator 2(CGI) 中京大
の白井英俊氏による修正 (cloze2.cgi source code)
- Cloze Test Creator (CGI) (cloze.cgi source code)
- ChaSenを利用した日本語形態素解析CGI停止中
- WWW-Based Dynamic Reference System
- 「WebGrep」
- CHAT Formatter(学習者コーパスデータ入力支援)(鈴木麗璽)
- 英単語リスト(鈴木麗璽)
2012-04-25
2008-05-15
2006-04-24
2005-08-19
sugiura