むずでょ

2019-08-10に更新

著名なアニメ監督１５０人の名前を調べようぜ☆（＾～＾）？

その業界の著名な１５０人を調べるハック

150人調べるハック☆（＾～＾）

「　別の畑に首を突っ込むときはまず　その業界の著名な１５０人を調べるハック　をやろうぜ☆？　まずは アニメ監督 から☆」

「　何だぜ　それ☆？」

「　社会学の方から来た経験的数、プログラマーに分かるように言えば　マジック・ナンバー の 150 で、
飯食って顔を思い浮かべたり、どう動いているか想像しながら一緒に仕事できる人の上限数　ぐらいに思っていい☆」

「　直接目の見えるところに指示を出して動かせる人の上限数 はマジック・ナンバー 30 なんで、
全体で 40人いれば 1班を20人にして 2班体制にする、とか　社会学の経験からくる数は　指針として利用される☆」

「　チームのメンバー数が１番多いスポーツって何なの？」

「　ラクビーの１５人☆　２チーム対戦するわけだから、競技場に　３０人　同時に動いているわけだな☆
ちょうど　マジックナンバー３０　だぜ☆」

「　営業マンで　ラクビーやってて体力がある、というだけでなく、この　３０人を見る目　は　仕事の役に立つわけだぜ☆」

「　班長に向いてそうよね」

「　で、説明は　はしょって　メタファーを使って言うと、　その業界の１流と　やり合う　には
自宅にある１５００枚のカードの中から　１５０枚のカードを選んでポケットに入れて出かけて、
戦いが始まる直前に　その場で　３０枚のカードを選び出して　それだけで戦う、みたいなことが　必要になるぜ☆」

「　カードゲームやってんのか……☆」

アニメ監督一覧を収集しようぜ☆（＾～＾）？

「　数の理論の根拠や　その効果の有用性の説明は　ほどほどに　はしょって　さっさと進もう☆
グーグルに アニメ監督一覧 と入れるだけで　ずらーっと顔が並ぶぜ☆
肖像権どうなってんだ……☆」

「　なぜか　グーグルに　アニメの作画監督　に翻訳し直されて　５１人　出てきた☆」

「　９９人足りないな☆」

「　わたしは　水増し　と　やっつけ仕事　を得意とするプログラマーなんで☆」

「　キーワードを　アニメーション監督一覧　にするだけで　メンバーがちょっと変わる☆」

「　べつに　画像にこだわらなければ　名前の一覧ぐらいあるのに……☆」

「　Ｗｉｋｉｐｅｄｉａの記事は人間が編集しているが、グーグル検索は　ＳＥＯ対策の結果が出ている☆
たくさん載っていると　逆に　その中から選ぶことが　むずかしい☆ これは初歩的な悪手だぜ☆
うまいやつは、うまくバラついてピックアップしてくれる道具を選べだぜ☆」

「　キーワードを　アニメ作家一覧　に伸ばして　水増し　しよう☆」

「　統計データとして精度を　うんこ　にしてくれたな☆」

資料を作ろうぜ☆（＾～＾）？

「　じゃあ　ソートするが……、なんだ　この検索画面　名前を引っこ抜けないな……☆　右クリックしてＨＴＭＬソースを表示☆」

「　うわっ、汚いコードだぜ☆」

「　フル・オートマで人名だけ取り出すプログラムを書くのは大変なので……☆」

「　人名が書いてある範囲を　適当に選択して web-site.txt とでもいうファイル名で保存☆
Ajax でも使っているのだろう☆　画面に表示されている部分よりちょっと大きめの範囲分　ぐらいのデータしかないようだぜ☆」

tag-off.py

import re

# ファイルをオープンする
test_data = open("web-site.txt", "r", encoding="utf-8")

# すべての内容を読み込む
contents = test_data.read()

# HTMLタグを消す。
contents = re.sub(r"<[^>]*?>", "", contents)

# 内容を表示する
print(contents)

# ファイルをクローズする
test_data.close()

「　あとは　HTMLタグ　を外すスクリプトを書いて実行☆」

「　人名だけ　取れてるな☆」

「　めんどくさ……☆」

# HTMLタグを半角スペースに変換。
contents = re.sub(r"<[^>]*?>", " ", contents)

# ２つ以上連続する半角スペースを、改行に変換。
contents = re.sub(r" {2,}", "\n", contents)

「　ちょっと改善☆」

「　さすが　やっつけ仕事の達人だぜ☆
裏で　ちょこちょこ　手作業　で直していても　プログラムの達人の　ふり　をしているよな☆」

「　プログラミングに詳しい人なんか　開発チームの外には　いないですからね。
運用で　ごまかせるのよ」

「　データの修正とかは最後でいいぜ☆　Excel にコピペしろだぜ☆」

「　Excel を使っているだけで　仕事をしている感　があるよな☆
Excel で　コンピューター将棋を作って　遊んでた証券屋もいるらしいぜ☆」

「　あとは　手作業で繰り返すだけ☆　ここを自動化できないのは　まあ　自分の技術レベルと相談した結果だな☆」

「　あれっ、ＨＴＭＬソースに　名前が載ってないやつがいるぜ☆？」

「　Ajax だからな☆　動的読込（あとから更新）なのだろう☆」

「　じゃあ　[F12] キーの開発者モードへのショートカットを使って　動的に変更されたＨＴＭＬを　引っこ抜くだけだぜ☆」

「　日本政府から禁止されそうよね。やることがないときは　とりあえず何かを　禁止にしておけば　実績になるのよ」

「　モザイクから元の顔を復元する技術が発達したら　お父んは肖像権侵害な☆」

「　まだ発達してない☆　まだ大丈夫☆」

「　SCzBxCNarKLWU……とかいう分けわからない文字、ひょっとして画像データなの？」

「　おそらく　そうじゃないか☆？　そうでなければ難読化コード☆　わたしには　どうでもいいぜ☆」

「　１ページずつ変換するのではなく、　１つのファイルに　ＨＴＭＬソースを３回貼り付けて　一括変換しろだぜ☆
そして Excel に張り付けると、重複のことを考慮すると　１００人ぐらいは　名前が取れたんじゃないか☆？」

「　１５０人には足りてないが、まあ　いいかだぜ☆」

「　フィルターかけて　重複を除去してから　名前の崩れの修正や、ノイズの除去をする☆
ソートすれば　漢字が何順か分からないが、とにかく　並ぶぜ☆」

「　人類は　データのソート　が苦手なので、こういうところは　コンピューター　に任せるのが　うまくやる方法だぜ☆」

「　時短だな☆」

「　こんな感じで　Excel と照らし合わせながら　カードを確認しているので　１時間ぐらい　待て　だぜ☆」

「　時短じゃないな☆」

「　この作業　要らなくない！？」

「　被りを削って、ＨＴＭＬソースから多めに拾ったのを追加すると　１１６名　あるな☆」

「　アニメ監督 という人物は　ノイズだと思う☆」

「　１５０と、１１５じゃ、　７６％　しか満たしてないわよ？」

「　じゃあ　７６％　で進めようぜ☆
ところで　Ｗｉｋｉｐｅｄｉａ　の記事は　全然　正しくないことで有名だが、だったら　アンサイクロペディア　の公開情報を調べていこうぜ☆？」

「　座学かだぜ☆？」

animator.csv

「　ヘッダー付きの CSV を作成し☆」

ansaikuropedia.py

import pandas as pd

animator_df = pd.read_csv("./animator.csv")
names = animator_df["NAME"].values.tolist()

print("""
|Name|
|----|""")

for name in names:
    # Deletes space.
    keyword = name.replace(" ", "")
    print(
        "|[{0}](https://ansaikuropedia.org/index.php?search={1})|".format(name, keyword))

「　pandas で CSVのデータを抽出するぜ☆
markdown形式のテーブルの形に出力してしまおう☆　あとは　リンクを踏んで確認だぜ☆」

ansaikuropedia.py

import urllib
import pandas as pd

animator_df = pd.read_csv("./animator.csv")
names = animator_df["NAME"].values.tolist()

print("""
|Name|Ansa|Nico|
|----|----|----|""")

for name in names:
    # Deletes space.
    keyword = name.replace(" ", "")
    # Escape.
    keyword = urllib.parse.quote(keyword)
    print(
        "|{0}|[Ansa](https://ansaikuropedia.org/index.php?search={1})|[Nico](https://dic.nicovideo.jp/s/al/t/{1})|".format(name, keyword))

「　アンサイクロペディアだけでは記事があんまりないので　ニコニコ大百科も追加しよう……☆」

Name	Ansa	Nico
あずまきよひこ	Ansa	Nico
アニメ監督	Ansa	Nico
アミノテツロー	Ansa	Nico
イシグロキョウヘイ	Ansa	Nico
うえだしげる	Ansa	Nico
うえだひでひと	Ansa	Nico
うるし原智志	Ansa	Nico
えんどうてつや	Ansa	Nico
カサヰケンイチ	Ansa	Nico
こだま兼嗣	Ansa	Nico
ことぶきつかさ	Ansa	Nico
りんたろう	Ansa	Nico
わたなべひろし	Ansa	Nico
芦田豊雄	Ansa	Nico
安田朗	Ansa	Nico
安彦良和	Ansa	Nico
庵野秀明	Ansa	Nico
磯光雄	Ansa	Nico
羽原信義	Ansa	Nico
影山楙倫	Ansa	Nico
永野護	Ansa	Nico
押井守	Ansa	Nico
黄瀬和哉	Ansa	Nico
岡崎稔	Ansa	Nico
岡村天斎	Ansa	Nico
沖浦啓之	Ansa	Nico
河森正治	Ansa	Nico
貝澤幸男	Ansa	Nico
垣野内成美	Ansa	Nico
角銅博之	Ansa	Nico
岸誠二	Ansa	Nico
岩崎良明	Ansa	Nico
亀垣一	Ansa	Nico
吉田竜夫	Ansa	Nico
宮崎駿	Ansa	Nico
宮本幸裕	Ansa	Nico
京田知己	Ansa	Nico
錦織敦史	Ansa	Nico
金子ひらく	Ansa	Nico
九里一平	Ansa	Nico
古橋一浩	Ansa	Nico
五十嵐卓哉	Ansa	Nico
荒牧伸志	Ansa	Nico
荒木哲郎	Ansa	Nico
荒木伸吾	Ansa	Nico
高橋良輔	Ansa	Nico
高畑勲	Ansa	Nico
今敏	Ansa	Nico
今石洋之	Ansa	Nico
今川泰宏	Ansa	Nico
佐藤卓哉	Ansa	Nico
佐藤元	Ansa	Nico
斎藤博	Ansa	Nico
桜井弘明	Ansa	Nico
笹川ひろし	Ansa	Nico
山村浩二	Ansa	Nico
山田尚子	Ansa	Nico
山内重保	Ansa	Nico
志水淳児	Ansa	Nico
寺田克也	Ansa	Nico
芝田浩樹	Ansa	Nico
手塚治虫	Ansa	Nico
秋山勝仁	Ansa	Nico
出崎哲	Ansa	Nico
出淵裕	Ansa	Nico
勝間田具治	Ansa	Nico
小原正和	Ansa	Nico
小島正幸	Ansa	Nico
小野学	Ansa	Nico
松本零士	Ansa	Nico
伸一?鈴木	Ansa	Nico
新海誠	Ansa	Nico
神戸守	Ansa	Nico
神山健治	Ansa	Nico
水島精二	Ansa	Nico
杉井ギサブロー	Ansa	Nico
石原立也	Ansa	Nico
石黒昇	Ansa	Nico
石田敦子	Ansa	Nico
石浜真史	Ansa	Nico
石平信司	Ansa	Nico
石立太一	Ansa	Nico
赤根和樹	Ansa	Nico
川尻善昭	Ansa	Nico
川本喜八郎	Ansa	Nico
浅香守生	Ansa	Nico
村野守美	Ansa	Nico
太田雅彦	Ansa	Nico
大沼心	Ansa	Nico
大森貴弘	Ansa	Nico
大地丙太郎	Ansa	Nico
大張正己	Ansa	Nico
大塚隆史	Ansa	Nico
大友克洋	Ansa	Nico
長井龍雪	Ansa	Nico
貞本義行	Ansa	Nico
渡辺明夫	Ansa	Nico
湯山邦彦	Ansa	Nico
湯浅政明	Ansa	Nico
湯浅政明	Ansa	Nico
梅津泰臣	Ansa	Nico
白土武	Ansa	Nico
飯田馬之介	Ansa	Nico
美樹本晴彦	Ansa	Nico
富野由悠季	Ansa	Nico
平池芳正	Ansa	Nico
平野俊貴	Ansa	Nico
米たにヨシトモ	Ansa	Nico
片渕須直	Ansa	Nico
北爪宏幸	Ansa	Nico
北野英明	Ansa	Nico
麻宮騎亜	Ansa	Nico
木上益治	Ansa	Nico
木村隆一	Ansa	Nico