「漫画バンク」の記事 - Crieit

ある一つのサイトについての

2022-01-08T17:13:44+09:00

現在

漫画BANK についてのお思い出あるいは、

https://qiita.com/dauuricus/items/6c5fcbfa802e40ebc68b

の記事からの続き

U.S. court orders Google to disclose manga piracy site operator
KYODO NEWS KYODO NEWS - Nov 15, 2021 - 18:21
https://english.kyodonews.net/news/2021/11/328f513cedd6-us-court-orders-google-to-disclose-manga-piracy-site-operator.html

その例のサイトに掲載されている数 62,597 。（2022年 1 月 8 日調べ。1 月 9 日現在では 62,662 。）

これは、サイトの中にあるページの URL を数えた現時点で数えられた数。

マンガのタイトルから出版社情報を割り出して sqlite に tbl_bookdata として記録して、

sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ;

50 件以上のコンテンツを、その例のサイトに公開されている出版社を見てみる。出版社情報の割り出しは、精度は高いが完璧ではない。

sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ;
ハーパーコリンズ・ジャパン|51
アース・スターエンターテイメント,泰文堂|52
小学館,ジェネオンエンタテインメント|54
エイベックス・ピクチャーズ|55
学習研究社|61
東映ビデオ,東映|63
フレックスコミックス,ほるぷ出版|64
マーベラスエンターテイメント,ポニーキャニオン|64
フロンティアワークス|67
エンターブレイン,角川グループパブリッシング|71
朝日新聞出版|78
エンターブレイン|83
ヒーローズ,小学館クリエイティブ|85
ワニブックス|98
アース・スターエンターテイメント|99
マイクロマガジン社|100
コロムビアミュージックエンタテインメント|101
エイベックス・マーケティング|104
ノース・スターズ・ピクチャーズ,徳間書店|107
ハーレクイン|109
エニックス|110
実業之日本社|112
アスキー・メディアワークス,角川グループパブリッシング|115
キングレコード|117
東宝|120
朝日ソノラマ|124
TOブックス|125
富士見書房,角川グループパブリッシング|126
キルタイムコミュニケーション|132
祥伝社|134
ホビージャパン|136
幻冬舎コミックス,幻冬舎|143
潮出版社|176
ポニーキャニオン|178
宙出版|182
一迅社,講談社|197
オーバーラップ|198
バンダイビジュアル|209
バップ|218
アニプレックス|223
新書館|229
リイド社|237
マッグガーデン|248
冬水社|253
メディアファクトリー|258
アルファポリス,星雲社|262
徳間書店|269
一迅社|310
ぶんか社|350
竹書房|392
角川書店|433
新潮社|461
角川書店,角川グループパブリッシング|477
少年画報社|640
芳文社|645
日本文芸社|788
双葉社|1322
スクウェア・エニックス|1605
白泉社|2962
秋田書店|2983
KADOKAWA|3370
小学館|7163
集英社|7785
週刊誌　未分類|10405
講談社|10975

週刊誌を除く、コミックの発行年をわかる範囲で見ると ...

sqlite> select distinct(date),count(date) from tbl_bookdata group by date order by date;

データ入力に表記ゆれがあって修正が必要なのと、他にデータの精度を上げることにしてプログラムを修整しはじめると日付が変わった。

ボードという機能があるようなので、続きはそちらに。

「ある一つのサイトについての」ボード
https://crieit.net/boards/manga-B

修正後にデータをまた収集するのにかなりの時間がかかる。

ある一つのサイトについての

2022-01-07T12:34:32+09:00

思い出

過去 6 ヶ月間、ひたすらひとつの違法マンガサイトを見ていた。

ずっと見ていたのは公開されたマンガコンテンツではなく、サイト運営者が作ってるデータをひたすら見ていたので、11 月の 4 日、15 時くらいにサイトをたたんだのを確認した。¹

おそらくこの翻訳記事 2021年11月04日 14時00分

Manga Publisher Wants to Sue Huge Piracy Network, Needs Google's Help * TorrentFreak
https://torrentfreak.com/manga-publisher-wants-to-sue-huge-piracy-network-needs-googles-help-211101/

注) 'Shueisha’s application and proposed orders/subpoenas can be found here (1,2,3,4 pdf)' の書類が興味深い。

https://gigazine.net/news/20211104-manga-shueisha-googles-piracy-mangabank/

が公開されたことで、サイト運営者が違法性を自認して、サイト閉鎖を決定したのではないかと思われる。

2021.12月中頃、mangabank.org とはまた別のドメインで再開している。
画像ファイルのあるアドレスのドメインを whois したところ、cloudflare の管轄のホストではなさそうな感じ。

過去に書いたこのような記事は、当時、宣伝につながらないように配慮して明記しなかったが、全て漫画 BANK についてのことだった。

以下、2021年11月04日以前

https://qiita.com/dauuricus/items/563cbcc9776f66cb672e

6 月の時点では 5 万ページぼどだと思っていたが 10 月には 6 万ページ以上あることがわかった。

この 6 万ページというのはマンガコンテンツの漫画の総ページ数のことではなくて、URL のことで、そのひとつの URL に 30 点から 300 点ぐらいの画像ファイルの URL が埋め込まれている。
その画像一枚が、漫画のスキャン画像ファイルの一点に相当する。

画像点数にすると、空想すると数えたことないおおきな数になるので、いずれいつか数えようと数えなかったが、その 6 万ページについては著者 / 漫画のタイトル / 公開されていた URL / アップデート日時の情報 / 付与されていたタグのデータのセットを記録した。

スキャン画像のファイルが漫画 BANK の見ているページに読み込まれるようにページのソースの中に URL が埋め込まれていて、観測した限りのその URL は、全てが cloudflare がホスティングしているドメインだった² ( 2021年 7月の調べ )

これが全てではないが、数千のアドレスから集計すると、こちらのドメインに収束した。

0  ssl.appx.buzz

1  ssl.asiax.cloud

2  ssl.stagingy.store

3  ssl.lsw.buzz

4  ssl.advx.cloud

5  ssl.appuru.store

6  ssl.lss.buzz

7  ssl.remon.store

8  ssl.lsq.buzz

9  ssl.lsb.buzz

10  ssl.appsx.cloud

11  ssl.lsh.buzz

12  ssl.raichi.store

13  ssl.lsr.buzz

14  ssl.akaax.com

15  ssl.axax.cloud

16  ssl.lsk.buzz

17  ssl.lsy.buzz

18  ssl.zqap.cloud

19  ssl.skyly.cloud

20  ssl.akax.cloud

21  ssl.zmqx.cloud

22  ssl.lssaq.cloud

23  ssl.lsm.buzz

24  ssl.nexc.store

参照:　🥝ページの中から lazy load の画像 URL を抽出する。

画像の著作権情報³と、公開されている cloudflare のドメインの画像ファイルアドレスのリストがあれば、すんなり停止できるのだろうなと⁴考えていたが、ずいぶんとほったらかしているな、あれ ? ゼンゼンナニモシナイノ ? と不思議に思えた。
たしか 2019 年⁵までサイトブロッキング⁶しかない!⁷ という主張さえあったのだが⁸、その前にどこまでどうしたのかは、主張からはさっぱりわからないので、「どこまでどうできるのか」がずっと気にかかっていた。

サイトブロッキング法制化、中間まとめは先送り
浅川直輝日経 xTECH／日経コンピュータ
2018.09.20
https://xtech.nikkei.com/atcl/nxt/column/18/00001/01044/

朝日新聞デジタル
海賊版サイト対策、まとまらず　検討会議は無期限延期に
上田真由美川本裕司 2018年10月16日 0時10分
https://www.asahi.com/articles/ASLBH5W88LBHUCLV00L.html

過去のしりきれとんぼになっているインターネット上の海賊版対策に関する検討会議　第9回会合　議事録を読んでいると　とりまとまらない報告となった理由が熱くて面白かった。「両論併記をしない」という主張についての理由が議事録には残っている。

Rf.インターネット上の海賊版対策に関する検討会議　第9回会合　議事録

https://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/index.html

Mangabank “Suffers DDoS Attack” & Disappears Following Legal Action
November 9, 2021 by Andy Maxwell

https://torrentfreak.com/mangabank-suffers-ddos-attack-disappears-following-legal-action-211109/

注) 'A declaration filed with the court by Shueisha ( pdf ) contains a copy of Cloudflare's response to the DMCA subpoena filed earlier this year.' のところが興味深い。

翻訳

漫画 BANK のアップロードして公開されていたタイトル名には命名規則があり、文字列抽出して、タイトルから検索して、間違った書籍情報をひっぱってくるものを選んでよくみると、簡単な間違いをしているものがあった。そして、これは間違いようなさそうなスペル間違いだったりなので、なにか、その前の段階 ? のもとで間違っていて、改正すると整合がとれないので、そのままにしているのではないかと思われた。
なにと比べるのか。
つまり、コピーしてきて、世の中では、そのタイトル名が通用していて、それは、オリジナルのタイトルからすると間違っているが、ファイル名としては正しいというような場合が考えられる。

つまり、コピーなのだと思う。自らスキャンして、自らファイル名をつけて、アップロードしてるわけではないという場合、そうなるかなと思う。
そう考えると、そのファイル名で、普通に検索すると、同じ間違ったタイトル名がひっかかるので、そいうことなのだ。

だとするならば、なんらかの理由で漫画をスキャンしてアップロードする人間がいて、それを告知する、そしてそのデータを加工するなどする人間がいるというエコサイクルのなかで、ネット上のアップロードファイルから回収されたものを展示しているということになるので、そのセレクトセンスによって傾向がみられるということである。
かなり古い漫画も選ばれていて、そのタイトルを知っているということは特徴的でもある。

とはいえ、興味は運営者が誰なのか...というところには全く無く、データがどうなってんのかな? どういう風に作ってるのかな? 全部のデータはいくつあるのか知るにはどういうアプローチでやるのかなというところに重点があり、ではどこから来たデータで、どういうモチベーションで出てきたファイルなんだろうかということに疑問をもちはじめた。

なんらかのモチベーションで日本の漫画をスキャニングし、ネットワークにアップロードする行為から始まり、ローカライズ（翻訳）し、漫画の言語を替えて、きれいに文字をのせて公開する一連のことを、スキャンレーションと呼んでいるらしい。

ある一つのサイトについての　現在へつづく

せきららなコード（ちょっと古くなってるけど、今の状況に合わせて少しだけ修正したら使える）

https://kuroca.hatenablog.com/

「漫画バンク」の記事 - Crieit

ある一つのサイトについての

現在

ある一つのサイト についての

思い出

ある一つのサイトについての