tag:crieit.net,2005:https://crieit.net/tags/%E6%88%90%E5%88%86%E3%82%92%E5%88%86%E6%9E%90%E4%B8%AD/feed
「成分を分析中」の記事 - Crieit
Crieitでタグ「成分を分析中」に投稿された最近の記事
2022-02-02T15:37:34+09:00
https://crieit.net/tags/%E6%88%90%E5%88%86%E3%82%92%E5%88%86%E6%9E%90%E4%B8%AD/feed
tag:crieit.net,2005:PublicArticle/17926
2022-01-08T17:13:44+09:00
2022-02-02T15:37:34+09:00
https://crieit.net/posts/4daedd75f0cec1b328d4e661d9337bd3
ある一つのサイトについての
<h1 id="現在"><a href="#%E7%8F%BE%E5%9C%A8">現在</a></h1>
<p>漫画BANK についての <a href="https://crieit.net/posts/BANK">お思い出</a> あるいは、</p>
<p><a target="_blank" rel="nofollow noopener" href="https://qiita.com/dauuricus/items/6c5fcbfa802e40ebc68b">https://qiita.com/dauuricus/items/6c5fcbfa802e40ebc68b</a></p>
<p>の記事からの続き</p>
<p>U.S. court orders Google to disclose manga piracy site operator<br />
KYODO NEWS KYODO NEWS - Nov 15, 2021 - 18:21<br />
<a target="_blank" rel="nofollow noopener" href="https://english.kyodonews.net/news/2021/11/328f513cedd6-us-court-orders-google-to-disclose-manga-piracy-site-operator.html">https://english.kyodonews.net/news/2021/11/328f513cedd6-us-court-orders-google-to-disclose-manga-piracy-site-operator.html</a></p>
<p>その例のサイトに掲載されている数 62,597 。(2022年 1 月 8 日調べ。1 月 9 日現在では 62,662 。)</p>
<p>これは、サイトの中にあるページの URL を数えた現時点で数えられた数。</p>
<p>マンガのタイトルから出版社情報を割り出して sqlite に tbl_bookdata として記録して、</p>
<pre><code>sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ;
</code></pre>
<p>50 件以上のコンテンツを、その例のサイトに公開されている出版社を見てみる。出版社情報の割り出しは、精度は高いが完璧ではない。</p>
<pre><code class="sqlite3">sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ;
ハーパーコリンズ・ジャパン|51
アース・スターエンターテイメント,泰文堂|52
小学館,ジェネオンエンタテインメント|54
エイベックス・ピクチャーズ|55
学習研究社|61
東映ビデオ,東映|63
フレックスコミックス,ほるぷ出版|64
マーベラスエンターテイメント,ポニーキャニオン|64
フロンティアワークス|67
エンターブレイン,角川グループパブリッシング|71
朝日新聞出版|78
エンターブレイン|83
ヒーローズ,小学館クリエイティブ|85
ワニブックス|98
アース・スターエンターテイメント|99
マイクロマガジン社|100
コロムビアミュージックエンタテインメント|101
エイベックス・マーケティング|104
ノース・スターズ・ピクチャーズ,徳間書店|107
ハーレクイン|109
エニックス|110
実業之日本社|112
アスキー・メディアワークス,角川グループパブリッシング|115
キングレコード|117
東宝|120
朝日ソノラマ|124
TOブックス|125
富士見書房,角川グループパブリッシング|126
キルタイムコミュニケーション|132
祥伝社|134
ホビージャパン|136
幻冬舎コミックス,幻冬舎|143
潮出版社|176
ポニーキャニオン|178
宙出版|182
一迅社,講談社|197
オーバーラップ|198
バンダイビジュアル|209
バップ|218
アニプレックス|223
新書館|229
リイド社|237
マッグガーデン|248
冬水社|253
メディアファクトリー|258
アルファポリス,星雲社|262
徳間書店|269
一迅社|310
ぶんか社|350
竹書房|392
角川書店|433
新潮社|461
角川書店,角川グループパブリッシング|477
少年画報社|640
芳文社|645
日本文芸社|788
双葉社|1322
スクウェア・エニックス|1605
白泉社|2962
秋田書店|2983
KADOKAWA|3370
小学館|7163
集英社|7785
週刊誌 未分類|10405
講談社|10975
</code></pre>
<p>週刊誌を除く、コミックの発行年をわかる範囲で見ると ...</p>
<pre><code class="sqlite">sqlite> select distinct(date),count(date) from tbl_bookdata group by date order by date;
</code></pre>
<p>データ入力に表記ゆれがあって修正が必要なのと、他にデータの精度を上げることにしてプログラムを修整しはじめると日付が変わった。</p>
<p>ボード という機能があるようなので、続きはそちらに。</p>
<p>「ある一つのサイトについての」 ボード<br />
<a href="https://crieit.net/boards/manga-B">https://crieit.net/boards/manga-B</a></p>
<p>修正後にデータをまた収集するのにかなりの時間がかかる。</p>
tomato