tag:crieit.net,2005:https://crieit.net/tags/%E6%88%90%E5%88%86%E3%82%92%E5%88%86%E6%9E%90%E4%B8%AD/feed 「成分を分析中」の記事 - Crieit Crieitでタグ「成分を分析中」に投稿された最近の記事 2022-02-02T15:37:34+09:00 https://crieit.net/tags/%E6%88%90%E5%88%86%E3%82%92%E5%88%86%E6%9E%90%E4%B8%AD/feed tag:crieit.net,2005:PublicArticle/17926 2022-01-08T17:13:44+09:00 2022-02-02T15:37:34+09:00 https://crieit.net/posts/4daedd75f0cec1b328d4e661d9337bd3 ある一つのサイトについての <h1 id="現在"><a href="#%E7%8F%BE%E5%9C%A8">現在</a></h1> <p>漫画BANK についての <a href="https://crieit.net/posts/BANK">お思い出</a> あるいは、</p> <p><a target="_blank" rel="nofollow noopener" href="https://qiita.com/dauuricus/items/6c5fcbfa802e40ebc68b">https://qiita.com/dauuricus/items/6c5fcbfa802e40ebc68b</a></p> <p>の記事からの続き</p> <p>U.S. court orders Google to disclose manga piracy site operator<br /> KYODO NEWS KYODO NEWS - Nov 15, 2021 - 18:21<br /> <a target="_blank" rel="nofollow noopener" href="https://english.kyodonews.net/news/2021/11/328f513cedd6-us-court-orders-google-to-disclose-manga-piracy-site-operator.html">https://english.kyodonews.net/news/2021/11/328f513cedd6-us-court-orders-google-to-disclose-manga-piracy-site-operator.html</a></p> <p>その例のサイトに掲載されている数 62,597 。(2022年 1 月 8 日調べ。1 月 9 日現在では 62,662 。)</p> <p>これは、サイトの中にあるページの URL を数えた現時点で数えられた数。</p> <p>マンガのタイトルから出版社情報を割り出して sqlite に tbl_bookdata として記録して、</p> <pre><code>sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ; </code></pre> <p>50 件以上のコンテンツを、その例のサイトに公開されている出版社を見てみる。出版社情報の割り出しは、精度は高いが完璧ではない。</p> <pre><code class="sqlite3">sqlite> select publisher,count(*) from tbl_bookdata group by publisher having count(*)>50 order by count(*) ; ハーパーコリンズ・ジャパン|51 アース・スターエンターテイメント,泰文堂|52 小学館,ジェネオンエンタテインメント|54 エイベックス・ピクチャーズ|55 学習研究社|61 東映ビデオ,東映|63 フレックスコミックス,ほるぷ出版|64 マーベラスエンターテイメント,ポニーキャニオン|64 フロンティアワークス|67 エンターブレイン,角川グループパブリッシング|71 朝日新聞出版|78 エンターブレイン|83 ヒーローズ,小学館クリエイティブ|85 ワニブックス|98 アース・スターエンターテイメント|99 マイクロマガジン社|100 コロムビアミュージックエンタテインメント|101 エイベックス・マーケティング|104 ノース・スターズ・ピクチャーズ,徳間書店|107 ハーレクイン|109 エニックス|110 実業之日本社|112 アスキー・メディアワークス,角川グループパブリッシング|115 キングレコード|117 東宝|120 朝日ソノラマ|124 TOブックス|125 富士見書房,角川グループパブリッシング|126 キルタイムコミュニケーション|132 祥伝社|134 ホビージャパン|136 幻冬舎コミックス,幻冬舎|143 潮出版社|176 ポニーキャニオン|178 宙出版|182 一迅社,講談社|197 オーバーラップ|198 バンダイビジュアル|209 バップ|218 アニプレックス|223 新書館|229 リイド社|237 マッグガーデン|248 冬水社|253 メディアファクトリー|258 アルファポリス,星雲社|262 徳間書店|269 一迅社|310 ぶんか社|350 竹書房|392 角川書店|433 新潮社|461 角川書店,角川グループパブリッシング|477 少年画報社|640 芳文社|645 日本文芸社|788 双葉社|1322 スクウェア・エニックス|1605 白泉社|2962 秋田書店|2983 KADOKAWA|3370 小学館|7163 集英社|7785 週刊誌 未分類|10405 講談社|10975 </code></pre> <p>週刊誌を除く、コミックの発行年をわかる範囲で見ると ...</p> <pre><code class="sqlite">sqlite> select distinct(date),count(date) from tbl_bookdata group by date order by date; </code></pre> <p>データ入力に表記ゆれがあって修正が必要なのと、他にデータの精度を上げることにしてプログラムを修整しはじめると日付が変わった。</p> <p>ボード という機能があるようなので、続きはそちらに。</p> <p>「ある一つのサイトについての」 ボード<br /> <a href="https://crieit.net/boards/manga-B">https://crieit.net/boards/manga-B</a></p> <p>修正後にデータをまた収集するのにかなりの時間がかかる。</p> tomato