「画像認識」の記事 - Crieit

画像認識AI モデル

2021-04-29T11:26:24+09:00

AI OCRは以前から使われている技術ですが、近年、多くの会社が業務の省力化、高速化、生産性工場に貢献できる画像認識AI（人工知能）モデルを研究開発し、OCRなどの技術を活用ししていますが、OCRとは何でしょうか？
「働き方改革」や「ペーパーレス化」、「電子化」が求められる現在のところ、改めてOCRの技術や活用法について確認してみましょう。

OCRとは紙に書かれている文字を認識し、デジタル化する技術
OCRは、Optical Character Reader（またはRecognition）の略で、画像データのテキスト部分を認識し、文字データに変換する光学文字認識機能のことを言います。具体的にいうと、紙文書をスキャナーで読み込み、書かれている文字を認識してデジタル化する技術です。
人間は、紙に書かれている文字を無意識に理解しますが、コンピューターは自動的に読み取ることができません。画像の中に何が映っているのか、コンピューターや機械などが認識する技術です。画像認識の技術は主に物体、顔、文字の認識ができます。文字認識が終わったら、ExcelやWord等で再利用できるように「元の文書と同じ形」での出力できるフォーマットに変換して出力することができます。
OCRが以下のように文字認識をしています：
１．画像取り込み
２．レイアウト解
３．行の切り出し
４．文字の切り出し
５．文字認識
６．フォーマット出力

OCRの利用法の主流は文書の管理とデータ入力
OCRが実際にどんなことに使われているのか、いまひとつ分からないという方もいるかもしれません。ここでは、主な利用用途をご紹介します。

1. データ入力作業の手間を大幅に削減
紙データの入力作業を人が手作業で行っている場合は、OCRの利用すれば、こういった細かい作業は時間がかかるだけでなく、長時間続けているとどうしても入力ミスのリスクが高くなるため、二重のチェックをしなくてはいけないこともあります。OCRであれば、スキャンをすると同時に書類形式で文書が保存できるので、データ入力の手間が半減されます。

2. 保存データの検索性の向上
OCRをかけておけば、テキストデータに変換されることで、キーワードによるデータの検索が可能になるため、書かれている内容のキーワードを検索すれば簡単に必要な書類を見つけたり、文章を引き出したりすることができます。また、OCRで画像データをテキスト化することで、文書ファイルのデータ容量を縮小することができるため、メモリー上の保管スペースを削減できるといったメリットもあります。

3. Word や Excel などの形式に変換することで、紙の書類修正を可能にする
OCR技術の活用法は、契約書などのビジネス文書を書類形式のデータにするというイメージがありますが、ただデータ化するだけではありません。WordやExcel、PowerPointなどのデータに変換できるので、書類の修正も手軽にできるようになります。

AIでさらに進化するOCR

業務効率や働き方改革のツールとして、再度注目されるようになった「OCR」。最近ではAI（人工知能）技術を取り入れた「AI OCR」も登場し、さらに進化を続けています。その名の通り、AIを搭載した「AI OCR」は、仮に最初の文字認識精度が低くても、利用するごとにAIが学習し、精度が上がっていくのが特徴です。さらにクラウドサービス化や業務システムとの連携など、「すぐに業務改革に使えるOCR」としても進化しています。

AI研究開発チャンスを広げます
AIはマーケティング、セキュリティ、旅行、健康など、多様多種なビジネスを再定義する可能性があります。大企業だけでなく、中小企業が参入するチャンスがまだ沢山あります。
生産性を向上させます
繰り返される作業の一部または全部を自動化することにより、作業時間を大幅に短縮します。精度をどんどん改善させることで、日常業務のヒューマンエラーを減少します。

AI 人工知能とはどんな奴なのか？

2019-07-01T14:27:44+09:00

AIが仕事を奪う。AIが人間を超える。数年前から言われています。でも安心して下さい。もう既に超えられてしまった分野もありますから、って古いギャグか。
AIは、Artificial Intelligenceの略で、人工知能の意味です。対するは、私たち人間になります。ある先生は、NI Natural Intelligence と言っています。日本語だと自然知能になるのかな。

    AI 人工知能 vs NI 自然知能

の構図になるんでしょうか。僕は、そうはならないと思うし、そうなって欲しくないですね。ただ、多くの仕事はかのビルゲイツも言っているように、「創造性のない仕事は全てテクノロジーに代行される」てしまう運命なのでしょう。

AIとは、どんな奴なのか、一度顔ぐらい見ておくのも良いでしょう。ところが、AIという奴は存在しないんですよ、いるのは、AIを構成する輩。後で説明しますが、データだとかアルゴリズムだとか機械学習なんかなんですね。これがたいていの場合、コンピュータで動いているわけです。AIというのは様々な技術の総称で、そのものズバリの技術があるわけではありません。誤解を恐れずに言えば、人間に代わって何かを行うため、データとそれを処理するアルゴリズムを含んだプログラムにより何らかをアウトプットする仕組みがAI。この何かとか何らかは、人間に代わってやらせる仕事によって変わってきます。

それでは、AIを構成する輩に順番に会って行きましょう。今回は、データと学習。ここでは便宜的に、コンピュータ上で作った人間に代わって何かをする仕組みをAIと呼んでおきます。

１．データと学習
人間は、オギャアと生まれてから様々なことを学習していきます。学校の勉強、暗記、スポーツなど何かのやり方に慣れたり、人間関係を経験したりします。AIにとって、経験に当たるものがデータなんです。例えば、唐突ですが、そこに犬がいたとします。あなたは、それは犬だ、と認識できます。それはどうしてできるのでしょう？多分、たぶんですが、生まれたての赤ん坊は、犬という認識はできないでしょうね。IQが200以上あるような天才になる赤ん坊でも無理だと思います。なぜなら、犬だと認識する為には、こういった姿かたちをしたものが犬だという記憶が必要だからです。頭の中に記憶している犬と目の前にいる存在を比較して、合致した場合に犬だと判断するわけですね。猫と犬は区別できるわけです。それを人間の脳は瞬時に行います。
赤ん坊の頃は、犬という認識はない。＝＞犬の写真やアニメを見たり、実際の犬に会う。それが犬という名前だと教えられるわけです。犬種が変わると最初は、同じ犬だという認識はできないかもしれませんが、その度に学習していきます。
これをAIにあてはめると、どうなるでしょうか？
データは犬の写真にしましょう。犬の写真を犬という名前で画像認識させます。これをコグニティブといいます。犬の写真を数千枚画像認識させると、犬の特徴を学習しますので、新たな犬の写真を見せるとそれは犬だと判断できるようになります。これを機械学習と言います。Machine Learning (ML) マシンラーニングです。犬の写真と犬という名前をセットにして学習させることを、教師つき機械学習と言います。Supervised MLですね。この他に、教師なし機械学習や深層学習（Deep Learning）というのもありますが、今のところは教師つきの機械学習を覚えておきましょう。
このように、AIを学習させるためには、まず機械学習をさせます。数億というデータを学習させるとかなり賢くなります。こんなふうにして、AIは多くのことを学習していきます。

画像認識AIを使ったLINE BOTの作り方

2018-10-27T08:17:30+09:00

こんにちは、2z（Twitter： @2zn01 ）です。

先日、AIメーカーのAPIを公開しましたので、今回はそのAPIを活用してLINE BOTを作ってみました！

■今注目のAIアプリを簡単に作れる、「AIメーカー」のAPIを公開しました！
https://qiita.com/2zn01/items/c324c7f4d42e0b335bed

自分だけで作ってても面白くないので、APIを使って誰でも作れるようにチュートリアルとしてまとめておきたいと思います。

作ったもの

あくまで一例ですが、以下のLINE BOTを作ってみました。

「スケベ診断」

LINEに画像をアップすると、アップされた画像からどんなスケベかを判定します。

【お知らせ】AIメーカーのAPIを活用した、LINE BOT「スケベ診断」を作りました！アップされた画像からどんなスケベかを判定します。以下のURLから友達追加できます！https://t.co/Oo8JCH1FYXこんな感じで、画像認識AIを使ったLINE BOTを簡単に作れるチュートリアルを書こうと思っています！ pic.twitter.com/oqUcCBRyy6
— 2z＠AIメーカー開発者 (@2zn01) 2018年10月7日

システム概要

LINE Messaging API
Google Apps Script
AIメーカー API

以下の流れで処理が行われます。

LINEに画像がアップされたらwebhookによりGoogle Apps Scriptのプログラムが呼び出される
Messaging APIで画像を取得してAIメーカーのAPIへ送信する
AIメーカーのAPIから診断結果を受け取り、Messaging APIで結果を返す

作り方

１．AIメーカーで画像認識AIを作る

まずはLINE BOTで画像診断させたいネタを考え、AIメーカーで画像認識AIを作ってみてください。
（Twitterのアカウントが必要になります）

■AIメーカー
https://aimaker.io/

作成後、作成したモデルのIDとAPIキーをメモしておいてください。
スケベ診断の場合は以下のURLの「APIを使う！」の欄で確認することができます。
https://aimaker.io/app/image-classification/id/2438

なお、AIを作成せずとも、既に他の人が作成されたAIを使うこともできます。
以下のみんなのAIから探してみてください。
https://aimaker.io/app/search/

２．Google Apps Scriptの設定

LINEとAIメーカーの仲介役プログラムとなるGoogle Apps Scriptの設定を行います。

１．以下のURLからGoogle Driveを開きましょう。
（Googleアカウントがない場合は、作成してください）
https://drive.google.com/

２．左上の「新規」ボタンよりGoogleスプレットシートを開いてください。

３．メニューバーの「ツール」 -> 「スクリプトエディタ」を選択します。

これでGoogle Apps Scriptのエディタが開いたと思います。

一旦、この状態で公開してしまいます。

４．メニューバーの「公開」 -> 「ウェブアプリケーションとして導入」を選択し、
プロジェクト名を入力して、以下の設定で公開します。

次のユーザーとしてアプリケーションを実行：自分
アプリケーションにアクセスできるユーザー：全員（匿名ユーザーを含む）

ここで現在のウェブアプリケーションの URLに表示されたURLをコピーして控えておきます。

３．Googleドキュメントの作成

デバッグログの出力用にGoogleドキュメントを作成します。

１．以下のURLからGoogle Driveを開きましょう。
https://drive.google.com/

２．左上の「新規」ボタンよりGoogleドキュメントを開いてください。

３．作成されたドキュメントに任意の名前をつけて保存します。

GoogleドキュメントのURLの中から「{ドキュメントID}」の部分をメモしておいてください。
https://docs.google.com/document/d/{ドキュメントID}/edit

作成したプロバイダーへアクセス
「新規チャネル作成」をクリック
「Messaging API」を選択
以下の事項を入力し、チャネルを作成する
- アプリアイコン画像
- アプリ名
- アプリ説明
- プラン（※フリーを選択）
- 大業種、小業種
- メールアドレス

作成したチャネルの「チャネル基本設定」で以下の設定をします。

・メッセージ送受信設定

アクセストークン（ロングターム）：発行する（発行されたアクセストークンはメモしておいてください）
Webhook送信：「利用する」へ変更
Webhook URL：Google Apps Scriptの設定でメモしたURLを指定

・LINE@機能の利用

自動応答メッセージ：「利用しない」へ変更
友だち追加時あいさつ：任意のメッセージを設定ください。

以上でLINE側の設定は完了です。

５．Google Apps Scriptのソースコード

ソースコード上部の「\$～～～\$」の箇所はこれまでの説明の中でメモして頂いた値へ書き換えた上でご利用ください。

var AIMAKER_MODEL_ID = $AIメーカーで作成したモデルのIDを指定してください$;
var AIMAKER_API_KEY = "$AIメーカーのAPIキーを指定してください$";
var LINE_ACCESS_TOKEN = "$LINE Developerで発行されたアクセストークンを指定してください$";
var GOOGLE_DOCS_ID = "$GoogleドキュメントのドキュメントIDを指定してください$";
var doc = DocumentApp.openById(GOOGLE_DOCS_ID);

function doPost(e){
  Logger.log("Post request.");
  try {
    var json = JSON.parse(e.postData.contents);
    var token= json.events[0].replyToken;
    var url = 'https://api.line.me/v2/bot/message/'+ json.events[0].message.id +'/content/';
    var image = getImage(url);
    var base64 = Utilities.base64Encode(image.getContent());
    var message = getResult(base64);
    if (message == '') {
      message = "識別できませんでした。";
    }
    sendLineMessage(message, token);
  } catch (e) {
    Logger.log("ERROR: %s", e)
    message = "処理に失敗しました。"
    sendLineMessage(message, token);
    doc.getBody().appendParagraph(Logger.getLog());
  }
  doc.getBody().appendParagraph(Logger.getLog());
}

function getImage(url){
  return UrlFetchApp.fetch(url, {
    'headers': {
      'Content-Type': 'application/json; charset=UTF-8',
      'Authorization': 'Bearer ' + LINE_ACCESS_TOKEN,
    },
    'method': 'GET'
  });
}

function getResult(base64){
  var result = '';
  var url = 'https://aimaker.io/image/classification/api';
  var payload = {
    "id": AIMAKER_MODEL_ID,
    "apikey": AIMAKER_API_KEY,
    "base64": base64
  };
  var response = UrlFetchApp.fetch(url, {   
    method: 'POST', 
    payload: payload, 
    muteHttpExceptions: true
  });
  response = response.getContentText();
  Logger.log(response); 
  var json = JSON.parse(response);
  var labels = sortLabel(json.labels);
  if (labels[0].label && labels[0].score){  
    result = 'この画像の診断結果は、「' + labels[0].label + '： ' + (Math.round(labels[0].score * 10000) / 100) + "％」です！\n\n";
  }
  for (var i in labels) {
    if (labels[i].label && labels[i].score) {
      result = result + labels[i].label + '： ' + (Math.round(labels[i].score * 10000) / 100) + "％\n";
    }
  }
  return result;
}

function sortLabel(labels){
  labels.sort(function(a,b){
    if (a.score > b.score) return -1;
    if (a.score < b.score) return 1;
    return 0;
  });
  return labels;
}

function sendLineMessage(message,token){
  var url = "https://api.line.me/v2/bot/message/reply";
  return UrlFetchApp.fetch(url, {
    'headers': { 
      'Content-Type': 'application/json; charset=UTF-8',
      'Authorization': 'Bearer ' + LINE_ACCESS_TOKEN,
    },
    'method': 'POST',
    'payload': JSON.stringify({ 
      'replyToken': token,
      'messages': [
        { 
          "type": "text",
          "text": message
        } 
      ], 
    })
  });
}

最後に

手順を参考に画像認識AIを使ったLINE BOTをぜひ作ってみてください。

この記事はあくまでもテンプレートと思って頂き、画像認識AIのネタを変えたり、診断結果をカスタマイズしてみたり、などをしてみるともっと面白いものができるかと思います。

AIメーカーに少しでも興味をもって頂けましたら、ぜひフォローやいいね、リツイートで応援お願いします！

Twitter： @2zn01
note： @2zn01

・文字起こし

みんな～！「AIメーカー」で文字起こし機能をリリースしたよー！以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて～！！📺YouTubeから文字起こし🔗画像、音声、動画から文字起こし🎙️録音で文字起こしAIをうまく使って少しでも面倒な作業から解放だぁ～！https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日

・画像認識

今話題のAIをweb上で誰でも気軽に作れる「AIメーカー」を開発しました！①AIに覚えさせたいタグを入力②タグから自動で画像データを収集③AIがデータから学習の３ステップで誰でも簡単にAIを作れます！動画では手相占いのAIに挑戦！みんなもAIを作って遊んでみてね！https://t.co/66DFU7GRZ2 pic.twitter.com/ie1LmioyA1
— 2z＠AIメーカー (@2zn01) 2018年7月19日