「LibreOffice」の記事 - Crieit

LibreOffice Calcのfodsファイルを読み書きするサンプルをweb API化してみた

2021-12-11T12:03:55+09:00

これは LibreOffice Advent Calendar 2021 の11日目の記事です。

↓これにちょろっと付け足して web API 化してみただけの記事です。

JRubyでLibreOffice Calcのfodsファイルを読み書きするサンプル 2021

できたもの

webapi-2021 ブランチ

https://github.com/sonota88/libreoffice-jruby-sample/tree/webapi-2021

Java 版でやろうかと考えていたのですが、億劫になって JRuby 版でやりました。 JRuby で Sinatra 使った方が速い。

主な部分だけ抜き出すとこんな感じ。考えるのが面倒だったので REST ではなく RPC風で。普通に Sinatra を使ってるだけですね。あんまり書くことがない…… 😓

# app.rb

require "sinatra"
require_relative "libo_calc"

post "/calc" do
  file = params["file"]
  sheet_name = params["sheet"]

  data = {}

  Calc.open(file) do |doc|
    sheet = doc.get_sheet_by_name(sheet_name)
    case params["command"]
    when "cell_get"
      data = cell_get(sheet, params)
    when "cell_set"
      cell_set(sheet, params)
      doc.save()
    when "dump"
      data = dump(sheet)
    else
      raise "unsupported command"
    end
  end

  content_type :json
  JSON.pretty_generate(data)
end

動かし方

イメージをビルド

docker build \
  --build-arg USER=$USER \
  --build-arg GROUP=$(id -gn) \
  -t my:libo-jruby-webapi-2021 .

APIサーバ起動

./docker_run.sh  ./jruby.sh app.rb -o 0.0.0.0

curl で動作確認

ファイル、シート名、コマンド、パラメータを POST で渡します。

curl -XPOST 'http://localhost:4567/calc' \
  -d 'file=./sample.fods' -d 'sheet=Sheet1' \
  -d 'command=cell_set' \
  -d 'col=0' -d 'row=2' -d "val=$(date "+%F_%T")"

#=>
{}

curl -XPOST 'http://localhost:4567/calc' \
  -d 'file=./sample.fods' -d 'sheet=Sheet1' \
  -d 'command=cell_get' \
  -d 'col=0' -d 'row=2'

#=>
{
  "val": "2021-12-11_11:03:20"
}

curl -XPOST 'http://localhost:4567/calc' \
  -d 'file=./sample.fods' -d 'sheet=Sheet1' \
  -d 'command=dump'

#=>
{
  "rows": [
    [
      "(0, 0) 日本語テキスト 2021-01-02 14:34:26 +0900",
      "b1"
    ],
    [
      "a2",
      "(1, 1) 2021-01-02 14:34:26 +0900"
    ],
    [
      "2021-12-11_11:03:20",
      "12.34"
    ],
    [
      "",
      "0"
    ]
  ]
}

読み書きできてます。

Ruby + Faraday

適当な HTTP クライアントライブラリを使って試してみました。

require "faraday"

puts "cell_set =>"
res = Faraday.post(
  "http://localhost:4567/calc",
  {
    file: "./sample.fods", sheet: "Sheet1",
    command: "cell_set",
    col: 0, row: 2, val: Time.now.to_s
  }
)

puts res.body

puts "cell_get =>"
res = Faraday.post(
  "http://localhost:4567/calc",
  {
    file: "./sample.fods", sheet: "Sheet1",
    command: "cell_get",
    col: 0, row: 2
  }
)

puts res.body

puts "dump =>"
res = Faraday.post(
  "http://localhost:4567/calc",
  {
    file: "./sample.fods", sheet: "Sheet1",
    command: "dump"
  }
)

puts res.body

$ bundle exec ruby sample_webapi_client.rb
cell_set =>
{
}
cell_get =>
{
  "val": "2021-12-11 11:09:49 +0900"
}
dump =>
{
  "rows": [
    [
      "(0, 0) 日本語テキスト 2021-01-02 14:34:26 +0900",
      "b1"
    ],
    [
      "a2",
      "(1, 1) 2021-01-02 14:34:26 +0900"
    ],
    [
      "2021-12-11 11:09:49 +0900",
      "12.34"
    ],
    [
      "",
      "0"
    ]
  ]
}

大丈夫ですね。普通ですね。

というわけで、任意の HTTP クライアントからセルの読み書きができるようになりました。この記事は以上です。

LibreOffice Drawのodgファイルから図形の情報を抜き出して使う

2021-03-16T04:50:11+09:00

これは LibreOffice Advent Calendar 2019 の 3日目の記事です！
（※ 2019-12-03に書いた記事のクロス投稿です）

TL;DR

プログラムに入力として与えるデータの編集をどうするか問題
位置情報などはテキストで管理すると直感的に修正できなくて辛い
LibreOffice Draw で編集して odg ファイルから情報を抜き出して使う方法を試してみた

動機

プログラムに入力として与えるデータを用意したい
- ゲームのマップ、オブジェクトの配置など
- アルゴリズムや分析処理、作図ツールの検証に使うデータ
- etc.
ちょっとしたものならプログラム内に直接書いたりテキストデータとして用意したり
「ちょっとした」で済まなくなってくると辛い
- 位置情報
- 構造が複雑
- データが多い
どう辛いか
- 直感的に編集できない
- 一度2Dのグラフィックに変換しないと何がどうなっているのか分からない
  - 配置、要素同士の位置関係、サイズ、オブジェクトの種類、属性、etc.
- 編集→表示させて確認→編集… を繰り返さないといけなくて手数が増えてめんどくさい
こういう場合、WYSIWYG なエディタが欲しくなる
- 出来合いのツールがあればそれを使えばいいが、ない場合は……
- 自作する？
- GUI自作は大変
- コピペ、D＆D、アンドゥ/リドゥ、ズーム表示
- 大変なので諦めてがんばりがち
- 適当な可視化ツールだけ作ってお茶を濁したりしがち
- エディタがあれば作業効率上がるはずなのに……コストが見合わない
- 特にすばやくプロトタイプを作りたい場合、手間をかけずにサッと使いたい

そこで、LibreOffice Draw を汎用エディタとして使えないか？と考えました。

矩形

さっそくやってみましょう。まずは基本ということで、矩形の位置とサイズを odg ファイルから抜き出してみます。

※ odg ファイルと書いてますが、以下では Flat XML な fodg ファイルを使います。odg でもだいたい同じだと思います。

Draw でこんな図形を描きます。

fodgファイルの大まかな構造はこうなっています。


  
  
    
      
        ここに図形の記述が並ぶ
      
      
        ここに図形の記述が並ぶ
      
...

fodg ファイルには複数ページのデータが含まれていますが、今回は 1ページ目だけを使い、2ページ目以降は無視します。

「ここに図形の記述が並ぶ」の部分を見てみましょう。


  box1aa
  
  bb
  



  box2

draw:type="rectangle" の部分を見ることで矩形であることが判別でき、svg:width, svg:height, svg:x, svg:y の部分から位置とサイズが抽出できそうですね。あとテキストも取れそうです。

Ruby と、標準ライブラリ REXML を使ってスクリプトを書きます（Ruby に馴染みのない方のためにここだけ return を省略せずに書いています）。

# coding: utf-8
require "rexml/document"

def xpath_match(el, xpath)
  return REXML::XPath.match(el, xpath)
end

def extract_pages(doc)
  return xpath_match(doc, "//draw:page")
end

def extract_rectangles(page)
  custom_shape_els = xpath_match(page, "draw:custom-shape")

  rect_els = custom_shape_els.select { |el|
    geo_el = xpath_match(el, "draw:enhanced-geometry")[0]
    geo_el["draw:type"] == "rectangle"
  }

  return rect_els
end

# 手抜き実装。改行が失われます。
def extract_text(el)
  texts = []
  el.each_element_with_text { |el|
    texts << el.texts.join(" ")
  }

  return texts.join(" ")
end

def print_rectangle(rect_el)
  print "x="       , rect_el["svg:x"]
  print ", y="     , rect_el["svg:y"]
  print ", width=" , rect_el["svg:width"]
  print ", height=", rect_el["svg:height"]
  print ", text="  , extract_text(rect_el)
  print "\n"
end

# --------------------------------

xml = File.read("sample_rectangle.fodg")
doc = REXML::Document.new(xml)

pages = extract_pages(doc)

rect_els = extract_rectangles(pages[0])

rect_els.each { |rect_el|
  print_rectangle(rect_el)
}

実行結果:

$ ruby extract_rectangles.rb 
x=1.9cm, y=2.9cm, width=9.5cm, height=3.8cm, text=box1 aa bb
x=13.2cm, y=1.7cm, width=2.5cm, height=7.1cm, text=box2

抽出できました！ x, y はページ左端、上端の余白を含めた値になっているようです。

コネクタ

次の例としてコネクタです。

Draw でこんな図を描きます。

ここからこういう情報が抜き出せればOK。

box1 => box3
box2 => box3
box3 => box4

XML を見るとこんな感じです。コネクタが繋がっている場合は矩形要素に id が振られます。


  box3
  



  

...

やってみます。同様の記述が多くなるのでコードは gist に貼りました。

https://gist.github.com/sonota88/4a2221def064e675cabfce1a9266d48f#file-extract_connectors-rb

実行結果:

$ ruby extract_connectors.rb 
(id1) box1 => (id2) box3
(id3) box2 => (id2) box3
(id2) box3 => (id4) box4

いけますね。

応用編

コネクタを同じ箇所に複数つなげるとこのような見た目になります。

これ、矢印が重なると分かりにくいんですよね。この例でいえば、上から3番目のコネクタは両方向の矢印なのかな？とか、矢印が両方ともないコネクタもあるのかな？とか。

このように矢印がはっきり見えないと困るときや、コネクタの接続箇所の位置を調整したいとき、私はよくこういう描き方をします。

ちなみに、まとめて選択すれば一緒に移動できます。

この描き方を使ってさっきのコネクタの図を描き直してみました。今度はこの図から依存関係を抜き出してみましょう。

こういうのが抜き出せればOK。上のコネクタの例と同じですね。

box1 => box3
box2 => box3
box3 => box4

この場合は単に抜き出すだけではなく、加工が必要です。

詳しくはコードを見ていただくとして、考え方としては

矩形の重なりを判定して、どの矩形がどの矩形と繋がっているかを調べる
コネクタがテキストなし矩形に繋がっている場合は、そこから辿ってテキストあり矩形を探す

みたいな感じですね。

https://gist.github.com/sonota88/4a2221def064e675cabfce1a9266d48f#file-extract_connectors_2-rb

$ ruby extract_connectors_2.rb 
(id1) box1 => () box3
(id3) box2 => () box3
() box3 => (id6) box4

いいですね。

もっとそれっぽい例で試してみましょう。達人プログラマー（ピアソン・エデュケーション版 p156）に載っている、ピニャ・コラーダの作り方を記述したアクティビティ図（UML の一種）です。

要素は増えてますが、さっきの例と同じルールで描いているので、さっきのスクリプトで同じように抽出できるはず！

ここから抜き出した結果が下記です。

(id1) 2_ミックスを開ける => () join1
(id3) 1_ブレンダーを開ける => () join1
() join4 => (id6) 12_サーブする
(id3) 1_ブレンダーを開ける => (id7) 6_氷を2カップ入れる
(id8) 11_ピンクの傘を用意する => () join4
(id7) 6_氷を2カップ入れる => () join3
() join1 => (id12) 3_ミックスを入れる
(id12) 3_ミックスを入れる => () join3
(id14) 4_ラムを計る => () join2
(id16) 10_グラスの用意をする => () join4
(id18) 9_ブレンダーを開ける => () join4
(id20) 5_ラムを入れる => () join3
(id3) 1_ブレンダーを開ける => () join2
() join2 => (id20) 5_ラムを入れる
(id24) 8_かき混ぜる => (id18) 9_ブレンダーを開ける
(id25) 7_ブレンダーを閉める => (id24) 8_かき混ぜる
() join3 => (id25) 7_ブレンダーを閉める

アクティビティ図からタスクの依存関係を抜き出すツールができていました。ちょろい！

というわけで、矩形とコネクタの情報を抜き出す例を紹介しました。自分がよく使う図形と用途に合わせたやり方を把握しておくと低コストで汎用エディタが用意できそうですね（これをもっと早く思いついていればなあ〜）。

今回は矩形とコネクタだけを扱いましたが、線や円など他の図形を使ったり、レイヤーやスタイルの情報も利用するとさまざまな活用ができそうです。

その他の図形

LibreOffice Drawのファイルから図形の情報を抜き出す（直線）

（追記 2020-05-09）例: 回路図エディタ

リレー式論理回路シミュレータを自作して1bit CPUまで動かした

そうそう、こういうのがやりたかったんですよ、という具体例。こういうの作りたいなーと思った時にサッと作れるようにしたかったのです。

こういう回路図を Draw で描いて、自作の論理回路シミュレータで読み込んで動かしてみました。見ての通りですが、使っているのは直線、矩形、矩形内のテキストだけです。

（追記 2019-12-07）テキスト抽出の改良

図形内のテキストを文字列の配列として返すメソッドを書いてみました。改行（ text:line-break 要素）を LF に変換して段落を一つの文字列にしています。

["box1\naa", "", "bb"] のような配列を返すので、全部繋げて一つの文字列にしたい場合は extract_paragraphs(el).join("\n") のように使えばよいかと。

def extract_paragraphs(el)
  para_els = xpath_match(el, "text:p")

  para_els.map { |para_el|
    para_el.children
      .map { |child_el|
        case child_el
        when REXML::Text
          child_el.value
        when REXML::Element
          if child_el.name == "line-break"
            "\n"
          else
            raise "unknown element"
          end
        else
          raise "unknown element"
        end
      }
      .join("")
  }
end

JRubyでLibreOffice Calcのfodsファイルを読み書きするサンプル 2019

2021-02-20T11:51:56+09:00

(2021-01-02) 2021年版書きました: JRubyでLibreOffice Calcのfodsファイルを読み書きするサンプル 2021

以前 JavaScript（Rhino/jrunscript）で書いたものを今さらながら Nashorn 向けに書きなおそうとして調べたところ、非推奨になっていました。

2018-06-07 JavaでJavaScriptを実行する「Nashorn」が非推奨に、ECMAScriptの速い進化に追いつけないと。代替案はGraalVM － Publickey

去年のニュースですね。全然気づいてませんでした。GraalVM を使えとあり、それも面白そうではありますが時期尚早な感じもします。ちょっと考えて JRuby で書き直してみることにしました。

（※ 2019-12-02 に書いた記事のクロスポストです）

sonota88/libreoffice-jruby-sample (tag: 20191202)
https://github.com/sonota88/libreoffice-jruby-sample/tree/20191202

Ubuntu で動かす前提のサンプルになっていて、 libreoffice-java-common をインストールしておく必要があります。ライブラリまわりについては一つ前の記事なども参考にしてください。Windows などでもライブラリのパスの修正だけで動くんじゃないかと思います。

なんかデッドロックが発生してプログラムが終了しなかったのでサンプルスクリプトでは明示的に exit しています。jstack を使ってデッドロックしているなーというとこまで調べたあたりで気力が尽きました。また気が向いたら調べるかも……。

今回はじめて JRuby を使ってみましたが、 zip をダウンロードして展開して bin/ にパスを通すだけで使えて、いいですね。分かりやすい。

JRuby から Java のライブラリなどを使う場合、下記は必読でした。まずこれを読みましょう。

CallingJavaFromJRuby · jruby/jruby Wiki

次のようにシートをダンプしてくれる dump.rb もおまけで追加しました。値が入っている最大の行・列の取り方が分からなかったため、いったん100行・100列まで見るようにしました。サンプルということで許してください……。

$ jruby dump.rb foo.fods {シート名}
["a1", "b1"]
["a2", "b2"]

参考: もっとお手軽な機械可読テキストテーブルフォーマット - memo88

JavaでLibreOffice Calcのfodsファイルを読み書きするサンプル 2019

2021-02-02T05:14:55+09:00

5年前に JavaScript で書いたものを大体そのまま Java に書き直しただけです。例外のハンドリングは適当です。今では推奨されない古い書き方が残ってたりするかもしれません。

sonota88/libreoffice-java-sample at 20191202
https://github.com/sonota88/libreoffice-java-sample/tree/20191202

処理の内容的には fods ファイルを開いてセルの内容の最低限の読み書きするというもの。

（※ 2019-12-02 に書いた記事のクロス投稿です）
（※ 2021-01-01 追記: 2021年版書きました → JavaでLibreOffice Calcのfodsファイルを読み書きするサンプル 2021）

以下は今回調べたりしたことのメモです。開発環境は Ubuntu 18.04。

jar の設定を pom.xml に書く

Java から LibreOffice の API を使う場合、 SDK をインストールして、それに付いてくる jar を使う、というのが普通のやり方だったと思います。たしか。

Eclipse の場合は

プロジェクトのプロパティ
Java Build Path＞「Libraries」タブ＞Add External JARs...

から追加します。ここで jar を追加すると、プロジェクトの .classpath ファイルに

このような設定が追加されます。

これだと Eclipse 用の設定になってしまうので、pom.xml に書けないんだっけと思って調べたところ、下記のように system スコープで dependency を書けばよいようでした。
（groupId, artifactId、バージョンは適当です）


  juh-g
  juh-a
  0.0.1
  system
  /usr/lib/libreoffice/program/classes/juh.jar

参考:

ただ、 jar はこれでいけるんですが、共有ライブラリ libjpipe.so は pom.xml で設定できるか分からず、これだけ Eclipse 側で設定しました。
（Eclipse 上でユニットテストなどで実行するときに必要で、プログラム書いてコンパイルするだけなら不要っぽいです）

Ubuntu 18.04 でのパッケージまわりのメモ

libreoffice-java-common ... unoil を含む
libreoffice-common ... ure に依存
ure ... juh, jurt, ridl, jpipe を含む

dpkg や apt-cache コマンドで調べられます:

パッケージに含まれるファイル一覧
dpkg -L {パッケージ名}

パッケージの依存関係
apt-cache depends {パッケージ名}
apt-cache rdepends {パッケージ名}

ところで libreoffice-dev というパッケージもありますがこれって何でしたっけ？

$ apt-cache depends libreoffice-dev           
libreoffice-dev
  Depends: libreoffice-core
  Depends: libreoffice-dev-common
  Depends: ucpp
  Depends: libc6
  Depends: libgcc1
  Depends: libstdc++6
  Depends: libx11-6
  Depends: uno-libs3
  Depends: ure
  Conflicts: libreoffice
  Conflicts: libreoffice-dev-doc
  Breaks: libreoffice-dev-common
  Recommends: g++
  Recommends: libreoffice-java-common
 |Recommends: default-jre
 |Recommends: 
 |Recommends: 
    default-jre
    openjdk-11-jre
    openjdk-8-jre
  Recommends: 
  Suggests: libmythes-dev
  Suggests: libreoffice-dev-doc
  Suggests: libreofficekit-dev
  Replaces: libreoffice-dev-common

なるほど。パッケージの説明は

office productivity suite -- SDK -- architecture-dependent parts

となっています。

Maven のリポジトリにある jar を使う

共有ライブラリ libjpipe.so を除くと、他は jar を使っているだけといえばだけです（たぶん）。それなら、ひょっとして Maven のリポジトリから取ってきて普通の Maven プロジェクトっぽくできたりしないでしょうか？

探したら Maven のセントラルリポジトリにありました。

"org.libreoffice" の検索結果:
https://search.maven.org/search?q=org.libreoffice

これを使えば、 libreoffice-java-common をインストールしなくても必要な jar を Maven の流儀に従って使えばよく、より普通の Maven プロジェクトっぽく扱えて嬉しいような。

pom.xml に普通にこんな感じで書けばよいと。普通ですね。いいですね。

    
      org.libreoffice
      ridl
      6.3.2

ふむふむ、いいじゃない、となったのですが、この方法だと 5年前のこれと同じところで引っかかるのです……。

(solved) com.sun.star.comp.helper.BootstrapException: no office executable found!
https://memo88.hatenablog.com/entry/20140721/1405966864

上記の記事から5年経ちましたが、 Bootstrap クラスが含まれている juh.jar の位置を起点にして実行ファイル soffice を探す部分は変わっていないようで、今回のサンプルでは Maven のリポジトリを利用する方向は見送りました。

Maven でライブラリ取ってくると ~/.m2/ 以下に jar が入ったり、fat jar 作ったらその中に入ったりするので、そこから相対パスで探しても soffice が見つけられないんですよね……。

本体のコード（Bootstrap.java）を借用＆修正して使っても動きましたが、その場合は公開の際に本体のライセンスに従う必要があるでしょう。

Docker コンテナで実行する

先日 LibreOffice 本体だけ Docker で動かすメモ
を書きましたが、ついでに SDK もイメージに入れておけば便利かも？と思いついて、これも試してみました。

以下の3つのパッケージを入れておけば今回のサンプルは動きました。

libreoffice-calc
libreoffice-java-common
openjdk-8-jre

あとはコンテナ内で

java -cp "{ライブラリのパス}:{ビルドしたjarのパス}" \
  sample.Main {残りの引数}

で実行できます。詳しくはリポジトリに入っているスクリプト run.sh と Dockerfile を見てください。

LibreOffice Calcの入ったDockerイメージを作ってヘッドレスで動かす

2021-01-21T04:45:48+09:00

とりあえず自分が使いやすいようにポータブルにしておくとよいかも？くらいの思いつきでやってみましたが、たとえば開発チームのメンバーにちょっとしたツールを渡したいとき（そのためだけに LibreOffice をインストールしてもらわなくて済む）とか、サーバの環境を汚さずに使いたいときに都合が良いかもしれませんね。

（※ 2019-11-03 に書いた記事のクロス投稿です）

下記では例として Calc が入ったイメージを作って fods ファイルを ods ファイルに変換します。Writer とかでも同じようにできるのではないでしょうか。

Dockerfile 書く。関連しそうなパッケージはいくつかあるのですが、とりあえず libreoffice-calc をインストールすれば変換処理は動きました。

FROM ubuntu:18.04

RUN apt-get update \
  && apt-get -y install --no-install-recommends \
    libreoffice-calc \
  && apt-get clean \
  && rm -rf /var/lib/apt/lists/*

イメージをビルド。

docker build -t libo_calc:test .

イメージのサイズは 426MB になりました。

コンテナ内で実行するシェルスクリプト container_fods2ods.sh を用意。汎用化は置いておいてひとまずベタ書きです。

あと、動作する最低限のサンプルということで --headless だけ付けていますが、他にも --nologo などのオプションがあります。詳しくは LibreOfficeでドキュメントコンバータを作ろう - Qiita を参照してください。

temp_fods=/tmp/temp.fods
temp_ods=/tmp/temp.ods

# 標準入力から受け取る
cat > $temp_fods

cd /tmp

soffice \
  --headless \
  --convert-to ods \
  $temp_fods \
  >&2
# => /tmp/temp.ods に出力される

cat $temp_ods

下記のようなメッセージが標準出力に出て都合が悪いので >&2 で標準エラー出力にリダイレクトしています。Java の実行環境がないよと言われてますが、今やろうとしている fods → ods の変換に関しては問題ないようなのでいったん無視。

javaldx: Could not find a Java Runtime Environment!
Please ensure that a JVM and the package libreoffice-java-common
is installed.
If it is already installed then try removing ~/.libreoffice/3/user/config/javasettings_Linux_*.xml
Warning: failed to read path from javaldx
convert /tmp/temp.fods -> /tmp/temp.ods using filter : calc8

ホスト側でコマンドとして使うシェルスクリプト fods2ods.sh を用意。

#!/bin/bash

file_in="$1"; shift
file_out="$1"; shift

cat $file_in \
  | docker run --rm -i \
      -v "$(pwd):/root/work/" \
      libo_calc:test \
      bash /root/work/container_fods2ods.sh \
  > $file_out

実行。

chmod u+x fods2ods.sh
./fods2ods.sh sample.fods sample_output.ods

参考

2019-08-29 LibreOfficeでドキュメントコンバータを作ろう - Qiita
- --convert-to で指定するフィルタの調べ方