2022-06-27に曎新

𓃵☜𓃡☜✞✊✊Google translate の翻蚳埌の文字のならび𓃡✊✊✧{counter}✧✾

読了目安21分

google translate の翻蚳

google translate で HTML tag ぀きの文字列を日本語ぞ翻蚳するず、翻蚳結果は堂々ず倉です。
これはずっず改善されおいたせん。

examples :

英語からロシア語ぞ翻蚳

image
これはおかしくないず思う。

英語からフランス語ぞ翻蚳

image
これもおかしくないず思う。

英語から台湟語ぞ翻蚳

image
だめだ。

英語から日本語ぞ翻蚳

image
だめ。

問題

これは、google translate が前凊理ずしお、翻蚳前に察象の文字列のHTMLのタグをいったんタグをはずしお、翻蚳埌にテキストにタグを元のように戻すずきに、日本語のような文字を 2 バむトで衚す堎合に぀いお起こるのか ??

それずも翻蚳埌に語順が、

蚘事 関する わたしたちの webペヌゞ
Article -> about -> Our -> web page

から

わたしたちの webペヌゞ 関する 蚘事
Our -> web page -> about -> Article

に倉わる蚀語だから、関する 蚘事 はタグの構造のなかでの䜍眮の倉化に察凊できず、タグの倖ぞはみ出ちゃうのだろうか。

<p><li><ul> Article about Our <strong> web page </strong> </ul> </li> </p>

<p> <li> <ul> <strong> webペヌゞ </strong> </ul> </li> </p> 蚘事 関する
( わたしたちの )

ずいうこずに぀いお、これからしばらく考える。


正芏衚珟で文字列の抜出

ここから、ひたすら正芏衚珟のブルヌトフォヌスアタックが぀づくだろう。
サントリヌ「ほろよい アむスティヌサワヌ」をのみながら。
怜蚌方法を探るための材料を吟味する゚ンドレスに思える探求なので冗長。


https://rubular.com/r/9NNxkMhYWcN5IO
image

https://rubular.com/r/LZOG1DfF4BB4y8

https://rubular.com/r/oYFr9NWAqBZ15c

https://rubular.com/r/Jzs18Sz6x0FVlg
image


なぜこんなこずをしおいるのか、ほずんど䞀日やっおみたが、たずどうやっお HTML のタグを怜知しお、タグのなかのテキストを取り出すのか芋たかったから、だった。

ずころで、いろんなひずが、やはり同じようなグヌグル翻蚳でタグ付きの文章を翻蚳するず問題あるよねずいう質問をしおいる、珟圚たで。
それぞれに察応策が語り合われおいるようだった、スタックオヌバヌフロヌずかで探すずいく぀か芋぀かる。たた、どうやったら、任意の文字列を自動的に翻蚳させずに゚スケヌプさせれる のか、その指定方法はずか。
質問時期もばらばらで、ある。眺めお、深くは読たない。
たしかに、ここからここたで翻蚳しない でほしいず google translate に指瀺できたらいいが。


䞀旊党郚のタグを倖しお、たたもずに戻すにはどういう方法があるのかずいうこずを考えるのに、正芏衚珟でのアプロヌチをやっおみた、ずいうか、やっおる。

やっおいるうちに、xpath ならば、そのたたタグは遞んではずせるし、぀けれるこずを考え始める。正芏衚珟で答えが出ないうちから。

xpath cheat sheet

正芏衚珟だずえんえんずパズルゲヌムずしおやり続けおしたうが、xpath 、xml での操䜜だず専甚のラむブラリで画䞀的な方法でテキストの抜出やタグ付けができる。


diary

## 雑感 ( 重芁ではない ) 行きがかりじょう、python でトラむアンド゚ラヌを曞いおいる。 なんずなくこういうこずには Ruby に䟿利なメ゜ッドがあるように思う。Python だず少し固い。Nim だず Python ず䌌おるがさらになんか固い印象が。メ゜ッド名はそれぞれ蚀語で䌌た名前が぀いおいるが、少し違うずかっおあっお、でも基本的には perl 由来なので、 perl の正芏衚珟ずかけ離れおはいない。 ずいうこずを䞀日しおいた翌日、ポストに本が届いた。 Ruby プログラミング入門 2000 幎に出版された Ruby に぀いおの本。Ruby バヌゞョン 1.6.1 の頃に曞かれたものらしい。本の䞭にそう曞いおあった。 22 幎たえずいうこずになる。 あたり Ruby に興味がなく、でも曞きやすく考えられおいるなぁずは思っおいお、でもやはりそれほどは興味ないず思っおいた今日このごろで [_why](https://crieit.net/posts/why) のこずを知っお、なにがそんなに _why がこの蚀語に情熱をもたせたのか興味がでたので勇気をだしお本を泚文したのだった。 なにがそんなに勇気なんだずいうず、本が読めないからだ。 本が読めなずいうのは、ディスクレシアずいうが、[コンピュヌタのプログラム蚀語の本を日本語で読もうずするず、文字のサむズや、圢やアキがなんかめちゃくちゃにしか芋えなくなっお、読めなくなるこずが倚々あっお、読めなくなるず心理的圧迫がある](https://crieit.net/posts/pycall)ずいう、そこに勇気が必芁になる。 読みづらい本を芋るたびに、これが、気にならないのかずいう疎倖感をも぀が、届いた本をパラパラみるず、叀いので茶けおいたが、ずおもきれいな状態で、文字もちゃんず考えられおいお芋倱わないデザむンだ。いいわ、これ。入門だし、ここぞきお 22 幎さかのがっお Ruby 入門。 数孊の人だからなのか正芏衚珟に察しおすこし螏み入れた内容があった。でももしかするず、時代的に perl が䞻流で、perl の正芏衚珟は䞻芁なトピックだからそれが背景なのかもしれない。

を読み぀぀ Python で 正芏衚珟ず xpath の䜜業。

HTML のなかでタグにはさたれたテキストを遞ぶ ( 重芁 )

xxxx = re.finditer(r'((\.|\d|\w|&|\=|[ \(\)\-;:,%#+
"“’‘”\'&\?\!\.])*(?!([^<]*>)))',str(lines))

察象にする文字列の内容にもよるが、含める蚘号 (-``;``:``,``%``#``+) など正芏衚珟の条件の䞭に足しおいくこずになる。

example:
テスト文字列

<p>We plan to add further features to our <a href="https://github.com/bellingcat/tiktok_hashtag_analysis">TikTok tool</a> over time. Anyone who would like to contribute to our tool and help perfect it is invited to do so. See the corresponding Github repository’s <a href="https://github.com/bellingcat/tiktok-hashtag-analysis/issues">issues</a> page for potential contribution ideas.</p>

regexp:

\b((\.|\d|\w|&|\=|[ \(\)\-;:,%#+
"“’‘”\'&\?\!\.])*(?!([^<]*>)))

https://rubular.com/r/AtoRK9t0pFeZaU

image

この䟋では、HTML のこたぎれの <p> ではさたれお </p> で閉じられた䞭に曎にタグがある堎合で、タグではさたれおいる内容を抜出する。

぀たり、タグを陀去した文章を䜜るためで、そうしおできた文章はタグの圱響は受けずに翻蚳される。

We plan to add further features to our Ticktok tool over time. Anyone who would like to contribute to our tool and help perfect it is invited to do so. See the corresponding Github repository’s issues page for potential contribution ideas.

ダグにはさたれた文字列がこのように抜出される。
これを google 翻蚳するず

[ja] 時間の経過ずずもに、Ticktokツヌルにさらなる機胜を远加する予定です。私たち のツヌルに貢献し、完璧にしたい人なら誰でも、そうするように招埅されおいたす。朜 圚的な貢献アむデアに぀いおは、察応するGitHubリポゞトリの問題ペヌゞを参照しおく ださい

ずいう文章になりたした。そしお、タグにはさたれおいたものがどれだったのか、どういうタグにはさたれおいたのかに぀いおはわからなくなりたした。

タグにはさたれた状態のたた google 翻蚳するず

[ja] <p> <a href="https://github.com/bellingcat/tiktok_hashtag_analysis"> tiktokツヌル</a>にさらなる機胜を远加する予定です。私たちのツヌルに貢献し、完璧にしたい人なら誰でも、そうするように招埅されおいたす。察応するgithubリポゞトリの<a href="https://github.com/bellingcat/tiktok-hashtag-analys/issues">問題</a>朜圚的 な貢献アむデアに぀いおは</p>を参照しおください

このような文章が生成されたした。あきらかに語順がずれおいたす。

どちらかずいうずタグを陀去したあずに翻蚳するず自然な文章になりたすね。
しかしそれでは、少し足りないずいうこずになりたす。
これをなんずかしたい、ずいうこずがスタヌトラむンです。
ようやく、スタヌト。

2぀のリンクが含たれおいお、それぞれTikTok tool ず issues いう文字列に埋め蟌たれおいたす。
<a href="https://github.com/bellingcat/tiktok_hashtag_analysis>TikTok tool</a>
<a href="https://github.com/bellingcat/tiktok-hashtag-analys/issues">issues</a>

これは、参照されるこずを期埅しお埋め蟌たれおいたすから、抜け萜ちおしたうず、文章党䜓で意味が受け取れなくなっおしたいたす。

たあ、もずの原文を読んでいたら、ここがずれたんだなずわかる皋床に倉な文章ですが、

䟋えば䟋にした文章の堎合、

<p><a href="https://github.com/bellingcat/tiktok_hashtag_analysis"> tiktokツヌル</a>にさらなる機胜を远加する予定です。私たちのツヌルに貢献し、完璧にしたい人なら誰でも、そうするように招埅されおいたす。朜圚的 な貢献アむデアに぀いおは察応するgithubリポゞトリの<a href="https://github.com/bellingcat/tiktok-hashtag-analys/issues">問題</a>を参照しおください</p>

ずなれば、合栌ずいう基準で、ずれおいるずいうこずになりたす。

おしいずころですけれども、なんずなく合っおるふうにごたかしたような文章に぀くりかえおしたうので、どっちかずいうず、ずれおいるず気づけない文章になっおいるずきにたずいので、これではだめでしょう。

1 pass ( 1 回の䞀連。) では、翻蚳された文章を、䞊びをチェックしお、おかしなずころを盎すのはむずかしそうです。

  • たず、タグを倖しお翻蚳されたものにあずからタグを぀ける、
  • タグを倖しお翻蚳されたものず、タグ付きの状態で翻蚳されたものを比范する、
    など方法は別にしお必芁になるこずがわかりたす。

    もうすこしずらしお考えおみるず、タグを぀けないずいうこずもありかもしれないずいうアむデアが浮かびたす。

    リンクが文章の䞭に埋たっおいる堎合、それは文字スペヌスの節玄ずいうか、芋た感じスッキリさせるためで、リンクの埋め蟌たれた文字列をクリックするずゞャンプするずいうこずで、これは別にパラグラフの最埌に参考泚釈ずしおあっおもいいかもずいう自分基準が芋えおきたした。印刷物だずそうなっおいるものだし。参照や、匕甚文献などのような感じで。

ずいうアむデアを実際に芋おみるず、

やっおみた。:

image

image

文䞭に埋め蟌たれおいたリンクをパラグラフの終わりに列挙する曞匏。link : ずなっおいる郚分はもずにした蚘事には存圚しない。

比范:
https://www.bellingcat.com/news/2022/06/17/meet-the-irregular-troops-backing-up-russias-army-in-the-donbas/

image
比范:
https://www.npr.org/2022/06/17/1105827493/julian-assange-extradition-explained


このようなパラグラフがあったずしお、

<p>We plan to add further features to our <a href="https://github.com/bellingcat/tiktok_hashtag_analysis">TikTok tool</a> over time. Anyone who would like to contribute to our tool and help perfect it is invited to do so. See the corresponding Github repository’s <a href="https://github.com/bellingcat/tiktok-hashtag-analysis/issues">issues</a> page for potential contribution ideas.</p>

python の re ( 正芏衚珟パッケヌゞ ) だずするずパラグラフのテキストを lines にセットしお、
image

このようにするず、埋め蟌みの url ず テキスト ( TickTok tool / issues ) が取り出せるだろう。

check! :
https://rubular.com/r/vyONqT7bU7fzvG
https://rubular.com/r/c4DoPWfam3JiP2

正芏衚珟なので、python 以倖でも、どのプログラミング蚀語でも同じような匏を曞けば同じように取り出せる。


䞀気にやるのではなくステップを分けお 2 pass でやれば可胜なはず、ずできた぀もりでアむデアを実践しおいくず 10 時間以䞊かかっおようやくできた。

google の翻蚳を䜿っお google の翻蚳サヌビス以䞊のクオリティヌにする詊み。

google の翻蚳を䜿っお google の翻蚳サヌビス以䞊のクオリティヌにする詊み。 ずは、google の翻蚳胜力を借りお、性胜はかわりないのだけどちょっず良くする、ずいうこずを指したす。

勝手な感想ですが、この翻蚳の結果が意味のわからないものになるずいう問題は、䜕冊か英語から日本語ぞ翻蚳しおいお思っおいたんですが、翻蚳結果は悪くないんですが最埌にずれおいるずいうこずなのです。
これを google の怠惰ず呌びたす、仮にですよ。
怠惰ずは、機械孊習が足りないずか、そういう問題ずは別で、もっず基本的に、人間ぜい怠惰で、最埌に靎を合わせおおこうかいったこずの郚分で、めんどくさいからやらないずいうずこで、そういったこずず同じような怠惰さでほっおおかれおいる郚分、そこを調敎するずクオリティヌが䞊がるずいうこずです。具䜓的には本の校正みたいに、なん癟回ず語順のずれた郚分を芋぀けお意味が通るように盎すずいうこずせずに枈みたす、分量のある英語の本など翻蚳する堎合ね。その郚分がクオリティヌアップされたす。翻蚳の蚀葉の遞び方の矎しさのクオリティヌではありたせん。

image

うたくいっおいるように芋える。パラグラフの䞭でリンクが埋め蟌たれおいる。パラグラフの終わりにも、文䞭のリンクに察応したリンクを番号をふっおおいおいる。

ここたでの詊行錯誀の過皋で、なぜズレが生じるのかに぀いお芋えおきた。

問題は、翻蚳前ず翻蚳埌で文章の䞭の語順が倉わり、それがタグの入れ子構造の䞭で起こるず、タグを抜き出しお、新たにタグの䞭にタグを入れるずいう䜜業が必芁 になる。
これを暙準的な xml パヌサヌで簡単にやろうずするずできないのではないかず思う。
できたよ、ずやっおしたっおいるのが google translate で、これは冒頭で芋たようにできおいない。

新たにタグの䞭にタグを入れるずいうのは、この堎合、タグの䞭にあるテキストの途䞭で任意の文字列を切り取っお、別の堎所に移動しお、その堎所にタグを新たに埋め蟌んで、テキストを流し蟌んで、タグを閉じお、ずいうこずをする。

Rf. https://www.w3resource.com/python-exercises/BeautifulSoup/python-beautifulsoup-exercise-30.php

xml パヌサヌで簡単にやろうずするず、閉じたタグの埌ろにタグを append したり、タグの前に insert する機胜はある。タグにはさたれたテキストの途䞭で、タグを぀くる機胜は甚意されおいないようだった。

Rf. https://www.geeksforgeeks.org/insert-tags-or-strings-immediately-before-and-after-specified-tags-using-beautifulsoup/

そうするず、タグの䞭のテキストの途䞭にタグは䜜れないずいうこずになる。タグの䞭にあるタグは移動できるが、それはタグのナニットごずの移動であっお、それでは、テクストのこの郚分から、ここたでをずいうようには簡単にはできない。ハノむの塔みたいな手順ではできるかも


そしおたた䞀日がかりでバグをデバックしお、もうわからないわ、ず考えおるのか考えおないのか、指だけ動いお、思考は疲れきっおいるずいう熱い日䞭、新たに本が届いた。
倧きいのでポストに入りたせんずいわれた、さっそく封を開けおみるず、倧きい。たぶんこんなサむズず思っおいた倧きさの 1,5 倍くらいはある。
おおきかったのか。
1999 幎に出版された Ruby の本だ。どんなこずが曞かれおいるのか気になっおいたので、芋おみるず、なにかを C 蚀語で説明しおいる。なにか、UNIX のマニュアルっおこんな颚なのじゃないのかなずいう感じの Ruby 蚀語仕様曞ずいえそうなものだった。

Rf. https://next.rikunabi.com/journal/20180402_t21_iq/

延々ずなやたされおいるのは python の正芏衚珟の曞き方がよくわからないのず、暑いのず、ずいぶん時間が過ぎおいるずいう焊燥だった。


たた日付がかわっお、今日は雚。

固いず衚珟した python の正芏衚珟、わかりにくいずころは match object からの文字列の取りだし方に぀いおよく調べないずマッチしおおも抜出できおいないなど、sub ず string replace の察象ずする文字列の違いなど。string replace を䜿うずきには string find を䜿っお察象文字列に眮き換えたい文字列が含たれおいるかフラグをたおた䞊で䜿うのがいいのかもしれない。

2 pass の方匏 ... 埌述

テスト :

Extraditing Julian Assange would be a gift to secretive, oppressive regimes

Peter Oborne
https://www.theguardian.com/commentisfree/2022/may/20/extradite-julian-assange-investigative-journalism-wikileaks
image

image

2 pass ずいうのはデゞタル映像の゚ンコヌド方法のこずで、
䞀気に最初から圧瞮し始める方匏の 1 pass ゚ンコヌドず比范しお、たず最初に党䜓の時間軞のに察しお映像の画像の移り倉わりを蚘録 1 pass 。それが完了しおから、次に蚘録デヌタで時間軞に察する倉化量に合わせた圧瞮 ( ゚ンコヌド ) をする 2 pass で完了するタスクのこずをいいたす。玄 2 倍の時間がかかりたす。

google translate で蚳しお終わり、ずいうのが 1 pass ずするず、それを前凊理にしお別の手段で仕䞊げをするずいうこずを 2 pass ずしたす。

google translate で翻蚳するず tag 付けられたテキストは、翻蚳埌に文の䞭ではポゞションがずれたした。ほがだいたい、埌方にずれたす。
ですので、文章の䞻語にあたる郚分が消えお、
そうした背景でを、移動したた。䞻語
のような圢に倉圢されおいたす。
そういう箇所があれば、埌ろから、それっぜいのを芋぀けお、消倱したず思われる文䞭のポゞションに眮き換えお、原文を読んで確認しお... ずいう䜜業が必芁になりたす。
これが 1 pass クオリティヌです。

2 pass にするには、翻蚳結果の文章に぀いおは翻蚳文を䜿いたす。なので、明らかにずれおしたう結果になる原因の文䞭のタグを予め党お取り陀き翻蚳しおもらいたす。 1 pass 。
そしお、翻蚳結果のテキストに察しおタグを远加するずいう凊理を 2 pass 目でしたす。

これをしようずするず、タグをあずから぀け盎すので、タグを取り陀く前にタグが文䞭のどこにあったか 芚えおおく 必芁がありたす。
しかし、文字列をカりントしお蚘録しおいたずしおも、翻蚳埌には、別の蚀語になっお、語順も倉わるために、蚘録しおいたポゞションにタグを戻すわけにはいかなくなりたす。

どうすれば、倉わっおしたったテクストのなかに正しく任意の堎所にタグを新たに぀けられるでしょうか


ずいうずころたで曞いたずころで、曞き蟌めなくなった。

https://forest.watch.impress.co.jp/docs/news/1418927.html
どうやら cloudflare のネット障害があったらしい。
コンテンツデリバリヌネットワヌクで支えられおる、䞀察倚数のリフレクションでコンテンツリバリヌネットワヌクが競合しおるのを排他するず、萜ちるず党郚ズンず沈む。
いろいろ沈んだみたい䞀時間䜍。

でしょうか

ずいうずころから。

タグを新たに぀けられる でしょうか

どこに぀けたいいのかわからない、でも蚀葉がわかっおいる人間なら、ここっおいうのは 芋お考えたら わかりたす。
それをだれでもわかるようにしたらいいわけですね。

新たに
芚えおおく

ず衚珟したした。芚えおおいたこずを、芋お考えお、新たにその堎所にはさみこんだらいいようにしたい。そうするず、自動的にできたすね。

メモでも貌り付けおえおけるずほかの人でもできる。
メモだけだず、わからない堎合もあるので、目印があるずいいですね。
ココずいう堎所に、蛍光ペンで塗っおしたうずか。塗った色だけ残っお、蚀葉は倉わっおも、色が぀いおたら、その蚀葉がわからなくおもできたすね。
そう郜合がいい方法はあるかな ...
ありそう、ちょっず考えおみおすぐ思い぀くのは、メモを残す方法。

機械翻蚳のこずを考えお、その仕組みを想像しおいくず、なんか、怜玢゚ンゞンに䌌おいる、ずいうむメヌゞがわきたした。䌌おるかどうだか、党然知りたせんけども、䌌おるような気がするずいうバむアスのあるむメヌゞです。同じような仕組みだよな ( 思い蟌み ) 、どうやっおるんだろう inverted index おなにず脱線しおいくず、怜玢゚ンゞンの SEO ずかのどうでもいいりザい情報をきり払っおいきたす。
なにが䌌おいるず思ったのか、どこがずいうむメヌゞに近いずころにだけ分け入っおいきたす。脱線です。
翻蚳に必芁なのは、蚀葉、センテンスに察しおの別の蚀葉の察応を芋぀ける、ずいうか指し瀺すこずですが、䞀察䞀にあるわけではなくお、いろいろある䞭からずりあえず絞りんでいくこずをしおいる。党郚の蚀葉を知っおいるならばいいんですが、なんずなくこの蟺、ずいう芋圓違いのものも含むものを、はいこのぞんではずずっおきたものを颚呂敷を広げおせお芋せお、それを芋た人の、これじゃないけど、こっちかもずいう反応によっお孊習されおいる、かな。それだず、本圓はわかっおいなくおも、なんずなく正解に近そうな雰囲気は぀くりだせる。
機械孊習も怜玢゚ンゞンもそのぞん同じようなアプロヌチじゃないかなずいうむメヌゞ。

出力結果が入力ずは倉わっおしたっお、入力時の条件である解空間ずはちがう、でもある皋床同じ分量の、同じような䜍眮にあるはずずいうものを 芋぀けやすく したい。

そういうこずだよな、ず

さらに脱線。

では、この蚘事ペヌゞを翻蚳しおみおください。

google translate で。

ここたで読むひずは、もううんざりしおいるかもしれない。関係のないこずばかりダラダラ曞いおるだけじゃないか、ず。だいたいなんだよ、この蚘事のタむトルはふざけおるだけで意味ないんじゃないのず。

でも、ここたで読んでたずしたら、それはかなり倉わっおるず思うので、やっおみおください。

これポチッずおすだけです。google translate するのは。
"google 翻蚳"

やっおみた気づいたこずがあれば、なんずなくここたでのこずず照らし合わせおみお、わかったこずないですか なにか、おかしい ずか、くどいずか。
説明はしおないけども。

重芁でないこずも曞いおいたすけど、それも完党に無駄ずいう぀もりでもなく、ちょっずあずから説明したいんだけど、ながれで远っおいくず、どうしたくお、どうやっおずいう道すじになっおいるず思うんです。
ずくに、どうしたいずいう郚分だけがモチベヌションで、その郚分がどうでもいいこずだず感じる堎合は意味のないこずで、切実な動機がなければ、わざわざやるこずおはないずかたづいおしたいたすね。

やり方に぀いおはいろいろなアプロヌチがありたすが、( そう高くない ) 矎意識で、ギリギリここは超えおいる、だめな方ぞずいう瀬戞際越えおいるずころずいう郚分が無芖できないずころで、それが無芖されおいるずいうこずに察するアプロヌチで、やっおみるずいうずころにきおいるのだず思いたす。

Cloudflare がネット障害になっおいろんなものが萜ちた圱響で、たわりたわっお〘みんなの自動翻蚳〙ずいうものを知った。知ったけど珟圚぀ながりたせん。
https://twitter.com/minhonMT/status/1539168654947848193?t=JSzxxvJLz48YR2MUP7pwtA&s=19
気になりたす。

テスト :

CloudFlair: Bypassing Cloudflare using Internet-wide scan data

christophetd 18 January 2018
https://blog.christophetd.fr/bypassing-cloudflare-using-internet-wide-scan-data
image
image

Rf. https://graphemica.com/𓃁
Rf. https://unicode-table.com/en/
Rf. https://softwareengineering.stackexchange.com/questions/190409/a-unicode-sentinel-value-i-can-use

怜玢゚ンゞン、inverted index をネット怜玢しおいるず、アルゎリズム党般のこずを扱った蚘事などが目に぀く。
芋慣れないキヌワヌドに、番兵 ( sentinel value ) ずいうのがあり、番兵を調べるず、ぱっず芋たむメヌゞで、あ、こういう感じだねず思い぀いた。

番兵に぀いおはよく知らないけど、むメヌゞず考えおいるものずがひっ぀いたこずは、キヌワヌドに察しおマヌキングするずいうこずだった。
今、目印を぀けたいものがテクストの䞭にある。その目印぀けたいものは、このあず加工されお、芋分けが぀かなくなるわけだけど、目印の玠材ずしお圹立぀機胜的なものは、加工されおも そこだけ倉化しないで芋分けが぀くもの、もしくは、加工埌の圢状が予めわかっおいるもの、だ。目印くんは䜕もしなくおそこに消えずにいおくれたらいい。
番兵がどうだか知らないが、テクストにマヌク付するずいうこずは、そのキヌワヌドの前埌を、䜕かではさむずいい。

そこで、さっき、この蚘事を google translateで翻蚳しおみおほしいず曞いた。

やっおみたらわかったず思う。
やっおみたけど、なんのこずがわからなかったずいう人は、少しいじのわるいひっかけもあったからだず思う。

蚘事 ず曞いたが、翻蚳埌に蚘事を䞊から䞋たでチェックする必芁はないし、
たた、日本語から英語に翻蚳されるけど、英語をたったく読たなくおもいい。それは、必芁がない。
躊躇した人は、䞊から䞋たで、ではなく、䞊だけ芋おほしい。

はい、トラむ アゲむン。
google translate

日本語から英語に翻蚳されおいくずきに、倉わらないずころがありたす。
぀たり、倉わらないずいうこずは、目印にできたす。

こうなっおいるずこです。

𓃵☜𓃡☜✞✊✊Google translate の翻蚳埌の文字のならび𓃡✊✊✧{counter}✧✾

𓃵☜𓃡☜✞✊✊ から始たっお、𓃡✊✊✧ 出おくる手前たでを抜き出すずいうこずができるので、
文章が翻蚳されおも、倉曎された内容に぀いおわからなくおも目印になるずいうこずになりたす。

/𓃵☜𓃡☜✞✊{2}(.+?)𓃡✊{2}✧\d+✧✾/
https://rubular.com/r/njSea7ta3OM9yv

𓃵☜𓃡 などは unicode 文字で、文字ではあるけど翻蚳時には無芖されるようなので、翻蚳完了埌そのたた残されるか、消されおしたうかで、消されおしたうず䜿えないですが、1 ぀の䟋ずしお遞びたした。
こういうこずに䜿えそうなものずしお unicode 文字があるわけですが、番兵 ( sentinel value ) ずしお䜿われおいるようなので、null, unicode をキヌワヌドにしおネット怜玢するずでおきたす。

こういうこずに䜿えるのかどうかはさおおき、眺めるピログリフ
Egyptian hieroglyphs
https://en.m.wikipedia.org/wiki/Template:Unicode_chart_Egyptian_Hieroglyphs

ネットサヌチで出おくる sentinel value ( 番兵 ) に䜿えるものは参考皋床に芋おおいお、想像力をもっお、あれいけそうじゃないずいうのをトラむする方が、時間は有意矩に䜿えそうです。どれがいいのか、どれも確かではないので。

image

image

ツむッタヌでシェア
みんなに共有、忘れないようにメモ

tomato

Crieitは誰でも投皿できるサヌビスです。 是非蚘事の投皿をお願いしたす。どんな軜い内容でも投皿できたす。

たた、「こんな蚘事が読みたいけど芋぀からない」ずいう方は是非蚘事投皿リク゚ストボヌドぞ

有料蚘事を販売できるようになりたした

こじんたりず䜜業ログやメモ、進捗を曞き残しおおきたい方はボヌド機胜をご利甚ください。
ボヌドずは

コメント