機械翻訳 spam サイトの問題

  • 記録

この半年くらいで目立つようになったものに,機械翻訳による spam がある。

Stack Overflow 等の内容をそのまま機械翻訳して,山盛りの広告を添えただけの spam である。

Stack Overflow の投稿は CC BY-SA 4.0 でライセンスされており,これ自体が何かに違反しているようなことはない。むしろ,翻訳を公開することは自由なライセンスに基づく文書として推奨されることである。

しかし問題は,マトモな翻訳になっておらず,ほとんどワードサラダのレベルであるということである。そもそも機械翻訳を文書化・公開することに益は少なく害ばかりがあるが,それに加え,大量の文書を処理する負荷軽減のためにごくプリミティブなエンジンが使われているものと見られる。英語がまったく読めないという人であっても,原文を一般的な機械検索にかけたほうがよい結果を得られるだろう。

機械翻訳 spam の狙いが,Google をはじめとした検索エンジンのあまりに単純なローカライズ方針の悪用にあることは明らかである。検索エンジンでは,ブラウザの規定言語で書かれたページを大きく優遇する。また,元となっているのは人が書いたきちんとした文章であるため,ひとつのテーマに沿った単語が適切に登場しており,ワードサラダ同然であることがわかりにくい。

機械翻訳 spam は,ユーザの利便性を落とすのみならず,自由なライセンスによる文書の濫用的な利用であるという点でも,特に警戒したい。スマートフォンアプリで見られるように,そのまま広告を加えただけのコピーが流布することで,元のプロジェクトや,さらには自由なライセンスに対する信頼をも損ねかねない。

もっとも,自由なライセンスは,指定された条件のもと,あらゆる用途での自由な利用を保証するものである。濫用的な利用であろうと,用途に制約を課すことは,そのライセンスをもはや自由とはいえないものにしてしまう。

Amazon が貢献せず利用のみすることによる負担から一部のプロジェクトで取られたように,完全に自由なライセンスから商用利用禁止のみを禁止するライセンスへの移行という選択肢もある。これは後退ではあるとはいえ,コミュニティの崩壊を防ぐための一時的な緊急避難としては致命的なものではないだろう。とはいえ,あくまで最後の選択肢として留保されるべきである。機械翻訳 spam の存在は不快ではあるが,このケースについてはなお不適であろう。

コピーは低く評価されるというのが,検索エンジンでの長い慣行である(そしてこれが Wikipedia をコピーしただけのサイトが検索上位を占めない理由である)。機械翻訳を経ているとはいえ,原文との類似性を判断することは不可能ではないだろう。ましてや現行の CC ライセンスでは派生元の明示を求めている。

この spam は,他の spam と同様,検索エンジンのアルゴリズムの“脆弱性”を利用したものである。検索サービスが検索結果に加えている細工をすべて廃して完全にエンドユーザがコントロール可能にするのでもない限り,これは検索サービスの責任において対策すべき問題だろう。

Share:
タグ:

コメントを残す

投稿にあたり,完全な IP アドレスが保存されます(公開されません)。

コメントは承認後に公開されます。コメントの内容はスパムフィルタで処理されます。