プロジェクト

全般

プロフィール

Backport(バックポート) #3708

未完了

自動リンク機能で末尾のスラッシュを省略すると後続の日本語テキストもURLとしてリンクされてしまう

isao sano さんが約10年前に追加. ほぼ10年前に更新.

ステータス:
Rejected(差し戻し)
優先度:
Normal(通常)
担当者:
対象バージョン:
開始日:
2012-12-27
期日:
進捗率:

50%

予定工数:

説明

現象

op_auto_link_text (source:lib/helper/opUtilHelper.php) を使用する箇所(アクティビティ、日記の本文・コメントなど)で、次のような現象が起こる。

http://example.com/テキスト と入力して投稿すると <a href="http://example.com/">http://example.com/</a>テキスト のように日本語の部分を除いて自動リンク機能が働くが、
http://example.comテキスト と入力して投稿すると <a href="http://example.comテキスト">http://example.comテキスト</a> のようなリンクが生成されてしまう。

原因

op_auto_link_text による自動リンクで使用される正規表現は次のように定義されている。

  define('SF_AUTO_LINK_RE', '~
    (                       # leading text
      <\w+.*?>|             #   leading HTML tag, or
      [^=!:\'"/]|           #   leading punctuation, or
      ^|                    #   beginning of line, or
      \s?                   #   leading whitespaces
    )
    (
      (?:https?://)|        # protocol spec, or
      (?:www\.)             # www.*
    )
    (
      [-\w]+                   # subdomain or domain
      (?:\.[-\w]+)*            # remaining subdomains or domain
      (?::\d+)?                # port
      \/?
      [a-zA-Z0-9_\-\/.,:;\~\?@&=+$%#!()]*
    )
    ([^a-zA-Z0-9_\-\/.,:;\~\?@&=+$%#!()]|\s|<|$)    # trailing text
   ~xu');

この正規表現はUTF-8モードが有効となっており(末尾の u オプションによる)、このモードではpreg_match内部でPCREに対して PCRE_UCF オプションが使用される。このオプションでは \d, \D, \s, \S, \w, \W などの 重要な 文字クラスの挙動が変わり、例えば \d は全角数字にもマッチし、 \w は漢字や平仮名にもマッチするようになる。これによって、ドメイン部分の [-\w]+ に日本語のテキストがマッチしてしまうため前述のような現象が起こる。

参考

修正内容

SF_AUTO_LINK_RE で使用されている \w, \s, \d[0-9A-Za-z], \ , [0-9] にそれぞれ置き換える。


関連するチケット 1 (1件未完了0件完了)

コピー元 OpenPNE 3 - Bug(バグ) #3289: 自動リンク機能で末尾のスラッシュを省略すると後続の日本語テキストもURLとしてリンクされてしまうRejected(差し戻し)Youichi Kimura2012-12-27

操作

他の形式にエクスポート: Atom PDF