Python unicodedata

since 2011-04-20

http://docs.python.jp/2.7/library/unicodedata.html

Unicode を理解すると何をやってるのかわかってくる。。

Unicode HOWTO http://docs.python.jp/2/howto/unicode.html

<html> <div class="amazlet-box" style="margin-bottom:0px;"><div class="amazlet-image" style="float:left;margin:0px 12px 1px 0px;"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/477414164X/r4wh-22/ref=nosim/" name="amazletlink" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51b7R1hZL-L._SL160_.jpg" alt="プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)" style="border: none;" /></a></div><div class="amazlet-info" style="line-height:120%; margin-bottom: 10px"><div class="amazlet-name" style="margin-bottom:10px;line-height:120%"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/477414164X/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)</a><div class="amazlet-powered-date" style="font-size:80%;margin-top:5px;line-height:120%">posted with <a href="http://www.amazlet.com/" title="amazlet" target="_blank">amazlet</a> at 13.01.13</div></div><div class="amazlet-detail">矢野啓介 <br />技術評論社 <br />売り上げランキング: 14,076<br /></div><div class="amazlet-sub-info" style="float: left;"><div class="amazlet-link" style="margin-top: 5px"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/477414164X/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">Amazon.co.jp で詳細を見る</a></div></div></div><div class="amazlet-footer" style="clear: left"></div></div> </html>

NFC: normalization form + composed
NFKC: NFC + K (=Compatibility) 全角半角など互換文字の変換を行う

Text Processing in Python by David Mertz – published by Addison Wesley

http://gnosis.cx/TPiP/

スペース

「スペース」の category を見てみた：

http://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%9A%E3%83%BC%E3%82%B9

>>> unicodedata.category(u'\u0020')
'Zs'
>>> unicodedata.category(u'\u00a0')
'Zs'
>>> unicodedata.category(u'\u2002')
'Zs'
>>> unicodedata.category(u'\u2003')
'Zs'
>>> unicodedata.category(u'\u2004')
'Zs'
>>> unicodedata.category(u'\u2005')
'Zs'
>>> unicodedata.category(u'\u2009')
'Zs'
>>> unicodedata.category(u'\u2006')
'Zs'
>>> unicodedata.category(u'\u2007')
'Zs'
>>> unicodedata.category(u'\u2008')
'Zs'
>>> unicodedata.category(u'\u200a')
'Zs'
>>> unicodedata.category(u'\u200b')
'Cf'
>>> unicodedata.category(u'\u3000')
'Zs'
>>> unicodedata.category(u'\ufeff')
'Cf'
>>> unicodedata.category(u'\u0009')
'Cc'

normalize

http://tama-san.com/old/document06.html

全角文字を半角文字に正規化できる：

>>> import unicodedata
>>> unicodedata.normalize('NFKC', u'１００')
u'100'
>>> unicodedata.normalize('NFKC', u'．')
u'.'
>>> unicodedata.normalize('NFKC', u'・')
u'\u30fb'
>>> unicodedata.normalize('NFKC', u'、')
u'\u3001'
>>> unicodedata.normalize('NFKC', u'Ａ')
u'A'
>>> unicodedata.normalize('NFKC', u'～')
u'~'

一般に「チルダ」「波ダッシュ」のような文字：

>>> '%04x' % ord(u'~')
'007e'
>>> unichr(0x301c)
u'\u301c'
>>> '%04x' % ord(u'～')
'ff5e'

301c は正規化で変換されない：

>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0x007e)))
'007e'
>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0x301c)))
'301c'
>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0xff5e)))
'007e'

ちなみにコマンドプロンプトで下記を実行すると 003f が出てくるが、文字変換に失敗して '?' になったらしい：

>>> '%04x' % ord(u'〜')
'003f'

エンマークは全角￥(0xffe5)を正規化するとバックスラッシュ(0x005c)ではなく Unicode の円記号(0x00a5)に変換される：

>>> '%04x' % ord(u'￥')
'ffe5'
>>> '%04x' % ord(u'\\')
'005c'
>>> unichr(0x00a5)
u'\xa5'
 
>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0x00a5)))
'00a5'
>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0x005c)))
'005c'
>>> '%04x' % ord(unicodedata.normalize('NFKC', unichr(0xffe5)))
'00a5'

全角バックスラッシュの正規化：

>>> '%04x' % ord(u'＼')
'ff3c'
>>> '%04x' % ord(unicodedata.normalize('NFKC', u'＼'))
'005c'

全角オーバーライン（？）を正規化すると「空白」と COMBINING MACRON の2文字になる：

>>> '%04x' % ord(u'￣')
'ffe3'
>>> unicodedata.normalize('NFKC', u'￣')
u' \u0304'

NFKC (composed) でもNFKD (decomposed) でも同じ結果になる：

>>> '%04x' % ord(unicodedata.normalize('NFKC', u'￣')[0])
'0020'
>>> '%04x' % ord(unicodedata.normalize('NFKC', u'￣')[1])
'0304'
 
>>> '%04x' % ord(unicodedata.normalize('NFKD', u'￣')[0])
'0020'
>>> '%04x' % ord(unicodedata.normalize('NFKD', u'￣')[1])
'0304'

互換文字の正規化

NFKC と NFC などの違いをみる：

>>> unicodedata.normalize('NFC', u'①')
u'\u2460'
>>> unicodedata.normalize('NFC', u'Ⅱ')
u'\u2161'
>>> unicodedata.normalize('NFD', u'①')
u'\u2460'
>>> unicodedata.normalize('NFD', u'Ⅱ')
u'\u2161'
 
>>> unicodedata.normalize('NFKC', u'①')
u'1'
>>> unicodedata.normalize('NFKC', u'Ⅱ')
u'II'
>>> unicodedata.normalize('NFKD', u'①')
u'1'
>>> unicodedata.normalize('NFKD', u'Ⅱ')
u'II'

サロゲートペア

ちょっと脱線するがサロゲートペアの実験。

𦙾	d859de7e	[ケイ]	ケイコツノ ケイ:ニクヅキニ マタノシタ ツチ

出力するとコードポイント（32ビット）が得られるが、文字の長さは2文字になる:

>>> u'\ud859\ude7e'
u'\U0002667e'
>>> u'\ud859\ude7e'[0]
u'\ud859'
>>> u'\ud859\ude7e'[1]
u'\ude7e'

ちなみにUTF-8では4バイトで表現される:

>>> len(u'\ud859\ude7e'.encode('utf-8'))
4

normalize の影響はない(NFC, NFD, NFKD でも同じ)：

>>> unicodedata.normalize('NFKC', u'\ud859\ude7e')
u'\U0002667e'

サイト検索

nishimotz
nvda_hiroshima
playground
portal
project
twcu2010
wiki
7-Zip (7z)
5374
a2ps
academic life
alexa
alien
C言語における多次元配列
alsamixer
Amazon WorkMail
AMBULANT
AMIS
amixer
Android adb
Android NDK
Android TalkBack
Android
AngularJS
ansible
ant
apache
APFS
arecord
ASP.NET
Asterisk
Audacity
AutoHotkey
AWK
AWS Amplify
aws
awscli
bash
ベイズの定理
find_bakfile
bzrからgitへの移行
Bazaar 分散バージョン管理システム
bfg
Google BigQuery
bitbucket
Bluetooth Low Energy
Boehm GC
Boolean
点字
BrailleBlaster
BRLTTY
bzr shelve
bzr vs git
bzrtools
C言語への導入
calplot / july / calmap
capistrano
chalice
ChaSen
chdir
cheat
checkinstall
chmod
chocolatey
Google Chrome
chruby
cloudvox
Google Colab
コメントアウト
C++
cppcheck
CVS
cygwin
DAISY
ddskk
delicious
Delphi
DHT11
dialog
Galatea Dialog Studio による実習
DialogStudio における Rails アプリケーション
Dialog Studio for Windows
Dialog Studio
Django
Docker
dokuwiki
ドラゴンスピーチ
Dropbox
DynamoDB
easy_install
Eclipse
Emacs po-mode
Emacs
環境変数
EPUB
espeak
evernote
Every Layout
FaceMaker
facesynthesizer
FastICA
ffmpeg
find
flutter
Galatea
GalateaTalk
gcloud
gettext
gh
git add
git branch
git checkout
git diff
git fetch
git flow
git lfs
入門git（オーム社）読書メモ
git_pull
git push
git_remote
git reset
git sparse checkout
git stash
git submodule
git svn
git tag
git : バージョン管理システム
GitHub Actions
github
GLUT
Go
Google Apps Script
Google Assistant
gparted
group
grunt.js
gspread
Helix Server
heroku
hgignore
homebrew
HTK : The Hidden Markov Model Toolkit
HTML5
HTS
httpie
インタフェースの原則 1996-2009
HVite
iconv
igo-py
マイナンバーカード
ionic
IoTLT 広島
iPad
ITBC2
iTunes
日本語エンコーディング
japanize-matplotlib
Java Access Bridge
Java
JavaFX
Javascript STAR
JavaScript
Jindigo
Jinja
JNA
jPlayer
jQuery
jruby
jslint
json
Julius progout
Julius
Jupyter
KyTea
latex
launchpad.net
launchpad
liblouis
LibreOffice
libsvm
Linux
リスト内包表記
対数尤度の計算
logrotate
Lotus Symphony
lv
LXDE
M5Stack
MacPorts
Mailman
MaixPy
make
markdown
marsyas
matlab
MD5
mecab
mechanize
バージョン管理システム Mercurial
mermaid
MicroPython + Raspberry Pi Pico
MicroPython
Microsoft Speech Platform
MMDAgent
MMDAI
mod_rewrite
MongoDB
mount
mpremote
mruby
MSAA
MXML
MySQL
n
naist-jdic
namazu
Next.js
nginx
nkf
NLTK
node.js
のどか
numpy
NVDA add-on
NVDA Dropbox addon
NVDA globalPlugins
NVDAユーザ会広島
NVDA How To
NVDA Ticket 1-99
nvda_ticket_100-199
nvda_ticket_200-299
nvda_ticket_600-699
nvda_ticket_index
NVDA翻訳グループ
NVDA
nvdajp bazaar
nvdajp_braille
NVDA certFile
nvdajp_chardesc
NVDA のデバッグ
nvdajp 開発環境
NVDA 日本語版の IME 対応
nvdajp_jtalk
NVDA日本語版における MS Speech
NVDA 日本語版における scons
nvdajp 翻訳
NVDA日本語拡張
NVDA 日本語チーム
OAuth2
Octave
OmegaT
One-pass アルゴリズム
Open JTalk
OpenAI
OpenAL
OpenCV
OpenFrameworks
OpenKinect
OpenMary
OpenNI
Open Sound System
openssl
Orca
OWASP ZAP
palmkit
pandas
pandoc
Passenger
パスワードマネージャー
PDF
PHP
phpMyAdmin
phpunit
pik
pip
pm2
Amazon Polly
PortAudio
postfix
Power Automate Desktop
power-assert
Windows PowerShell
島根県CMS
インタフェースシステムの導入原則
インタフェースの原則
principles-of-interface
pukiwiki
PulseAudio
PureData
py2exe
pyAA
PyAudio
PyCon mini Hiroshima
PyQt4
PyScripter
PySimpleGUIWx
PySpark
pyssp
pytest
Python における括弧の機能
Python におけるビルトイン関数
Python CSV
Python datetime
Python dateutil
Python dict
Python encode
Google App Engine / Python
python で mecab
OrderedDict
Python packaging
Python Requests
Python で Thread
Python + Ubuntu
Python unicodedata
Python unittest
Python vs Ruby
Python Wave
Python for Windows
Python の with 文
Python WSGI
Python Yield
Python Twitter
Python
pytz
Qt4
Qt5
オープンソース統計解析システム R
rake
rakefile 仕事術
Raspberry Pi
rbenv
ReactJS
Redmond Path
正規表現
強化学習
render.com
Ren'Py
repo
require
Rhodes
RhoHub
RL Toolbox
rsync
Ruby CGI
Ruby Inline
ruby on rails on windows
Ruby on Rails
ruby_struct
Ruby/Tk
Ruby における Wave ファイルの処理
Ruby
ruby 1.9 を使う
rubygems
rubyhtk : Ruby wrapper of HTK (HMM Toolkit)
RVC
RVM
rye
sandbox
scons
スクリーンリーダー
scrubyt
Selenium
senna
serverless
serverspec
shell script
動的ライブラリ
sidebar
signtool
SMIL
Solr
sox
spaCy
Speech Hub
Sphinx
spLibs
split
音声対話エージェント
表計算ソフトウェア
sptk
SQLAlchemy
srilm
SSML
Stable Diffusion
自己紹介と技術情報
Streamlit
文字列のフォーマット
Subversion
svn2git
Swift
swig
SwitchBot
Symfony
tar
TensorFlow
Text Services Framework
tkinter
tmake
Tobi
TortoiseGit
TortoiseHg
tse
TwCmdJtalk
Tween
Twitter
twitter4r
txt2tags
uasyncio
Ubuntu amd64
Ubuntu Customization Kit
Ubuntu Linux
UI Automation
Underscore.js
Unicode
UniDic
unwrap
upysh
Vagrant
バージョン管理
videostudio
Vine Linux
VMware Player
VoiceMaker
VoiceOver
VoiceXML
Visual Studio Code
WAI-ARIA
wavesurfer
Web アクセシビリティ
Webvisum
wget
which
Whisper
Windows Speech
Windows
winget
WordPress
WSL
wxPython
wxWidgets
xclip
xgettext
xsendkey
yard
yarn
YouTube
zappa
Zaurus
Zend Framework
Zoom

python_unicodedata.txt · 最終更新: 2014/03/30 02:18 by Takuya Nishimoto

Python unicodedata

スペース

normalize

互換文字の正規化

サロゲートペア

目次