生命のプログラミング言語

〜DNAが語るデジタル情報化社会〜

 

未曽有の速度でデジタル情報社会へと突入しつつある現在。だが, デジタル情報処理技術は, すでに何十億年も昔から「DNA」によって採用され, 進化してきたのだ。そんな中, 「DNAの情報コーディングは『言語』とよく似た構造をもつ」という説が提唱された。人間を取り巻き, 複雑に絡み合う「DNA」と「言語」, そして「デジタル」。これらの関係が意味するものとはいったい何だろう。

 word: 田口善弘

 DNA。すべての生物は, それ自身固有のDNAをもっている。それは, この世のすべての生物につけられた「背番号」のようなものだ。一卵性双生児や分裂で増える単細胞生物でもない限り, まったく同じDNAをもつ個体というものはあり得ない。そして, DNAはただの背番号ではない。一見, 単なる記号の羅列にすぎないとてつもなく長い背番号の中には, 生物に関する「すべて」が書かれている。それは, 生命の設計・制御を司る「生命のプログラム」というべき存在だ。

 DNAは分子の連なりにすぎないが, そこに書かれたプログラムは, 「RNA」というDNAによく似た, しかし, ずっと短い分子に一部分がコピーされてから「実行」される。DNAのプログラムが実行されてできあがるのは, 生物の体を構成するタンパク質そのものだ。つまり, DNAとは我々の体がどのように作られるか(つまり, 背は高いか低いか, 目は青か黒か, 走るのが速いか遅いか, など)を記述した生命のプログラミング言語だ。人間の体のすべての細胞はこのDNAを1組(両親から1個ずつもらった2個のDNA)ずつもっており, 生命活動に必要なタンパク質やRNAを時々刻々生産し続けるという形で, そのプログラムを実行し続けているのだ。

 それほどの存在でありながら, DNAが採用したデータ記録方式は実に単純極まりない。それは, 我々が日々扱っている電子計算機が採用しているのと本質的に変わらない「デジタル技術」なのだ。電子計算機の中ではすべてのデータが0と1の羅列で表現される。これに対して, DNA上のデジタル・データはすべて, A, T, G, Cという4つの記号で表現される。無論, DNAは実在の分子なのだから, この4つの記号が「書かれている」わけではない。アデニン(A), グアニン(G), チミン(T), シトシン(C), と呼ばれる短い分子(塩基と呼ばれる)が4つの記号の代わりを務めているのだ。

 だが, それはここでは大きな意味をもたない。この4つの分子でなくてはならない理由は何もないのだ。ただ, 生命がその始まりにこの4つの記号を選んだという, 歴史的偶然でそうなっただけなのだから。だが, いずれにせよ, DNA上のプログラムは,4つの記号で完全に表現できる, という意味で, 電子計算機上のデジタル・データと同様といえよう。

 電子計算機のデジタル・データの場合, 0と1の羅列を見ただけでは, その中身を知ることはできない。それは, 文字を表現するアスキーコードかもしれないし, あるいは, プログラムの実行ファイルかもしれない。実際に何を意味するのか, コンテンツは何であるのか, それは0と1の羅列を見るだけでは判別がつかない。ただ, 電子計算機を設計したのは我々自身だから, あらかじめデータごとにこれは, 文書, これは実行ファイル, と区別することができるというだけだ。

シーケンスを読み解く

DNAの場合, いちばん基本的な部分での解読はなされている。DNAのシーケンスがコーディングしているのはタンパク質を構成する20種類のアミノ酸の配列だ。A, T, G,Cの4種類の記号を用いれば3つの記号の組み合わせで20種類のアミノ酸のすべてを表現することができるのだ。RNAに写し取られたA, T, G, Cの記号の羅列はそのままアミノ酸の配列へと移し換えられ, アミノ酸がつながった長い「紐」ができあがるのだ。そして, この紐こそが, 我々の体を構成しているタンパク質にほかならない。DNAに書かれているのは基本的にこの「アミノ酸をどうつなげてタンパク質を作るか」という情報だけなのだ。

 ではDNAは「完全に」解読されているのか, というとそうではない。タンパク質を構成するアミノ酸の「配列」を見ただけでは, タンパク質の「機能」までは理解できないからだ。

 タンパク質は伸び切った紐のままでは何らかの機能を発揮できず, 折り畳まれて複雑な3次元構造を取る必要がある。それはちょうど, 1本の針金を折り曲げて好きな形を作り出す, 針金細工のようなものだ。だが, 現在の科学のレベルでは紐の状態のタンパク質から3次元構造を推定することができない。DNAの解読においてはここが大きなネックになっている。そこで, 情報処理機構としてのDNAの全機構を明らかにするのはとりあえず後回しにして, いくつかの便宜的な解決策が図られることになった。

 そのひとつは, DNAのどの部分が変われば完成体である生物の何が(体の形, 色,寿命など)が変化するかを同定することにより, 「どこに何が書かれているか」を実験的に決定する解読作業だ。わずかに違う生物を2つもってきて, DNAを比較することにより, その生物に見られる相違がDNAのどこに表れているのかを判定するのだ。しかし, これはバージョンのわずかに異なるアプリケーションのバイナリを比較して「この2つのアプリケーションの差はバイナリのここに反映されている」というのと変わらない。つまり, 「この(DNAの指示する)アミノ酸の配列によってできるタンパク質が, なぜその機能をもつのか」という疑問には答えることができなかった。

 もうひとつは, 体内に現実に存在するタンパク質の構造・機能を観測・決定する方法である。この手法は, タンパク質を実際に取り出してその機能を調べるやり方で, タンパク質の機能をミクロに解明できるという意味で非常に画期的だったが, 一方で, DNAにコーディングされているA, T, G, Cという記号の羅列と生物の機能がどう関係しているかをあまり知ることができない。

 DNAにコーディングされている情報を生物の機能・形態と直接的に結びつけて理解するには, 生命の機能, あるいは, タンパク質の機能というものがDNAの「紐構造」にどのようにコーディングされているのかという一般的な規則が理解されなくてはならないのだ。この部分がデジタル情報処理系としてのDNAの理解で最も遅れている部分だ。

 はたして, DNAがタンパク質の立体構造をコーディングするのに用いているプロトコルはどのようなものだろうか ? また, 一般的な原理はあるのだろうか ?

言語は記号の羅列 ?!

  デビット・サールスはこの点について変わった意見をもっている。彼は「DNAの情報コーディングは言語とよく似た構造をもっている」と言うのだ。この言葉の意味するところは何なのだろうか ?DNAの上に「文法」があり, 「主語」や「述語」が存在するということなのだろうか?

 1950年代にノーム・チョムスキー【*1】は「言語とはどういうものか」ということについて, それ以前にはなかった新しい解釈を提示した。彼の説によれば言語とは一定のルールに基づいて作られる記号の羅列にすぎないというのだ。ちょうど, 電子計算機が計算結果を記号の羅列として機械的にプリントアウトするように, 言語の構造自体は, 非常に機械的な規則によって決められているというのだ。

 たとえば, “The cat frisked”(猫がじゃれた)という文を話したいとしよう。この場合, 人間はまず, 「猫がじゃれている」という状態を頭に思い浮かべて, それを言葉で表そうとするわけだ。チョムスキーによると, この場合, 以下のような手続きで文が頭の中で作られることになる。

 まず, 「文」という概念をあらわす記号が頭の中に思い浮かべられる。次に, この文は名詞句+動詞に置き換えられる。次に, 名詞句は冠詞と名詞に置き換えられる。最後に冠詞, 名詞, 動詞がそれぞれ“the”“cat”“frisked”という具体的な単語に置き換えられて文が完結する。チョムスキーのいうルールとはこのような「文は名詞句+動詞に置換できる」とか「名詞句は冠詞+名詞に置換できる」とかいう規則のことだ。もちろん, このほかにもルールは多くあり, 「文は名詞句+動詞+目的語に置換できる」などもあるはずだ。チョムスキーが主張したことは, このような置き換えルールの総体こそが言語である, ということだった。

 チョムスキーが主張した言語観は, 現実の人間の言語の理解よりも電子計算機への応用においてこそ非常に有効だった。たとえば, 最近は電子計算機に普通の日本語(いわゆる自然言語)を読み書きさせて会話させる, などということも可能だが【*2】, このような自然言語処理技術の近年の発展もチョムスキー流の言語概念の応用に

よる寄与が大きい。つまり, 現実に人間がチョムスキー流のルールを使って会話しているかどうかとは無関係に, 電子計算機が自然言語を理解したり, 話したりするのには非常に役に立ったわけだ。

折り畳まれる言語

 シカゴ生まれで45歳のデビッド・サールスはマサチューセッツ工科大学で哲学と生命科学の学士号を取った後, ジョンズ・ホプキンス大学で80年に生物学の博士号を,ペンシルバニア大学で電子計算機/情報科学の修士号を85年に取得した。その後, UNISYSで7年ほど人工知能の研究に従事した。その前には分子生物学【*3】で4年ほど,博士研究員を務めたこともある。つまり, ちょうど, 情報科学と生物学の境界領域のキャリアをもっていたわけだ。「みんながDNAのことを『生命の言語』と呼んでいるばかりか, 言語に関する用語,たとえば, 『転写』や『翻訳』『編集』などを使っていることに気づいたんだ【*4】。その割には人間の言語の解析に使われているさまざまなチョムスキー流のルール

を誰も真面目に使ってみようとはしなかった。そこで, 自分で実際にやってみると,驚いたことに, チョムスキー流の言語解析の方法がDNAにもよく当てはまることが分かったんだ。それどころか, コンピュータ・サイエンスの分野でコンパイラの設計や人間の言語処理に用いられているテクニックが, 遺伝子の階層構造の記述やパターンマッチングにうまく使えることさえ分かった」

 では, 人間が用いる言語(自然言語)とDNAのデータ・コーディングの共通点とは何だろうか ?

 人間が話す言語では, 文中の遠く離れた単語間をつなげて初めて意味が通じるような構造が, ごく自然な形で含まれている。たとえば,

 Bill, Alice, and Ted are a cook, a chef, and a dishwasher、 respectively.(ビル, アリス, テッドは各々, コック, 料理長, 皿洗いです)

  という文では, “Bill”は“cook”と, “Alice”は“chef”と, “Ted”は“dishwasher”と結びついて初めて文の意味が理解できる。DNAからデコードされて作られるタンパク質の場合も折り畳まれてはじめて機能を発揮するのだ。つまり1次元の紐上の配列では遠く隔たった2つのアミノ酸が折り畳まれた後, 非常に近くにくることにより, はじめてタンパク質として機能できる。このような構造を捉えるという意味で, 言語の処理技術はDNAのデコードにも応用できるのだ。

「RNAの階層構造を言語学的に解析して描いてみたことがあったんだ。そのとき, 階層構造の図自体が折り畳まれたRNAにそっくりだということに気づいた。これだ, と思った。DNAにも言語と同じような階層構造が織り込まれているんだとね」 

 彼が分子を言語として扱うこの「分子言語学」を提唱し始めた時の分子生物学者の反応はどうだったのだろうか ?「特に強い反発っていうのはなかった。ただね, 数学者や電子計算機科学者は(万有引力の法則とか相対性理論のように非常に少ない数の数式で表された法則が非常に広い現象を説明できるような)エレガントな理論, 複雑さの本質をつくような単純な原理にこそ魅力を感じるけど, 生物学者ってのは実際家(ルビ:プラグマティスト)の集団でね。綺麗な理論より, 役に立つ道具を求めるってタイプの人々なんだ。だから, 僕は分子言語学が実際に役に立つってところを示さなくてはならなかった」

 DNAにコーディングされている情報の大部分は実際には読み取られない無意味な部分で, 意味のあるところは数パーセントしかないといわれている。膨大なDNAの情報から意味のある部分だけを抜き出すのは非常に困難かつ重要な作業だ。

 だが, 彼が作り上げたプログラム「Gen Lang」はDNAのシーケンスの中から意味のある領域を「言語学的に」抜き出すものだったが, この難しい作業を効率良く行うことができた。電子計算機が自然言語を扱うのと同じように分子を言語として解析することにより, 意味のある部分とない部分をうまく区別できたのだ。

「分子言語学は, 過激すぎて受け入れられないってことはなかった。ただ, 生物学者には馴染みのない言語学ってものを, どうやって分かりやすく説明するか, それが難しいんだ」

 91年にペンシルバニア大学で遺伝学と電子計算機/情報科学の助教授になったサールズはわずか4年ほどそこにいただけで, 95年にはSmith Kline Beecham Pharmaceuticalsという会社のバイオインフォマティックス部門の責任者に納まった。かといって, サールズは決して学術的な研究から完全に足を洗ってしまったわけではない。まだ, 大学に籍は残っているし, 助成金も得ている。サールズが民間に移った理由のひとつには, 彼がやっているような境界領域の研究は, まだ, 大学ではなかなか受け入れられないということがあった。だがそれ以上に大きな理由は, アメリカでは政府が基礎研究に費やす予算をひどく切り詰めているために, 何か大きなプロジェクトを立ち上げようと思ったら, 民間に行くしかなかったのだ。彼は, 今, そこで, 本格的に分子言語学を研究しようともくろんでいる。

 サールズが考え出した分子言語学は多くの電子計算機言語学者に受け入れられ, そのうちの何人かは分子言語学を発展させてもっと役に立つ道具を作ろうと努力している。「だから, 分子言語学にはまだまだ発展の余地があると思うよ」

 ゲーム理論に表れた言語の進化

  サールスは言語とDNAの情報コーディングに共通点を見いだし, 実際にそれを用いて, DNAの膨大な情報の中から意味のある領域を探し出すプログラムを作ってみせた。よって, 何らかの意味で, DNAと言語の構造が関係しているのは間違いない。しかし, それは彼も言っているように「DNAの配列の中に名詞や動詞があるわけではない」のだ。だが, 機能的に特に共通点があるとは思えない言語とDNAに同じような構造が見られるのはなぜだろうか ? それには意味があるのだろうか ?

 DNAとは気が遠くなるほど長い進化の結果にできたものだ。DNAの情報コーディングの仕組みも進化の結果できあがったものと考えることが可能だ。では, 言語の方はどうだろうか。言語もまた, 進化の結果できあがったものであり, それゆえに, 言語とDNAが同じような構造をもったということかもしれない。

 もちろん, この点について決定的な結論は出ていない。しかし, 現在, 理化学研究所・基礎科学特別研究員を務める橋本敬が博士論文の一環として行った研究はそのヒントになるかもしれない。

 橋本は最近, 進化の理論によく応用されているゲーム理論を用いて, 言語の進化をシミュレートした。進化のゲーム理論モデルでは, 個々の「遺伝子」が固有の「戦略」を与えられてゲームを行う。ゲームの内容は, ジャンケンでも, チェスでも, しりとりでも何でも構わない。一通りゲームが終わると個々の遺伝子は勝敗に従って得点をもらい, 得点の低い遺伝子は子孫を作ることを許されずに死滅し, 勝者は子孫を残すことができる。進化のモデルでは子孫は親と多少異なった遺伝子, つまり, 戦略をもつように決められており, 世代交代を繰り返すうちに「強い」遺伝子の子孫が生き残っていく。

 橋本はこのゲームにチョムスキー流の文法ルールを埋め込んで, 各遺伝子が互いに「会話」をするように設定した。もちろん, 彼の作り出した遺伝子が交わす言葉は,日本語のような実在の言語ではなく, 0と1の羅列からなる機械語のような言語だ。橋本はこの会話ゲームの中で

「文を作るのに時間がかかりすぎない(文法の単純さ)」

「自分や他者の作った文を理解できる(理解力)」

「長文やあまり話されない文を話す(表現の豊富さ)」

の3つに得点を与えることにした。このように得点を設定すると何となく複雑で高度な文法をもった遺伝子が生き残りそうな気がするが, 実際に最後に生き残ったのは, 比較的簡単な文法ルールをもちながらも, 「句構造」をもつことにより, 無限のバラエティーを獲得した集団だった。

 句構造とは, たとえば, 文は主語と述語からなり, 主語は名詞と助詞, あるいは形容詞からなる, というような構造だ。このルールではお互いの言うことも理解しなくてはいけないので, あまりに複雑な文法ルールになると, 話してはみたもののちっとも理解し合えない, ということになってしまう。これに対して, 句構造をもった文法ルールは, 文を作るルールが階層的で規則正しいのでお互いに理解し合うことができ, かつ, 文を作るのも簡単なので, お互いに協調して複雑な文法ルールをもつ遺伝子をやっつけて生き残ることができたのだ。階層的な句構造は, すなわち, 日常的な言語に見られる「文中の遠く離れた語同士の相関」をもたらすことになる。

 DNAはデジタル社会を語る

  今のところ, これだけでは, 言語構造が進化の結果出現したのかどうかは断言のしようがない。橋本のモデル自体, 任意性が残されており, 橋本のモデルに見られた「進化の結果としての句構造」が進化の一般的な成果かどうかは分からないのだ。

 だが, もしそうであることが分かれば, DNAが言語構造をもっているのは当然だ,と断言できる日が来るかもしれない。つまり, DNAが言語のような構造をもっているのではなく, 言語のような構造自体が進化的発展に固有の構造であり, それゆえに言語とDNAが同じような情報コーディング機構をもっているということをだ。

 これは必ずしも奇想天外なアイデアではない。デジタル・データはアナログ・データに比べて, ノイズに強い。よって「情報を正確に伝達する」(DNAであれば遺伝情報を子孫に正確に, 言語であれば内容を他者に正確に)ことが主目的であるシステムが共にデジタル形式を採用する, というのは理にかなっている。一方, 階層的な構造は, 少ないルールで無限のバリエーションをもっている点に特徴がある。言語は辞書と文法書でルールは尽きているが, そこから生み出される可能性は無限にも等しく,シェークスピアから俳句まで多岐にわたる。DNAもまた, 基本的な機構(DNAのプログラムをRNAが切り出してタンパク質を作る)は不変のままだが, それでも, バクテリアから人間の大脳まで作り出すことができる。

 この「無限性」は非常に本質的なものかもしれない。なぜなら, 言語もDNAも「自然」という無限のバリエーションをもつ対象を扱わなくてはならなかったからだ。言語は, 人間の「大脳」の道具として自然に相対し, 自然を理解せねばならず, DNAは激しく変化する自然環境に適応して生き残るための方策を考えて, 生物という形に実現させなくてはならないのだから。

 人間は奇しくも, 言語とDNAが共に採用したデジタル情報処理系を採用して電子計算機やネットワークを構築した。もちろん, コンピュータやネットのパイオニアたちは, 言語やDNAに学んだわけではあるまい。しかし, 結果的には言語やDNAが採用したデジタル情報処理系を, 人類はコミュニケーションの主な手段として採用した。数十億年とか数万年の歴史をもつDNAや言語のデジタル情報処理技術。自然が当然のように作り出したこの巧みな仕組みを, 我々は今やっと使い始めたばかりだ。

 自ら成長していくインターネットの中に埋め込まれたデジタル情報処理系。遠い未来, それはどんな形へと進化して行くのだろうか ? 電子計算機やネットは人間の意思を超えて, DNAや言語のもっている無限の可能性を獲得し, いつか人類を超えてしまうのかもしれない。そのときまでには, DNAと言語が, なぜ似た構造をもったのか,進化とは何なのか, という問いに答えが出ていてほしいものだ。 

掲載原稿 in WIRED のページに戻る

 


【*1】ノーム・チョムスキー Noam Chomsky(1928〜)

言語学者。チョムスキー以前は, 言語は文化の一形態, つまり, 民族に固有の伝統芸術や民族音楽のようなもの, と思われていた。人間の心理現象の反映, として言語が扱われていたわけだ。チョムスキーはこれに異議を唱え, 言語の基本的な構造は人間という種に共通であり, 文化が言語を決めているのではなく, 言語の(あらかじめ決められた形式が)人間の心理や文化を規定している, という新説を唱えた。たとえば, 人間の言語はたいてい, 過去形・現在形・未来形をもっているが, これは人間がそういう考え方をすることの反映ではなくて, 逆に, 言語がそうなるように決められているのでそれ以外の発想を封じられているのだ, などと考える(実際に, そうであるかどうかは別の話)。

 

【*2】 本誌96年6月号「e-NEWS」P23参照。http://www.csl.sony.co.jp/dialeague/

 

【*3】簡単にいえば, DNAやタンパク質の物質的な研究から生物を理解しよう, という学問分野。従来の生物学ではあくまで「個体」が対象だったのに対し, 分子生物学では,個体を構成する分子を主な研究対象とする。しかし, 単なる生化学ではなく, あくまで生物とは何か, に答えることを究極の目的として掲げる。

 

【*4】分子生物学ではDNAから情報の一部を切り出してRNAを作ること(本文参照)を「転写」, RNAに従ってアミノ酸を配列し, タンパク質を作ることを「翻訳」と呼ぶ。また,現在の分子生物学の技術では生物のRNAを自由に組み換えることができる。これは,文章を「編集」するのと同じような作業だ。

-