文字列変数を数値変数に変換
数値のように見えるデータが、実際には文字列として保存されている場合があります。 そのような場合、計算で使用する前に、これらの変数を数値データに変換する必要があります。
まず、Stata Web サイトからサンプル データセットを開き、変数 chol の最初の 5 つの観測値を一覧表示します。
. use https://www.stata.com/users/youtube/rawdata.dta, clear
. list chol in 1/5

変数 chol のデータは数値のようです。
summarize chol
と入力して、記述統計を推定してみましょう。
. summary chol

出力には 0 個の観測値が表示され、平均、標準偏差、最小値、最大値は空です。 これが、chol が文字列変数として保存されている可能性があることを示す最初の手がかりです。 これは、データを記述することで確認できます。
. describe chol

変数 chol のストレージタイプは "str3" です。
つまり、chol は 3 文字を保持する文字列変数として保存されます。
destring
を使用して、chol から choln という数値変数を作成できます。
. destring chol, gen(choln)
次に、list chol choln in 1/5
と入力します。
. list chol choln in 1/5

データは同じに見えますが、descibe
を使用して、
choln が数値変数(int)として格納されていることを確認できます。
help data_types
と入力すると、さまざまなタイプの数値データについて詳しく知ることができます。
. describe chol choln

また、summary chol choln
と入力して、
choln が Stata の集計コマンドで機能することを確認できます。
. summary chol choln

数値データには、「%」や「$」などの記号が含まれる場合があります。 ignore() オプションを使用して、destring にこれらの記号を無視するように指示できます。 数値データを文字列データに変換する tostring という関連コマンドがあることに注意してください。 choln を文字列に戻してみましょう。
. tostring choln, gen(chols)
最後に 3 つの変数を一覧表示してみましょう。
. list chol choln chols in 1/5
. describe chol choln chols

生のデータは 3 つの変数すべてで同じに見えますが、学習したように、ストレージタイプが重要です。 そして、必要に応じてタイプを変換する方法をご紹介しました。
参考
さらに詳しい内容につきましては、下記のマニュアルをご覧ください。