StatsKit は確立・統計に関連するパッケージをまとめた統合パッケージです。StatsKit をインストールすれば次のパッケージが同時にインストールされます。よって、確立・統計に関する処理を行う場合、StatsKit をインストールすれば必要なパッケージが手に入るということになります。
- Bootstrap (サンプリングなど)
- CategoricalArrays (カテゴリー変数 / 列挙型)
- Clustering (分類分け)
- CSV (カンマ区切りデータ)
- DataFrames (行列を便利に扱う)
- Distances (ベクトルどうしの距離の強化)
- Distributions (確率分布)
- GLM (線形モデル)
- HypothesisTests (仮説評価)
- KernelDensity (カーネル密度推定)
- Loess (局所回帰)
- MultivariateStats (多変量解析)
- MixedModels (混合モデル)
- StatsBase (基礎的統計関数)
- ShiftedArrays (配列の大まかな概観)
- TimeSeries (軽量な時間分析)
Bootstrap の使用例
このリストの先頭の Bootstrap を使用してみます。この Bootstrap は StatsKit パッケージの子パッケージなので using StatsKit.Bootstrap とする必要があります。
using StatsKit.Bootstrap using Statistics # 平均が 0 で標準偏差が 1 の正規分布に従う乱数 100 からなる配列 some_data = randn(100) n_boot = 1000 # std は標準偏差を求める Statistics の関数 bs1 = bootstrap(std, some_data, BasicSampling(n_boot)) bs2 = bootstrap(std, some_data, BalancedSampling(n_boot)) println(bs1) println(bs2)
実行例
$ julia .\bootstrap.jl Bootstrap Sampling Estimates: Var │ Estimate Bias StdError │ Float64 Float64 Float64 ─────┼────────────────────────────────── 1 │ 1.04718 -0.00586388 0.0700483 Sampling: BasicSampling Samples: 1000 Data: Vector{Float64}: { 100 } Bootstrap Sampling Estimates: Var │ Estimate Bias StdError │ Float64 Float64 Float64 ─────┼────────────────────────────────── 1 │ 1.04718 -0.00742811 0.0703431 Sampling: BalancedSampling Samples: 1000 Data: Vector{Float64}: { 100 }
StatsBase の使用例
StatsKit に含まれるパッケージのうち、最も基礎的なパッケージが StatsBase です。幾何平均を StatsBase と定義に基づいて計算してみます。
using StatsKit.StatsBase # 幾何平均を StatsBase を使って計算 a = [1, 3, 7] gm0 = geomean(a) # 幾何平均を定義に基づいて計算 gm1 = (a[1] * a[2] * a[3]) ^ (1.0/3.0) @show gm0, gm1 println(isapprox(gm0, gm1))
実行結果
$ julia statsbase.jl (gm0, gm1) = (2.7589241763811208, 2.7589241763811203) true