『徳島大学 教育・研究者情報データベース (EDB)』---[学外] /
ID: Pass:

登録内容 (EID=376450)

EID=376450EID:376450, Map:0, LastModified:2021年6月17日(木) 13:29:56, Operator:[北 研二], Avail:TRUE, Censor:0, Owner:[北 研二], Read:継承, Write:継承, Delete:継承.
種別 (必須): 著書 [継承]
言語 (必須): 日本語 [継承]
招待 (推奨):
審査 (推奨):
カテゴリ (推奨): 研究 [継承]
共著種別 (推奨): 学内共著 (徳島大学内研究者との共同研究 (学外研究者を含まない)) [継承]
学究種別 (推奨):
組織 (推奨):
著者 (必須): 1.北 研二 ([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.情報光システムコース.情報工学講座])
役割 (任意):
貢献度 (任意):
学籍番号 (推奨):
[継承]
2.西村 良太 ([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.情報光システムコース.情報工学講座]/[徳島大学.先端技術科学教育部.システム創生工学専攻.知能情報システム工学コース.基礎情報工学講座])
役割 (任意):
貢献度 (任意):
学籍番号 (推奨):
[継承]
3.松本 和幸 ([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.情報光システムコース.情報工学講座])
役割 (任意):
貢献度 (任意):
学籍番号 (推奨):
[継承]
題名 (必須): (英) Introduction to Data Preprocessing in AI and Machine Learning  (日) AI・機械学習のためのデータ前処理 [入門編]   [継承]
副題 (任意): (英) Getting Started with Python  (日) ―Pythonでゼロからはじめる―   [継承]
要約 (任意): (英) Around 2010, the term "Big Data" began to rapidly permeate the world around us. At the same time, the construction of intelligent AI systems based on machine learning from big data has even become a boom these days. This book focuses on the pre-processing of data, which is an inevitable part of building such machine learning systems, and although the primary focus is on machine learning systems such as AI, the various techniques described in this book can also be used effectively in data mining and data analysis to acquire useful knowledge from big data. However, the various techniques described in this book can also be used effectively in data mining and data analysis to obtain useful knowledge from big data.The term "big data" is pleasant to the ears and may sound like a treasure trove, but in fact big data is a mixture of cobbles and stones, a mixture of treasure and garbage. In fact, big data is a mixture of treasure and trash, and the larger the scale of the data, the more trash there is, and the more difficult it becomes to extract the treasure from it. In the field of computer science, there is a saying, "Garbage In, Garbage Out" (or GIGO for short). To build a good machine learning system, it is important to eliminate garbage from data and process the data into a form that is easy to learn, which is the essence of preprocessing.Recently, many frameworks and libraries for machine learning such as TensorFlow and Keras are available free of charge, and using these frameworks and libraries may seem to lower the threshold for programming. Using publicly available datasets for machine learning, anyone can easily create an AI system. However, there is a big problem when building your own system using your own data set. As is often said, real-world data is dirty. If you use the data as it is, that is exactly what you will get.If we use the data as it is, we will end up in a "Garbage In, Garbage Out" situation. Whether or not a useful AI system can be built from real data depends on the success of pre-processing. According to one theory, in the actual construction of AI and machine learning systems, 60-80% of the time spent by engineers is spent on data collection and preprocessing.This book focuses on preprocessing techniques, which have not been sufficiently covered in conventional books on machine learning, and aims to be a practical book where readers can understand the techniques not only by explaining them but also by actually running programs. This book has a sister volume, "Practical Edition", which is planned to be published in the near future. In "Practical Edition", more advanced preprocessing techniques and preprocessing techniques for media data such as text, images, sound, and music are explained.  (日) 2010年ごろを境に,ビッグデータという言葉が,わたしたちの身の回りに急速に浸透し始めた.同時に,ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている.本書は,これらの機械学習システムを構築するうえで避けては通れない,データの前処理の部分を中心に解説している.AI などの機械学習システムを第一に想定しているが,本書で説明する各種の技術は,ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる. さて,ビッグデータという言葉は耳に心地よく,なんとなく宝の山のように感じるかもしれないが,実はビッグデータは玉石混交であり,宝とゴミが入り混じっている.さらには,データの規模が大きくなればなるほどゴミも増え,その中から宝を取り出すのがますます困難になってくる.コンピュータサイエンスの分野では,``Garbage In, Garbage Out" (略してGIGO) という警句がある.文字通り,「ゴミからはゴミしか得られない」 「ゴミを入れればゴミが出てくる」 ことを意味しているが,この警句はまさに機械学習の一面を言い当てている.よい機械学習システムを構築するためには,データからゴミを排除し,データを学習しやすい形に加工するという作業が重要となってくるが,これこそがまさしく前処理の真髄である. 最近は,TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり,これらのフレームワークやライブラリを利用することで,一見,プログラミングの敷居は低くなってきているようにみえる.公開されている機械学習用のデータセットを利用して,誰もが簡単にAI システムを作ることができる.しかし,独自のデータセットを用いて,独自のシステムを構築する場合には,大きな問題が立ちはだかっている.よくいわれていることであるが,現実のデータは汚い.データをそのまま使えば,それこそ ``Garbage In, Garbage Out" の事態に陥る.現実のデータから,有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる.また,一説によると,実際のAI や機械学習システム構築の現場では,エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているともいわれている. 本書では,従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて,技術の単なる解説だけではなく,実際に動くプログラムを通して,読者が理解できるような実践的な書を目指した.本書には姉妹編として 『実践編』 も出版が計画されているが,『実践編』ではより高度な前処理技術と,テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した.本書『 入門編』 とあわせてご活用いただきたい.   [継承]
キーワード (推奨): 1.人工知能 (artificial intelligence) [継承]
2.機械学習 (machine learning) [継承]
3. (英) Python (日) Python (読) [継承]
4. (英) Preprocessing (日) 前処理 (読) [継承]
5.データ解析 (data analysis) [継承]
6.データマイニング (data mining) [継承]
7. (英) Google Colab (日) Google Colab (読) [継承]
8. (英) Big Data (日) ビッグデータ (読) [継承]
9. (英) Feature Selection (日) 特徴選択 (読) [継承]
10. (英) Dimensionality Reduction (日) 次元削減 (読) [継承]
11. (英) NumPy (日) NumPy (読) [継承]
12. (英) pandas (日) pandas (読) [継承]
13. (英) scikit-learn (日) scikit-learn (読) [継承]
14. (英) matplotlib (日) matplotlib (読) [継承]
15. (英) TensorFlow (日) TensorFlow (読) [継承]
16. (英) Keras (日) Keras (読) [継承]
17. (英) Data Cleaning (日) データクリーニング (読) [継承]
18. (英) Feature Extraction (日) 特徴抽出 (読) [継承]
19. (英) Scaling (日) スケーリング (読) [継承]
20. (英) Standardization (日) 標準化 (読) [継承]
21.ノーマライゼーション (normalization) [継承]
22. (英) Normalization (日) 正規化 (読) [継承]
23. (英) Data Cleansing (日) データクレンジング (読) [継承]
24. (英) Data Augmentation (日) データ拡張 (読) [継承]
25. (英) Binning (日) ビニング (読) [継承]
26. (英) Discretization (日) 離散化 (読) [継承]
27. (英) Outlier (日) 外れ値 (読) [継承]
28. (英) IQR (日) 四分位範囲 (読) [継承]
29. (英) Boxplot (日) 箱ひげ図 (読) [継承]
30. (英) Smirnov-Grubbs' test (日) スミルノフ・グラブス検定 (読) [継承]
31. (英) Missing Value (日) 欠損値 (読) [継承]
32. (英) List-wise Case Deletion (日) リストワイズ除去 (読) [継承]
33. (英) Pair-wise Case deletion (日) ペアワイズ除去 (読) [継承]
34. (英) Single Imputation (日) 単一代入法 (読) [継承]
35. (英) Multiple Imputation (日) 多重代入法 (読) [継承]
36. (英) Filter Method (日) フィルタ法 (読) [継承]
37. (英) Chi-squared Test (日) カイ二乗検定 (読) [継承]
38.分散分析 (analysis of variance) [継承]
39. (英) Pearson Correlation Coefficient (日) ピアソン相関係数 (読) [継承]
40. (英) PCA (日) 主成分分析 (読) [継承]
41. (英) NMF (日) 非負値行列因子分解 (読) [継承]
42. (英) CCA (日) 正準相関分析 (読) [継承]
43. (英) LDA (日) 線形判別分析 (読) [継承]
44. (英) Kernel PCA (日) カーネル主成分分析 (読) [継承]
45. (英) t-SNE (日) t-SNE (読) [継承]
46. (英) UMAP (日) UMAP (読) [継承]
47. (英) MDS (日) 多次元尺度構成法 (読) たじげんしゃくどこうせいほう [継承]
48.自己組織化写像 (self-organizing map) [継承]
49. (英) autoencoder (日) 自己符号化器 (読) [継承]
50. (英) SMOTE (日) SMOTE (読) [継承]
発行所 (必須): (英) Kagakujyoho Shuppan Co., Ltd. (日) 科学情報出版 (読) かがくじょうほうしゅっぱん [継承]
誌名 (任意):
(任意): [継承]
(任意): [継承]
(任意): [継承]
都市 (必須): 東京 (Tokyo/[日本国]) [継承]
年月日 (必須): 西暦 2021年 6月 16日 (令和 3年 6月 16日) [継承]
URL (任意): https://www.it-book.co.jp/books/117.html [継承]
DOI (任意):
PMID (任意):
NAID (任意):
WOS (任意):
Scopus (任意):
評価値 (任意):
被引用数 (任意):
指導教員 (推奨):
備考 (任意): 1.(英) There will be a sequel: "Data Science with Python: Hands-On Data Preprocessing in AI and Machine Learning"  (日) 続編:―Pythonでデータサイエンス― AI・機械学習のためのデータ前処理 [実践編]   [継承]

標準的な表示

和文冊子 ● 北 研二, 西村 良太, 松本 和幸 : AI・機械学習のためのデータ前処理 [入門編], --- ―Pythonでゼロからはじめる― ---, 科学情報出版, 東京, 2021年6月.
欧文冊子 ● Kenji Kita, Ryota Nishimura and Kazuyuki Matsumoto : Introduction to Data Preprocessing in AI and Machine Learning, --- Getting Started with Python ---, Kagakujyoho Shuppan Co., Ltd., Tokyo, June 2021.

関連情報

Number of session users = 0, LA = 0.61, Max(EID) = 378121, Max(EOID) = 1011686.