Posts

1 Introduction

1 Introduction DBMS & DBS DBS：数据库系统包括：DBMS、数据库、数据库应用程序、数据库管理人员 DBMS：数据库管理系统对数据的管理包括：定义信息的存储格式、提供操作信息的方法三级模式结构内模式（物理层）：数据如何存储、第层数据结构逻辑模式（逻辑层）：描述数据库中存的是什么数据，以及这些数据之间的关系，数据库管理人员运用逻辑层的抽象。是一个全局逻辑结构。外模式（视图层）：数据库用户能够看到的和使用的局部数据的逻辑结构。系统可以为同一个数据库提供多个视图。逻辑数据独立性：当概念模式变化时，可以不改变外部模式和应用程序。物理数据独立性：当内部模式变化时，可以不改变概念模式和外部模式。 Instance（实例）：某一时刻，数据库中存储的数据集合 Schema（模式）：数据库系统的总体设计 Data-Definition Language (DDL)：create、alter、drop Data-Manipulation Language (DML)：如SQL中的insert、delete from、update

August 30, 2021 Read

Relation Database

2 Relation Database 关系模式关系实例 super key：一个或多个属性的集合，这些属性的组合可以使我们在一个关系中唯一地标识一个元组。 candidate key：最小的super key primary key：被设计者选中的 candidate key **foreign key: ** 一个关系模式（r1）在它的属性中包括另一个关系模式（r2）的 primary key，则这个属性在r1上称作参照r2的 foreign key. r1称作 foreign key 依赖的参照关系（referencing relation），r2称作 foreign key 的被参照关系(referenced relation)。 **参照完整性约束(referential integrity constraint): **在参照关系中任意元组在特定属性上的取值必然等于被参照关系在特定属性上的取值。

August 30, 2021 Read

SQL

3 SQL Data Definition create table create table instructor( ID char(5), name varchar(20) not null, dept_name varchar(20), salary numeric(8,2), primary key(ID), foreign key(dept_name) references department, check(salary>0); ) insert insert into instructor values(080040, 'Jack', 'Com.Sci', 8000) delete delete from isntructor drop drop table r alter table alter table r add A D alter table r drop A Select Query select distinct dept_name from instructor # 去重 select all dept_name from instructor # 不去重 select T.

August 30, 2021 Read

大数据组件

大数据组件 Google的“三驾马车”： Google File System (GFS) 适用于大规模分布式数据处理的、可扩展的分布式文件系统 MapReduce 一种用于大规模分布式数据的计算框架 BigTable –一种构建在GFS之上的分布式数据库系统 1 Hadoop Hadoop是Apache软件基金会旗下的一个开源的大数据处理框架。 Hadoop基础架构 –NameNode：负责管理HDFS的元数据信息 –Secondary NameNode：协助NameNode管理HDFS元数据信息 –DataNode：负责实际数据的存储 –JobTracker：负责MapReduce作业管理、资源调度等 –TaskTrack：负责Map以及Reduce任务的执行和任务状态的回报 Hadoop生态系统 2 HDFS Hadoop Distributed File System 与MaReduce同为Hadoop的核心组件块级别的分布式文件系统 3 HBase HBase是谷歌BigTable的开源实现，因此，具有与 BigTable类似的特性采用HDFS作为底层存储依赖Zookeeper提供的分布式协调服务与传统关系型数据库的区别：数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式；HBase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串。数据操作：只有简单的插入、查询、删除、清空。存储模式：基于列存储，每个列族都由几个文件保存，不同列族的文件是分离的。数据索引：HBase只有一个索引——行键，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描。数据维护：在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧的版本仍然保留。 HBase系统架构 HMaster HMaster可以存在多个，主HMaster由ZooKeeper动态选举产生协调RegionServer 管理元信息 ZooKeeper 内部存储着有关HBase的重要元信息和状态信息，担任HMaster与RegionServer之间的服务协调角色 RegionServer 负责Region的存储和管理并与Client交互处理读写请求 Client Client提供HBase访问接口与RegionServer交互读写数据，并维护cache加快对HBase的访问速度。 4 Kafka 为了降低数据生产者和消费者之间的耦合度而引入的一层“中间件”。

August 30, 2021 Read

Java面试问题

Java面试问题底层实现 Arrays.sort的底层实现原理：数据量小于等于60：使用插入排序数据量大于60：根据数据类型选择排序方式：基本类型：使用快速排序。因为基本类型相等的值都指向同一个常量池，故不需要考虑稳定性。 Object类型：使用归并排序。因为其具有稳定性。

August 27, 2021 Read

排序方法总结

排序方法总结排序方法时间复杂度（平均）时间复杂度（最好）时间复杂度（最坏）空间复杂度稳定性冒泡排序 O(n^2) O(n) O(n^2) O(1) 稳定插入排序 O(n^2) O(n) O(n^2) O(1) 稳定快速排序 O(nlogn) O(nlogn) O(n^2) O(nlogn) 不稳定归并排序 O(nlogn) O(nlogn) O(nlogn) O(n^2) 稳定堆排序 O(nlogn) O(nlogn) O(nlogn) O(1) 不稳定冒泡排序依次比较相邻元素，并把大数向后交换，比完一轮后最大的数换到了最后。重复以上步骤，将第二大的元素放到倒数第二位… 插入排序对于未排序元素，在已排序序列中从后向前扫描，找到相应位置并插入。 void merger_sort(Type A[], int left, int right) { if(left < right) { int middle = (left+right)/2; merger_sort(A, left, middle); merger_sort(A, middle, right); merge(A, B, left, middle, right);//合并到数组B copy(A, B, left, right);//复制回数组A } } void merge(Type A[], Type B, int left, int middle, int right) { int i = left, j = middle+1, k=1; while((i < middle) && (j <= right)) { if(c[i] <= c[j]) d[k++] = c[i++]; else d[k++] = c[j++]; } if(i > middle) { for(int q = j; q < m; q++) d[k++] = c[q]; } else { for(int q = i; q <= m; q++) d[k++] = c[q]; } } 快速排序从数列中挑一个元素，作为“基准”(pivot)。

August 27, 2021 Read

最小生成树

最小生成树 class Graph { public int vertexs; // 顶点个数 public char[] data; // 顶点标识 public int[][] weight; // 邻接矩阵（边的权值） public int edg_num; // 边的条数 public Graph(int vertexs, char[] data, int[][] weight) { if (vertexs != data.length || weight.length != vertexs || weight[0].length != vertexs) { throw new RuntimeException("初始化异常！"); } this.vertexs = vertexs; this.data = data; this.weight = weight; } } Prime算法 public class Prime { final static int MAX = Integer.

August 27, 2021 Read

AndrewNG-CV基础

AndrewNG-CV 基础 1 The Basics of Convolutional Neural Networks 1.1 Edge detection Use filter to do the convolution operation One Example Convolution function in tensorflow: tf.nn.conv2d Other Examples 1->-1: light->dark -1->1: dark->light Furthermore, treat the 9 numbers as parameters, and use backward propagation to improve them. 1.2 Padding(填充) To preserve the information on the edges and corners. Valid convolutions: No padding $n\times n$ * $f\times f$ ——> $(n-f+1)\times(n-f+1)$ Same convolutions: Pad so that output size is the same as the input size.

August 5, 2021 Read

AndrewNG-DL基础

AndrewNG-Deep Learning 基础 1 Logistic Regression Model 1.1 Binary Classification To learn a classifier that can input an image represented by the feature vector x, and predict the corresponding label y. Notation——n training examples: ($ n_x $为向量维数，$X$为$ n_x\times m $矩阵) $$ (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}), …, (x^{(m)},y^{(m)}),x\in R^{n_x}, y\in {0,1} $$ $$ X=[x^{(1)},x^{(2)},…,x^{(m)}], X\in R^{n\times m} $$ $$ Y=[y^{(1)},y^{(2)},…,y^{(m)}], Y\in R^{1\times m} $$ 1.2 Logistic Regression An algorithm for binary classification problems.

August 5, 2021 Read

AndrewNG-DL应用

AndrewNG-DL 应用 1 Setting up ML application 1.1 Train/dev/test set Training set Validation/Development set: used for selecting model. Test set: used for assessment of the generalization error of the final chosen model. In previous era, we with limited data, we use 60/20/20 for tain/dev/test. In Big data era, we use 99% of data as training set. Make sure dev and test set come from same distribution.

August 5, 2021 Read

AndrewNG-GAN基础

AndrewNG-GAN Course 1 —— Build Basic GANs 1.1 Introduction Generative Models: Variational Autoencoders(VAE): GANS: GAN in Real Life GAN的创始人：Ian Goodfellow GAN的应用领域： Image Generation, Deep fake Text Generation Data Augmentaion Image Filters 1.2 Basic Components Discriminator Use Neural Networks, input: features(image), output: probability 0.85这个概率也会交给Generator Input features e.g.: RGB pixel values for images Generator Use Neural Networks, input: class+noise vector, output: features(image)

August 5, 2021 Read

Java基础语法

I. Java 基础语法基本语法类名的首字母应该大写。如果类名由若干单词组成，那么每个单词的首字母应该大写。方法名应该以小写字母开头。如果方法名含有若干单词，则后面的每个单词首字母大写。源文件名必须和类名相同。一个源文件中只能有一个 public类，可以有多个非 public类所有的 Java 程序由 public static void main(String[] args) 方法开始执行。 Java 源程序与编译型运行区别 Java 基本数据类型类型数据类型长度(位) 整型 byte 8 整型 short 16 整型 int 32 整型 long 64 整型 boolean 1 整型 char 16 浮点型 float 32 浮点型 double 64 自动类型转环 byte,short,char—> int —> long—> float —> double

July 27, 2021 Read